[Python] Week5 情话网小爬虫
作者:精品下载站 日期:2020-12-19 00:00:00 浏览:89 分类:编程开发
太久没写爬虫了,手生到连xpath怎么提取出来都忘记了,requests取回的数据编码都忘记怎么转换了
于是乎在百度上随便搜了一个情话网,来进行爬取。
目标地址:https://www.qinghuawang.net/
一如既往的习惯,打开网站后F12,看是不是ajax请求
也是,看着就很老的一个网站怎么会用ajax呢,想多了。
于是就用原始的Xpath咯。
打开浏览器里面的xpath helper
按住shift键,去选择文章标题
这样就获取到了一条标题的内容,然后就是稍微修改修改xpath,从原始的
/html/body[@class='listBody']/div[@class='bodyMain']/div[@class='bodyMainBody']/div[@class='infoList']/ul[@class='infoListUL mt5']/li[1]/a[@class='articleTitle fl']
修改一下
//li/a[@class='articleTitle fl']
就可以取到所有的标题了。
但是这样取出来的数据并不是纯文本,他还包含了一些html标签,于是乎在后面加上一个/text()
//li/a[@class='articleTitle fl']/text()
这样就可以获取到一页中的标题了
用python随便写一下试试。
发现取出来之后是乱码,那就肯定是编码问题了,打开F12,查看html中的head,发现是gb2312
提笔忘字之,怎么转换编码来着,百度了一下。
res=requests.get(url).content res=res.decode("gb2312")
以前怎么写的忘记了,但应该不是这么麻烦的。
然后是这样的
获取了一页的标题后,然后再获取详情页的链接,因为是a标签,[email protected]个属性了
//li/a[@class='articleTitle fl'][email protected]
还得进入里面去获取文章内容咯,于是随便点进去看一下,
详情页地址:https://www.qinghuawang.net/a/1808.html
xpath发现,都是包含在p标签内
于是只要把/p后面的[1]去掉就可以获取到所有的段落咯,再加上一个text()就可以获取到文本了。
然后放到python里面试一下。
然后又报错了,大概意思是gb2312无法解析0xfd
于是百度了一下,
解决之后。
然后就是将这些话保存至txt咯。
最后加几个For循环去爬取所有的内容咯
最后整理代码如下,没进行清洗了,就开了个多线程:
#-*-coding:utf-8-*- """ ------------------------------------------------- @Author:Lan @Blog:www.lanol.cn @Date:2020/12/19 @Description:I'minchargeofmyCode ------------------------------------------------- """ importparsel importrequests importthreading defgetContet(urls): foriinurls: url='https://www.qinghuawang.net/'+i res=requests.get(url).content res=res.decode("gb2312",errors='ignore') xpath=parsel.Selector(res) content=xpath.xpath("//p/text()").extract() withopen('sentence.txt','a+',encoding='utf8')asf: forjincontent: f.write(j+" ") print(j) defgetAll(): foriinrange(1,20): url=f'https://www.qinghuawang.net/qinghua/list_1_{i}.html' res=requests.get(url).content xpath=parsel.Selector(res.decode('gb2312')) urlList=xpath.xpath("//li/a[@class='articleTitlefl'][email protected]").extract() threading.Thread(target=getContet,args=(urlList,)).start() if__name__=='__main__': getAll()
废了,废了
猜你还喜欢
- 03-29 [编程相关] Winform窗体圆角以及描边完美解决方案
- 03-29 [前端问题] has been blocked by CORS policy跨域问题解决
- 03-29 [编程相关] GitHub Actions 入门教程
- 03-29 [编程探讨] CSS Grid 网格布局教程
- 10-12 [编程相关] python实现文件夹所有文件编码从GBK转为UTF8
- 10-11 [编程算法] opencv之霍夫变换:圆
- 10-11 [编程算法] OpenCV Camshift算法+目标跟踪源码
- 10-11 [Python] python 创建 Telnet 客户端
- 10-11 [编程相关] Python 基于 Yolov8 + CPU 实现物体检测
- 03-15 [脚本工具] 使用go语言开发自动化脚本 - 一键定场、抢购、预约、捡漏
- 01-08 [编程技术] 秒杀面试官系列 - Redis zset底层是怎么实现的
- 01-05 [编程技术] 《Redis设计与实现》pdf
取消回复欢迎 你 发表评论:
- 精品推荐!
-
- 最新文章
- 热门文章
- 热评文章
[短剧] 2025年06月03日 精选+付费短剧推荐25部
[软件合集] 25年6月3日 精选软件44个
[短剧合集] 2025年06月2日 精选+付费短剧推荐39部
[软件合集] 25年6月2日 精选软件18个
[软件合集] 25年6月1日 精选软件15个
[短剧合集] 2025年06月1日 精选+付费短剧推荐59部
[短剧] 2025年05月31日 精选+付费短剧推荐58部
[软件合集] 25年5月31日 精选软件66个
[电影] 黄沙漫天(2025) 4K.EDRMAX.杜比全景声 / 4K杜比视界/杜比全景声
[风口福利] 短视频红利新风口!炬焰创作者平台重磅激励来袭
[剧集] [央视][笑傲江湖][2001][DVD-RMVB][高清][40集全]李亚鹏、许晴、苗乙乙
[电视剧] 欢乐颂.5部全 (2016-2024)
[电视剧] [突围] [45集全] [WEB-MP4/每集1.5GB] [国语/内嵌中文字幕] [4K-2160P] [无水印]
[影视] 【稀有资源】香港老片 艺坛照妖镜之96应召名册 (1996)
[剧集] 神经风云(2023)(完结).4K
[剧集] [BT] [TVB] [黑夜彩虹(2003)] [全21集] [粤语中字] [TV-RMVB]
[资源] B站充电视频合集,包含多位重量级up主,全是大佬真金白银买来的~【99GB】
[影视] 内地绝版高清录像带 [mpg]
[书籍] 古今奇书禁书三教九流资料大合集 猎奇必备珍藏资源PDF版 1.14G
[美图] 2W美女个美女小姐姐,饱眼福
[电视剧] [突围] [45集全] [WEB-MP4/每集1.5GB] [国语/内嵌中文字幕] [4K-2160P] [无水印]
[剧集] [央视][笑傲江湖][2001][DVD-RMVB][高清][40集全]李亚鹏、许晴、苗乙乙
[电影] 美国队长4 4K原盘REMUX 杜比视界 内封简繁英双语字幕 49G
[电影] 死神来了(1-6)大合集!
[软件合集] 25年05月13日 精选软件16个
[精品软件] 25年05月15日 精选软件18个
[绝版资源] 南与北 第1-2季 合集 North and South (1985) /美国/豆瓣: 8.8[1080P][中文字幕]
[软件] 25年05月14日 精选软件57个
[短剧] 2025年05月14日 精选+付费短剧推荐39部
[短剧] 2025年05月15日 精选+付费短剧推荐36部
- 最新评论
-
- 热门tag