后期会不定期分享更多Python爬虫相关知识

adminadmin 03-07 47 阅读 0 评论

  要求:

  http://sports.163.com/zc/

  提取网站中全部新闻标题名称,标题路由地址,标签,时间,评论数保存到文档中

  案例分析:

  (1)请求部分

  后期会不定期分享更多Python爬虫相关知识

  后期会不定期分享更多Python爬虫相关知识

  查看网站信息可知,该网站的请求地址会随着页面的变化而发生变化。如果是第一页,则可以直接引用网址,如果是单位数的页面,可以直接改变个位数页,以此类推...在这里,我们就可以对路由地址进行if分类判断

  (2)解析部分

  首先取出信息所在的节点,里面就包含了每页中的所有新闻信息的列表,如果用正则方法爬取,代码如下:

  如果用xpath方法爬取,代码如下:

  当然,也可以用beautifulsoup方法,方法众多,可以任意选用

  当我们解析出列表标签后,我们就可以进行深入解析了

  正则方法:大家要熟练掌握re.search()和re.findall()为主的正则匹配方法

  xpath方法:

  解析完数据之后,就要进行数据的保存,可以保存到数据库中,也可以报道到文本txt中

  保存到文档:

  保存到数据库:

  当我们爬取的数据量比较大时,我们就需要考虑项目的稳定性了。比如我们可以加time.sleep(),也可以写逻辑做容错处理,比如一些简单的处理:

  结果展示:

  后期会不定期分享更多Python爬虫相关知识

  保存到文本:

  后期会不定期分享更多Python爬虫相关知识

  保存到数据库:

  后期会不定期分享更多Python爬虫相关知识

  喜欢小编的关注、点赞走一波呦,后期会不定期分享更多Python爬虫相关知识

后期会不定期分享更多Python爬虫相关知识

后期会不定期分享更多Python爬虫相关知识

The End 微信扫一扫

文章声明:以上内容(如有图片或视频在内)除非注明,否则均为欧洲杯赛程表|欧洲杯直播|CCTV5在线直播原创文章,转载或复制请以超链接形式并注明出处。

本文作者:admin本文链接:https://6y2w302.com/post/1424.html

上一篇 下一篇

相关阅读

发表评论

访客 访客
快捷回复: 表情:
评论列表 (暂无评论,47人围观)

还没有评论,来说两句吧...

取消
微信二维码
微信二维码
支付宝二维码