查看: 234|回复: 0
打印 上一主题 下一主题

爬虫采集数据时遇到的问题解决方案

[复制链接]

9万

主题

9万

帖子

28万

积分

管理员

管理员

Rank: 9Rank: 9Rank: 9

积分
289332
跳转到指定楼层
楼主
发表于 2020-2-16 23:15:18 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
现在,很多情况下,我们都需要采集网上的一些数据,但是现在网上的数据很多,就算是同类的数据,也可能出现在不同的网页上,或者说数据太过庞大,想要采集整理很麻烦也很复杂,现在网上比较方便快捷的方式就是网络爬虫,爬虫算是近几年随着互联网崛起大发展的技术之一。有时候新网站刚建立的时候,我们需要分析竞争对手的用户数据,借以找出自己的消费者群体着力点,细分自己的消费者群体,以达到前期正常上线并且有市场份额的目的。这里就聊聊我们在爬虫抓取的过程中会遇到的一些小问题:1、网页更新:一般网页中的信息都是会定时更新的,不是一成不变的,所以在采集数据的过程中,就要避开页面缓存的时间,在实际开发中,如果在知道网站缓存时间的情况下,我们可以让爬虫隔个几分钟爬一次就好了,当然这些就需要数据来调整维护了。2、网页乱码:很多时候我们已经成功抓取到了数据,但是因为乱码的问题,不能正常进行解析,虽然在html的meta中有一个叫做charset的属性,还有response.CharacterSet这个属性中同样也记录了编码方式,但是很多时候依旧不管用,这个时候就需要查看http头信息,找出服务器是否有什么局限问题。3、网页访问:很多网站会设置反爬虫的机制,这个时候我们就很难正常进行采集工作,常见的解决方法就是换一下当前的HTTP代理协议和ip地址信息,以达到正常访问的目的,现在网上有很多的服务商,比如说亿牛云HTTP等等。一般的抓取过程虽然是这样的,但是也不排斥会出现其他实际问题,具体的问题还是要实际操作实际解决。
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|Archiver|手机版|IT视频教程资源网 sitemap

GMT+8, 2024-10-17 21:19 , Processed in 0.604083 second(s), 22 queries .

快速回复 返回顶部 返回列表

客服
热线

微信
7*24小时微信 客服服务

扫码添
加微信

添加客服微信 获取更多

关注
公众号

关注微信公众号