实用小技巧网页数据爬取

网页爬取目标:采集中医中药网有关肺癌病因专题的所有文章,并读取到Excel文档中。使用软件:后裔采集器(免费)。具体操作步骤:首先,将需要采集的网页链接输入到采集器中,如图1所示(联网前提下操作)。

图1输入采集网址

其次,如图2所示,智能采集可以非常智能地识别网页上所有可以爬取的字段,如果点击“深入采集”,就可以爬取网页点击后的详细信息。如图3所示,在深度采集界面,点击“添加字段”,然后会有一个笔一样的东西,直接指定到想要爬取的数据就可以了,这样就可以自动识别。修改字段名称,并点击“保存”,开始采集。

需要注意的是,在采集过程中发现的一个问题就是可能深度采集的网页界面设计类型不是统一的,如“国”字型、拐角型、上下框架型等,虽然这种情况并不常见。我个人给出的解决办法就是,假如网页界面设计类型存在两种,则分别深度采集两次,最终汇总即可。

图2智能采集界面

图3深度采集界面

最后,爬取数据,并选用相应的格式进行保存即可。

图4数据爬取界面

图5保存爬取数据

预览时标签不可点收录于话题#个上一篇下一篇



转载请注明地址:http://www.webgametool.com/jbjc/7494.html
  • 上一篇文章:
  • 下一篇文章:
  • 热点文章

    • 没有热点文章

    推荐文章

    • 没有推荐文章