功能说明
本功能支持查询海量网站网址的网源码的Title Keywords Description,支持自定义爬虫分析,支持自动换IP设置。
功能主界面
查询设置
- 爬虫信息
这里的爬虫信息是工具通过爬虫方式访问网页时候,可以模拟特定的搜索引擎爬虫,可以自己选择具体的搜索引擎爬虫,也可以输入自定义的爬虫信息。 - 编码
网页编码一般分为"gb2312"和"utf-8"两种,也可以选择软件自动判断,如果编码没选好,可能导致获取的数据是乱码。 - 启用自动换IP
如果你分析的是同一个网站下的大批量网址,可能会触发网站的防屏蔽措施导致获取不到网页数据。有些网站是针对访问IP限制,这时候可以通过换IP的方式来解除限制。点击"换ip条件"可以设置当访问的网页数据满足一定条件时(被封)启用自动换IP,如下图:
一般被封后,获取的网页数据会不正常,展示一定的提示语句如"你的访问太过于频繁"等,或者网页内容特别短,正常网页有几万字节,屏蔽后提示内容的网页一般只有一万不到的字节。工具提供判断网页的内容长度,和判断网页包含内容两种方式来判断是否屏蔽。当满足设置的屏蔽条件,将触发换IP,根据你设置的换IP方式工具会启用换IP,换IP具体设置请参考"自动换IP设置"。