爬虫抓取到的页面,会保存到搜索引擎的数据库中,记录已经被爬行但还没有抓取和已经抓取的页面。爬虫抓取页面后的HTML中解析出新的链接URL,与数据库中的数据进行对比,如果数据库中没有的页面,就编入索引程序列表。
还有一个就是上文说的,使用sitemap.xml提交给搜索引擎入口。引导爬虫更好的抓取想要被抓取的页面。
数据的保存,如果被抓取未编入索引,那么就是触发了搜索引擎的重复内容检测。爬虫在爬行和抓取的时候,会对页面进行重复内容的检测,如果站点权重低,却有大量转载或者原文抄袭的内容时,很可能终止掉爬虫的爬行,所以要求页面内容最好原创,如果实在写不出来是转载过来的,最好进行一定的修改。
再者就是对不良页面的过滤,如黄色页、病毒页等等,爬虫检测到有这些的内容,一般爬行一会马上就再跳出网站而不再爬行。
关于作者