SEO-搜索引擎的数据的过滤。 – 清心醉

通过清心醉

搜索引擎的过滤

SEO-搜索引擎的数据的过滤。

爬虫抓取到的页面，会保存到搜索引擎的数据库中，记录已经被爬行但还没有抓取和已经抓取的页面。爬虫抓取页面后的HTML中解析出新的链接URL，与数据库中的数据进行对比，如果数据库中没有的页面，就编入索引程序列表。

还有一个就是上文说的，使用sitemap.xml提交给搜索引擎入口。引导爬虫更好的抓取想要被抓取的页面。

数据的保存，如果被抓取未编入索引，那么就是触发了搜索引擎的重复内容检测。爬虫在爬行和抓取的时候，会对页面进行重复内容的检测，如果站点权重低，却有大量转载或者原文抄袭的内容时，很可能终止掉爬虫的爬行，所以要求页面内容最好原创，如果实在写不出来是转载过来的，最好进行一定的修改。

再者就是对不良页面的过滤，如黄色页、病毒页等等，爬虫检测到有这些的内容，一般爬行一会马上就再跳出网站而不再爬行。

关于作者

清心醉 administrator

发表评论
取消回复