蜘蛛抓取页面,却迟迟不见收录,这背后隐藏着怎样的搜索引擎逻辑呢?让我们一起揭开这层神秘的面纱。
. 爬取与收录的微妙关系
爬取和收录,听起来像是一对密不可分的伙伴,实则不然。它们是搜索引擎工作的两个独立环节。蜘蛛辛勤地爬取页面后,会将它们暂时存放在数据库中。只有当页面通过搜索引擎的审查,才会被正式收录并展示给用户。
. 蜘蛛抓取的两个阶段
第一阶段:全面抓取
蜘蛛对网站的URL进行“大小通吃”,无论是大站还是小站,它都会一一抓取。站长可以通过网站日志记录这一过程,从而分析网站的优化情况。
第二阶段:网页评级
抓取后,蜘蛛会对页面进行评级。PageRank算法是衡量网页重要性的一个著名方法。站长可以借鉴这一思路,对URL进行排序。但值得注意的是,PageRank是一个全局性算法,需要所有网页下载完成后,其计算结果才可靠。
. 爬取成功却不见收录的原因
蜘蛛将页面放入临时数据库后,搜索引擎会对内容进行审查。只有优质内容才能被放出并建立索引。不同蜘蛛的抓取页面评级也不尽相同,有的权重高,有的权重低。
如果网站提交后,首页快照已经放出,但内容仍未见收录,站长只需耐心等待。在此期间,避免进行大的改动,如修改title标题或URL,以免延长收录时间。
如果内容和首页都未放出,建议重新向百度提交,并提交sitemap地图,以通知蜘蛛抓取网站内容。