网站只收录一个主页是怎么回事?对于网站来说,正常应该是首页和内页都被搜索引擎收录,但是有些网站优化了很久,只收录首页,这是怎么回事?为什么内页都不收录?下面就跟着君创网络的小编一起来看看吧!
1、沙盒期—建立信任
网站刚上线,尤其是新域名新站,百度也有“建立信任期”的机制,这点体现在新站收录情况,百度将对新站进行审核,而百度则先收录首页,是因为主页权重高,而内页不收录是在百度的考核期内,这一点可以从网站日志上看,每天蜘蛛是否都有爬取,返回的是200代码还是400或404代码等。
2、网站架构
对于新网站来说,百度爬虫的抓取频率是非常有限的,如果你的网站架构设计不合理,在一定程度上,是该网站会影响相关页面的收录。
它主要包括:
① 首页到内容页与栏目页的距离,比如:Flash网站,首页一张图的网站。
② 首页到核心内容页的点击深度,尽量控制在1次点击,而不要超过3次。
③ 是否合理利用nofollow屏蔽一些不需要索引的页面,比如:about.html等。
④ URL地址是否标准化,是否产生过多的动态参数,产生蜘蛛陷阱。
3、新站原创保护
对于一个新网站,而不是老域名,理论上来说,这个域名是没有信任度的,事实上,这个时候我们需要尽量保持网站内容的质量,把索引放在第一位,而不是采集,为此:
① 禁止将未被收录的页面,向高权重网站投稿,而是第一时间,做百度网址提交。
② 如果你的网站有备案,并且备案号是独立全新的,你可以向百度资源平台提交新站保护。
③ 如果可以这里明确给大家一个建议就是做版权登记。
4、网站日志分析
对于网站日志的分析,是解决百度不包含其他页面的网站的一个非常有效的工具,它可以清楚地了解整个网站被用户和蜘蛛访问的情况:
① 审查部分页面是否由于错误配置以及百度系统缓存,导致蜘蛛被封禁,而无法访问。
② 比对不同搜索引擎到访与抓取的频率,审查是否是自身网站系统配置问题。
③ 选择一定周期,记录蜘蛛到访相对频繁的时间节点。
④ 是否存在异常蜘蛛,如:SEO推广软件数据分析爬虫,它是否占用了大量的带宽,对于这一点,您同时需要定期做服务器性能监控,以确保蜘蛛的访问周期,页面可以顺利访问。
5、robots.txt协议
Robots.txt协议是告诉搜索引擎哪些页面可以抓取,哪些页面不可以抓取,但是如果不小心设置错了参数,导致内页被屏蔽了,便会造成内页不被收录的情况。
新手建站,尤其是对站长的网站结构是不确定的,会有很多问题,往往是第一个禁止蜘蛛爬取,如网站结构设置为允许蜘蛛爬,和robots . txt的发布协议是大约一个星期,即使蜘蛛在这段时间,也不会收录。所以站长要检查页面内是否禁止。
6、服务器问题
服务器稳定性问题,蜘蛛爬行网站,只是抓住了服务器的不稳定性,那么蜘蛛就会留下不好的印象,这也会影响到收录。
7、网站资源分配
从多年的百度SEO的经验来看,任何一个站点的收录于排名,都是建立在一定的资源基础上,它包括:
① 网站内容质量
如果你的网站上的书是伪原创代写的,或者是采集的内容,那么,百度收录的网站首页,是很正常的,对于新网站,一定不要选择提交旧的内容。
② 站外外部链接
页面不被百度收录,还有一个原因是缺乏外链资源支持,蜘蛛没办法在第一时间抓取到新发内容,为此,您可能需要编写一些高质量的内容,发表在高权重的网站,并透过外链的形式,指向经常更新的页面。
③ 站内内链构建
相对于熊掌ID而言,实际上我们可以忽略内链的存在,而如果你并没有配置熊掌ID,那么,内链,是有利于提高新内容被发现的几率。
当你的页面长期不被收录的时候,你可以适当的利用内链,构建站内的信息流动。