当前位置:首页 > 新闻中心 > 网站优化

百度VIP大讲堂QA集锦:抓取、建库、解析

发布时间:2014-12-16

编者按:《VIP大讲堂》是百度站长平台于2014年为站长们解答建站、运营等问题而开设的讲堂,仅VIP俱乐部成员可报名参加。通过《VIP大讲堂》,站长们可以从百度官方了解到最新的百度技术动态、以及百度对待站点的态度等内容,还可以学习到关于搜索引擎优化、建站、内容建设、安全等多方面的内容。近日,百度站长平台发布了VIP大讲堂上海站的QA内容,主要包括Spider抓取、优先建库、以及网页解析三个方面。


主要QA内容如下:


问:为什么收录量像坐过山车一样的,还有为什么有些网页今天在明天就没了?


答:百度会周期建库,且每个库的收录量是恒定的,你老是有新增,肯定会再从库里淘汰一些,反正总是保持那个库是满的。在建库的过程中,你会感觉有波动。具体的怎么筛,哪个页面会留下哪个页面会淘汰,这个策略是有很多的,他随着时间的变化,收录的标准策略也是在发生微调。


问:我们站点使用CDN加速会不会比较容易造成蜘蛛无法抓取?因为有时候修改掉他绑定的什么东西。


答:如果要修改掉一定要通知到上一级,现在不存在这个问题,现在你如果修改掉也可以解析掉,之前可能会存在这个问题。


问:你们百度自己也有一个CDN加速,对抓录排名有没有影响?


答:在使用CDN加速这个问题上,我们对所有站点一视同仁。但我建议你使用技术能力强的CDN服务商,保证站点的稳定和速度,百度会更喜欢。


问:刚才您说IP上的站点数不能太多,那CDN这种情况怎么办?


答:CDN的情况另说,如果我们识别出来是CDN的话不会受站点数量的影响,如果你是提供独立IP的话会有这样一些问题。


问:还是IP上站点数量的问题,如果是主域跟二级域名呢?也受数量限制?


答:我说的是独立域名。当然质量比较好的二级域名也可以认为是独立域名。


问:多个域名,他有相同的一些内容,怎么建库?


答:如果是多域名在同一个主域下面有相同内容的话,不可能所有都建库,而且被建库的那个可能不是你希望的那个,所以尽量不要有相同的内容。


问:刚才讲的IP如果是多域名的话,好几百个IP域名,现在我们也用了CDN,按照刚才的说法,单个IP最多抓多少?1000万是说对站点还是对IP?


答:对IP,但1000万是我举例,不是实际的数据,这个数据不会分享出来的。


问:现在我的网站被很多蜘蛛爬,我想只让百度蜘蛛爬,百度蜘蛛IP多少?能设白名单么?


答:百度蜘蛛IP是不断变的,现在网上的确有一些白名单的说法,暂时是有较的,但不保证今后不会变,所以建议站点还是通过ua进行判断,我们百度站长平台上有相关的文章,你可以找一下。


问:如果我写robots只想禁掉动态链接的话,会不会影响动态参数前面正常链接的抓取?


答:不会的,你原来的页面还在,肯定会抓。


问:比如我们一个域名www.abcde.com,我们想把带?号的url全部禁掉,首页我们不要禁掉,怎么弄?


答:?前面有个*,后面再有个*就可以了。


问:我想了解,如果我现在收录有5万,大概多长时间才能把我原来收录5万重新抓取一遍?


答:不同站点不好说,一个是你站点做的很好,知名度很响更新很快质量很好就会快;如果你的站点默默无闻,贡献很少,可能就会很慢。


(接上个问题)


问:就是差不多的情况,大概。


答:这个没有人能估出来。


问:百度站长平台上有数据提交的工具,我们实时提交,你们也会实时抓取吗?


答:不会,他会有一层判断。现在只是通知你提交成功,后面什么时候抓,什么时候建库没有,我们正在研究要不要把这个分享出来。


问:我网站有一些列表页,都没有链接,担心百度抓不到


答:现在百度站长平台的站内搜索工具有一个绿色收录通道,在那里提交种子页,我们就知道的。


(接上个问题)


问:提交种子页面必须要用站搜?


答:是的。


问:如果说页面里url特别多的话,蜘蛛会不会有选择性的进行抓取?


答:不会,他都会一个不漏给你提出来,但会把JS、CSS这样的链接给过滤掉。但请注意,全部抓取过来之后会进行筛选,并不是所有都会建库。


问:现在很多网站都有自己的站内搜索,都会产生站内搜索结果页,百度不喜欢搜索结果页的话,我们用这个会不会对我们有影响?只是不喜欢还是对我们网站会有惩罚


答:蜘蛛会去抓,抓完之后重要是提取里面的链接。如果只有一两条这样的页面质量不好问题不大,如果整体质量较差,有可能受到惩罚。


问:新出的时效性文章当时没有被收录,后期是否还会被收录?


答:会


问:站点每天最高爬虫多少次?


答:这个其实说不好,有的站点我们一天会抓一两千万,有的站点只抓几个、几十个,看你的规模和质量,而且这个抓取量也是会根据网站的情况进行调整的。


问:我们的页面本身就很大,会不会解析不出来?


答:页面本身很大倒没问题,赶集、安居客这些量都很大,没有问题。我刚才说的例子,你每次都follow出来新链接,随机把后面的参数去掉都不影响这个网页的正常访问,这种肯定有问题的。


问:刚才说对URL的长度有要求,那对每一段、就是目录名的长度有没有要求


答:没有要求,我们是要求url从www开始到结束,总长度不超过1024个字节。


问:站内重复内容是怎么判断的?文本内容一样结构不一样,算不算重复?


答:算重复


问:假设是整个页面全是Flash,如果我把一些栏目或者最新的内容隐藏掉,不影响美观隐藏掉,如果用hidden属性能不能提取出来?CSS可不可以?


答:hidden可以提出来,但如果是注释就不会管。CSS不可以。


问:页面大小不超过1兆,是指页面压缩以前还是以后。


答:指页面压缩以后,不要超过1兆


问:我网站的信息已经过时了,但网页返回的是200,会受惩罚?为什么呀?


答:用户在搜索结果里点了你的结果,导流导到你的网站,但没什么可看的,对用户没有用,百度当然不喜欢。


问:现在我们很多网站,为了让用户觉得有意思,内容没了就放一张图片,写一些有意思的话,什么“工程师去哪啦”之类的,对百度友好不?


答:最好不要用,我知道站点是想让百度当内容死链来识别,但内容死链识别起来是有准确率和召回率风险的。


问:我们团购网站的确会有过期团购的页面,会受惩罚吗


答:如果量特别大、点击量很大的话肯定会有惩罚的。有些可以当内容死链被分析出来,如果分析不出来,会被一些其他的策略挖出来,会有这样的问题。


问:刚才说资讯内容页面,上面有个发布时间好,那如果页面上没有时间呢?


答:那我们往往是按当时抓取的时间来做判定。


问:评论里面时间重要吗。


答:百度更重视主体内容的时间,评论不算主体内容。


问:我们是个平台,很多产品其实只是一个型号变更了,其实颜色都是一模一样的,对蜘蛛而言仅仅只是几个字符,会被识别为重复吗


答:如果是一个产品的结构化信息的话,应该不会被认为是重复。如果你是简单内容摘要的方式进行介绍的话,可能会存在重复问题。


问:静态URL和动态URL区别大吗?


答:不大,我们现在认为静态和动态都一样的,因为从url上面他能够识别出来,但是抓取回来的东西不太一样。所以现在认为无论你是静态还是动态,我们都认为同样都是url来对待。


十二年专业建站,您值得托付的德清本地网络服务商
建站热线:4008870572,13905827262
县府网:660262

浙江德清试点医保城乡一体化 [2016-08-27] 湖州德清将成为全国首个实现公共... [2016-08-27] 浙江德清试水户籍制度改革 释放惠... [2016-08-27] 德清智造踏“云”奔跑 [2016-07-29] 老宅改精品民宿 德清民宿和地理“... [2016-07-29] 美翻!莫干山劳岭村老宅成度假民... [2016-07-23] 以城乡一体化改革为龙头 德清“击... [2016-07-23] 专家畅想德清通航产业未来 [2016-06-21] 莫干山上了今年9省的高考卷 德清... [2016-06-14] “十一”黄金周 我县旅游入账9.4... [2015-10-08]