Tag Archives: baidu

google与baidu搜索的分析

这个域名已经使用了大概3个月了。文章有了253篇了。
使用mt,也是为了生成静态,便于搜索引擎查找。现在看看效果:
 
google:可以搜索到384篇。平均1天扫描站点2-3次
baidu:可以搜索到8380篇,每小时扫描2次
但还有一个Inktomi Slurp的搜索引擎,扫描次数也是不低,仅仅次于baidu。但我不知道是从何而来
 
 
2006-01-31_11-27-15.jpg
 
 
再看看搜索后的结果:
对于google,搜索到的排名靠前的,都是分类或者日期的归档,几乎所有的单篇归档或者文章,都被忽略。
而对于baidu,几乎所有的归档都可以搜索到。且排序上不能很严格的看出是单篇归档,还是分类等。
 
然后对比车东的blog,却可以在google上得到比baidu多的多得结果。
 
再来看网站的来自于搜索引擎的页面:
可以看到,baidu对比google,已经是10倍的关系了。这个也是和收录的网页数目有关。

2006-01-31_11-38-37.jpg

 
所以分析来,主要有以下几点原因吧:
 
1、google的扫描似乎会判断文件日期。而对于mt,每次修改模版,都会重建所有页面,导致了google中认为你的网站不稳定,而google对于经常变动的文章不会收录。而baidu似乎则相对宽松。几乎我发布的文章,第二天就会出现。
 
2、google对于一个页面的判断,还是偏重于<h1></h1>标签。google认为,一个页面的标题,或者主要内容,主要是有<h1>中的内容决定,而不是考虑<title></title>。这样就导致对于mt的一个问题。mt所有页面在默认模版中,都是使用<h1>来标定blog的名字。也就是说,我所有的页面的这一部分信息,都是meteor’s blog。对于google来说,这就是类似页面,或者说是相同页面,也就会在搜索结果中忽略,不被收录。而baidu则要好得多,采用<title>来重点判断我的页面信息。以<title>来进行收录。
 
所以来说,mt对于google来说,优势主要在于,使用静态页面,便于搜索。而且目录结构合理,最多2级,符合google的习惯。而缺点也很明显,默认的<h1>内容不适合google的搜索,导致重复结果太多。
 
由此可见,如果想要得到更好的收录,需要重新来订制下网页结构。
下一步要做的,就是重新修改模版。使得blog的题目在<h1>中出现。并且减少模版修改次数,使得生成的页面可以保持长时间不用重建。