March 25, 2006

加入書籤: HemiDemiGoogle BookmarksYahoo! My WebDel.icio.usfurltechnorati加入此網頁到:你推我報MyShareUDN共享書籤BlogLive

Google和百度收錄網站頁面的比較以文找文

  我用一句話來形容,就是Google更樂于收錄大站的頁面,百度則樂于收錄新站的頁面。

  Google和Baidu收錄網站頁面的標準是不同的。


  為了驗證這一點,我做一個實驗:我申請了一個新域名www.moon-blog.com,不再其他任何網站做鏈接,而直接往百度和Google搜索引擎的提交頁面進行提交。一個月過去了,百度收錄的網頁是24,900篇,Google收錄的網頁是0,這證實了我以前的猜測。


  這說明了什麽呢?說明百度比Google好嗎?絕對不是的。因為Baidu和Google收錄頁面的標準是完全不同的。


  Google是按照網頁級別來收錄的,衹要你有一定的網頁級別,Google會快速收錄的,而沒有網頁級別的網站,Google則堅決不去收錄。Baidu則很誇張,采用的是來者不拒,多多益善的原則,無休止的進行收錄。Baidu的這種不按網頁級別的收錄方式其實有很大的惡果,最主要的惡果是造成大量的垃圾網站流行,因為衹要做一個垃圾站,Baidu就會立刻收錄(25000頁以內),這等于變相的鼓勵大家去做垃圾站,去盲目采集。當垃圾站橫行的時候,Baidu再通過人工的方式封站,對于大流量的網站再威脅其站長辦理百度競價排名。因此Baidu和大量的個人站長都結有恩怨。


  這兩種收錄方式哪種更好呢?我個人認為Google的這種收錄方式是比較科學的。因為互聯網上的頁面是個天文數字,收錄應該是有選擇的收錄,好的網站則多收錄,新站則應該少收錄,等其慢慢知名了以後再多收錄,這樣也提高了效率,讓用戶搜索到更好的頁面而不是更多的頁面。而且Google的爬蟲占用服務器的資源較少,通常是先用head來查看網頁是否更新,如果更新了再抓取整個頁面,這種方法耗費流量較少。而百度則不管叁七二十一上來就抓整個站,而且其爬蟲數量非常龐大,對于頁面較多的網站通常會耗費驚人的流量,並且常常造成惡劣的後果。例如我以前的月光軟件站有一段時間CPU耗費極大,IIS連接數也逼近1000,每天流量高達10多G,電信機房總威脅要限制我的帶寬,我以前一直以為是被別人DDOS攻擊,但是我購買了新的服務器,換了幾個IP,甚至更換了幾個機房,依然無法解決問題,不得已衹好將服務器托管到外地流量充裕的機房,但CPU負荷還總是居高不下。直到我網站被百度封了後,百度爬蟲也不再光故,這時我才驚奇地發現,我的CPU和流量終于處于一種穩定合理的狀態了,到目前為之,我站每天流量也有十多G,但CPU一直都沒有超過5%,服務器也很少出現死機和大量IIS連接的狀況,因此我開始懷疑,以前的所謂被DDOS攻擊,其實衹是大量的百度爬蟲在抓取我的網站而已,由于其爬蟲數量龐大,才引起我服務器的超負荷運轉以至瀕于崩潰。


  當然,百度這種“貪婪”爬蟲抓取方法,雖然會讓用戶能夠在百度搜索出一些Google裏搜索不到的頁面,但這實在是損人利己。其帶給網站站長不少負面效果:服務器和帶寬資源過度消耗,垃圾站被變相鼓勵了,原創的有特色的網站則被邊緣化,MP3音樂網站則更苦不堪言-自己的MP3被百度盜鏈後帶來大量文件下載卻沒有帶來頁面訪問。


  因此,中國的網民也出現了很奇怪的現象:大量的新網民和菜鳥新手喜歡用百度搜索,因為百度往往搜索到很多別處搜索不到的頁面,但內容的匹配度則令人質疑,而專業人士和老鳥則更喜歡用Google,個人站長則普遍和百度有“個人恩怨”。因此百度在業界的Blog以及社區中口碑都不太好,但在普通的低層次的網民心中卻不錯,這些大量的普通網民給百度帶來了大量流量。


  其實百度也發現這樣所帶來的問題。網絡新手和普通網民的影響力微不足道,被Hao123這樣的流氓網站強奸了,也不會反抗,用Hao123時間長了反而會依賴和喜歡上這樣的低級網站。而IT專業人士則不同,他們建網站、寫博客、開論壇,他們可以影響一大批普通用戶,如果百度長期依靠低端用戶而和大量站長結怨的話,其發展前景也是令人質疑的。


加入書籤: HemiDemiGoogle BookmarksYahoo! My WebDel.icio.usfurltechnorati加入此網頁到:你推我報MyShareUDN共享書籤BlogLive

Posted by at 天空部落 │15:14 │回應(7)引用(0)網站技術
相關閱讀

引用URL

http://blog.yam.com/williamlong/trackback/5910138
回應文章

確實有體會,用google時都是PR值高的在前面,準確性高,而百度就是數量多,但很雜。不過有時會有這種現象,搜索比較新的內容時,google得出的結果一般是新聞性的,因為是那些大站上的新聞,而百度卻可以搜出想要的具體內容。
Posted by 長天暮鼓 at 2006-03-25 15:40:25

如果是PR=7的站,幾乎當天就收錄了新內容。

這篇文章寫到點子上了,的確如此。
Posted by 幻滅 at 2006-03-25 17:11:16

中國不是有一句俗話叫做“勤能補拙”嘛,大概說的就是Baidu的這種情況了。實際上,這也解釋了Baidu上八卦的東西為什麽比較快。

另外,若Baidu的爬蟲那麽厲害,對月光的主機產生了這麽大的衝擊,這樣Baidu自己的機器更要強悍N倍才行,事實上他有那麽強悍的服務器嗎?僅僅是一個疑問。
Posted by bigSword at 2006-03-25 17:57:43

嗯,確實如此!
要想讓百度多收錄一些頁面,多開2級域名還是個不錯的辦法。
小弟的MSN:cl2410@163.com
希望能結識到更多誌同道合的朋友!

Posted by 閑庭信步 at 2006-03-28 11:01:37
我最新在看一本書
Google與百度/梁誠著.--如意出版者.--ISBN 9789866925481
可以佐證你的實驗說法,那是百度企業的決策與文化.
不過在你這裡我看到不同的面向..居然爬蟲可以如此造成伺服器的灘渙.
我倒是要小心一下..我現在最受不了流量及他們不斷的到我的電腦撈禎料
Posted by 英台妹妹 at 2007-11-26 12:25:58
http://www.super-i.net/metal-button.html
http://www.super-i.net/rivet.html
http://www.super-i.net/eyelet.html
http://www.super-i.net/machines.html
http://www.super-i.net/aluminum-hook.html
http://www.super-i.net/snap-hook.html
http://www.super-i.net/side-release-buckle.html
http://www.super-i.net/plastic-buckle.html
http://www.super-i.net/strap-buckle.html
http://www.super-i.net/cam-buckle.html
http://www.super-i.net/metal-buckle.html
http://www.super-i.net/badge-clip.html
http://www.super-i.net/ring-binder.html
http://www.super-i.net/split-ring.html
http://www.super-i.net/zinc-slide.html
http://www.super-i.net/plastic-loops.html
http://www.super-i.net/plastic-slide.html
http://www.super-i.net/zipper-pull.html
http://www.super-i.net/d-ring.html
http://www.super-i.net/cell-phone-strap.html
http://www.super-i.net/luggage-handle.html
http://www.super-i.net/ball-chain.html
http://www.super-i.net/metal-lock.html
Posted by CCC178 at 2008-06-22 15:28:55

超意金屬工業
主站 http://www.super-i.net
鋁勾 http://www.super-i.net/aluminum-hook.html
鉚釘 http://www.super-i.net/rivet.html
提供各式磁扣、珠鍊、雞眼、鉚釘、扣具、登山鉤、四合扣、箱袋手把、子母扣、手機吊飾、匙扣、狗扣等五金配件
Offering snap fastener、magnetic button、eyelet、rivet、buckle、handle、ball chain、carabiner、key ring、snap hook,.etc
Posted by ccc178 at 2008-09-28 19:46:16