百度竟然采集搜狐的内容

搜尋排名會發現"小說"這個詞排名第8的站,網站描述非常簡單:“含各類小說作品,包括武俠、言情、玄幻等作品。”

按常理來說,這種超級熱門的詞,站長應該懂點SEO和簡單的優化,不應該連網站的描述標籤都寫不好,這麼簡單。大家都知道Dmoz被多數主要搜索引擎所採用。但是到dmoz搜索了一下2100book.com,發現這個網站並沒有被收錄。

然後我打開這個網站看了下,其主要標籤寫法如下:

世紀文學小說網-玄幻小說,言情小說,網游小說,修真小說,武俠小說,網路小說 www.2100book.com 描述標籤並不是百度採用描述那樣,有 這個標籤,說明站長也以為百度是採用的ODP描述,所以加了這個代碼,但是事實上卻不是。然後我查看原始檔案,搜索了下 含各類小說作品,包括武俠、言情、玄幻等作品 這句話,發現頁面上並沒有。

既然百度既沒有採用網站寫的描述,也沒有抓取頁面上的內容作描述,更不是dmoz的描述,那這句網站描述是怎麼來的呢。

於是,我到技術最強大的google搜索,google了一把, 搜索"含各類小說作品,包括武俠、言情、玄幻等作品。",注意帶雙引號,意思是完整匹配,發現第一個結果就是小說文學搜狐分類目錄,其他的就是一些小網站和個人博客了。百度當然不可能去採用哪些小網站的內容,唯一的可能就是採用了搜狐的分類目錄。

再從這裏選取了一些網站來百度搜索網站名字,發現百度的描述果然用的搜狐的。有個別不一樣的,我推測可能是這個原因,百度只是一次抓取了搜狐的分類目錄內容,並沒有隨之更新,而搜狐的分類是不斷添加內容的,也就是說,描述不相同的網站是百度抓取搜狐分類目錄的時候,還沒有登陸進來。