通過IP位址看網站日誌尋找百度蜘蛛爬行規律

對於各位站長來說,百度的收錄是關心的重中之重。瞭解百度蜘蛛的爬行規律從而更好的改善收錄情況也是必須要掌握的。很多網站目前使用的都是虛擬空間,都能夠提供日誌。   

日誌是指在網站根目錄下的logfiles檔夾裏面日期.txt文字檔案有很多介紹通過http查看返回命令的那種辦法來查看蜘蛛,這裏就不介紹了。

現在更多的網站是沒有提供可以通過軟體來查看的日誌格式。

更多的是類似下面的日誌格式,如下:

03:28:34 GET /goods.php 202.108.7.205 200 34696 390 第一03:28:34 訪問時間

第二 GET /goods.php 訪問的頁面 get表示獲取

第三202.108.7.205 訪問網站的源IP

第四 200 成功訪問

第五34696 390 表示記錄的內容大小

都是這種格式的日誌如何去分析了,一個一個看的頭都大了。北京禮品網站的日誌記錄每天都有1M多,上千條記錄豈不是會看都頭暈眼花。

注意了,告訴大家一個竅門。經過長期觀察發現,百度的蜘蛛的來源伺服器IP位址都是屬於一個域下面的通個網段。什麼意思了,就是全部都是以202.108開頭的IP,IP位址都是類似於202.108.X.X。這個網段的IP地址是位於北京網通電報大樓,屬於全國互聯網核心骨幹機房,現在此IP段已經絕跡了。(基本上全被大網站使用了,如新浪、雅虎等)那麼調出你的日誌,用ctrl+f查找一下有沒有這個網段的IP。有的話那這個就是百度蜘蛛的訪問位址了,然後就查找一下訪問的時間,那麼就可以找出來百度蜘蛛訪問你網站的時間規律了。對於大家按照蜘蛛爬行時間來更新網站內容的作用那是杠杠的啊。