什么是robots協議?
1.robots.txt是什么?
有沒有想過,如果我們某個站點不讓百度和google收錄,那怎么辦?
搜索引擎已經和我們達成一個約定,如果我們按約定那樣做了,它們就不會去收錄。這個寫約定的的文件命名為:robots.txt。robots.txt是一個最簡單的.txt文件,用以告訴搜索引擎哪些網頁可以收錄,哪些不允許收錄。
如果你的站點對所有搜索引擎公開,則不用做這個文件或者robots.txt為空就行。
2.Robots.txt文件怎么寫
robots.txt文件的格式:
User-agent:定義搜索引擎的類型
Disallow:定義禁止搜索引擎收錄的地址
Allow:定義允許搜索引擎收錄的地址
一般情況下,robots.txt里只寫著兩個函數:User-agent和Disallow,至少要有一個Disallow函數,如果都允許收錄,則寫:Disallow:,如果都不允許收錄,則寫:Disallow:/(注:只是差一個斜桿)。在文件中只寫出要屏蔽的蜘蛛就可以了,允許爬行的蜘蛛就不用寫出來了。并且,有幾個禁止,就得有幾個Disallow函數,要分行描述。
例1.禁止所有搜索引擎訪問網站的任何部分
User-agent:*(注:*是一個通配符,在這里指所有的搜索引擎種類)
Disallow:/
例2.禁止某個搜索引擎的訪問
User-agent:BadBot
Disallow:/
例3.允許某個搜索引擎的訪問
User-agent:Baiduspider
allow:/
例4.容許搜索引擎訪問特定目錄中的網頁
User-agent:*
Allow:/目錄1/目錄2(容許訪問目錄2中的網頁)
Allow:/目錄3/目錄4(容許訪問目錄4中的網頁)
Allow:/目錄5/目錄6(容許訪問目錄6中的網頁)
Disallow:/目錄1/
Disallow:/目錄3/
Disallow:/目錄5/
特別提示:robots里面內容的大小寫不可更改,Disallow后面的冒號必須為英文狀態的。
3.Robots.txt文件應放在哪里?
robots.txt文件必須放在網站的根目錄下,必須命名為:robots.txt,都是小寫,robot后面加"s"。放在子目錄的robots.txt文件搜索引擎不能爬取到,所以不會起任何作用。
例子:
http://www.cncn.com/robots.txt有效
http://www.cncn.com/bbs/robots.txt無效
4.生效時間
robots.txt文件一般生效時間為7-15天,即1-2周。如果新網站源碼中包含robots.txt文件,那樣蜘蛛進行爬行時就會生效,如果是后來添加的,那樣蜘蛛需要對數據進行更新,時間一般在7-15天。
5.關于robots.txt一般站長需要注意以下幾點:
1.)網站上經常存在這種情況:不同的鏈接指向相似的網頁內容。這不符合SEO上講的“網頁內容互異性原則”。采用robots.txt文件可以屏蔽掉次要的鏈接。
2.)網站改版或URL重寫優化時原來不符合搜索引擎友好的鏈接需要全部屏蔽掉。采用robots.txt文件刪除舊的鏈接符合搜索引擎友好。
3.)一些沒有關鍵詞的頁面,比如站內的搜索結果頁面屏蔽掉更好
4.)網站中的腳本程序、樣式表等文件即使被蜘蛛收錄,也不會增加網站的收錄率,還只會占用服務器存儲空間。因此必須在robots.txt文件里設置不要讓搜索蜘蛛索引腳本程序、樣式表等文件。
5.)搜索蜘蛛抓取網頁太浪費服務器資源,在robots.txt文件中設置所有的搜索蜘蛛都不能抓取全部的網頁。如果這樣的話,會導致整個網站不能被搜索引擎收錄。
2018湖南高速春節免費通行時間、春運避堵線路圖發布(2018-01-23)
湖南高速春節免費通行時間、春運避堵線路圖發布(2018-01-23)
好消息!桂三高速今日通車 湖南至廣西添新通道(2017-10-26)
暑期學生旅游成消費熱點 長沙旅游質監所發布六大提示(2017-06-27)
湖南預計暑運高鐵發客1200萬人次 去京滬車票緊張(2017-06-27)
湖南預計暑運高鐵發客1200萬人次 去京滬車票緊張(2017-06-27)
五一小長假預訂,周邊游走俏(2017-04-23)
發表評論
提示:請先登錄再進行評論,立即登錄