2015-08-25 閱讀數:3141
seo中影響各大搜索排名的robots如何把控?
眾所周知,各個搜索引擎,特別是百度那些,的機器蜘蛛爬蟲是比較喜歡網站自身在自己的網站上提供robots文件,這樣有利于節省蜘蛛爬蟲的精力是有限的,這樣相當于給予爬蟲一個導航,讓他更好的能夠做好爬蟲的工作。那什么是robots文件呢?首頁網址后面加入“/robots.txt”,即可打開該網站的robots文件,可以將網站中有一些無關緊要的網頁,如“給我留言”或“聯系方式”等網頁,他們并不參與SEO排名,只是為了給用戶看,此時可以利用robots文件把他們屏蔽,即告訴搜索引擎不要抓取該頁面。從而高效抓取我們需要的頁面。對于中大型網站來說,robots文件尤為重要。
那么robots文件的用法該如何呢?
robots文件用法:
1.“user-agent:*disallow:/”
意思表示“禁止所有搜索引擎訪問網站的任何部分”,也就是說該網站在搜索引擎里沒有記錄,也就談不上排名。
2.“user-agent:*disallow:”
意思為“允許所有的robots訪問”,即允許蜘蛛任意抓取并收錄該網站。這里需要注意,前兩條語法之間只相差一個“/”。
3.“user-agent:badbot disallow:/”
意思為“禁止某個搜索引擎的訪問”。
4.“user-agent:baiduspider disallow:user-agent:*disallow:/”
意思為“允許某個搜索引擎的訪問”。這里面的“baiduspider”是百度蜘蛛的名稱,這條語法即是允許百度抓取該網站,而不允許其他搜索引擎抓取。
robots文件用法案例:
比如網站改版,就會出現大量404頁面、很多死鏈接,而這些鏈接以前已經被百度收錄,但網站更換后蜘蛛再過來發現這些頁面都不存在了,這就會留下很不好的印象。此時可以利用robots文件把死鏈接全部屏蔽,不讓百度訪問這些已不存在的頁面即可。
robots文件運用注意事項:
robots文件名必須是robots.txt,其后綴是txt并且是小寫的,不可以隨便更改,否則搜索引擎識別不了。然后打開該文件,可以直接復制粘貼別人的格式,Robots文件格式是一條命令一行,下一條命令必須換行。還有,“disallow: ”后面必須有一個空格,這是規范寫法。
雖然這幾年據說,在360推出搜索業務一年之后,3B大戰再次爆發,百度創造性的使用Robots協議白名單禁止360抓取百度百科、百度貼吧和百度知道的內容,并起訴360不遵守Robots協議,但在協議中谷歌、Bing、搜狗和搜搜等搜索引擎還可以自由抓取相關內容。
百度通過白名單、黑名單的機制,限制360搜索引擎索引其內容,而允許其他搜索引擎索引其內容,既不公平,也違背了Robots協議的初衷,更違背了互聯網開放、分享的精神。任其濫用,必將造成行業競爭壁壘,導致搜索引擎信息呈現達不到盡可能完整的目的,阻礙搜索市場的信息自由,損害網民利益。但是百度的robots還是很喜歡的。所以這項工作我們作為seo優化人員應該把它做好。