新聞中心
網(wǎng)站的robots.txt文件設置是不是合理,哪些文件或許目錄需求屏蔽、哪些設置辦法對網(wǎng)站運營有優(yōu)點?有人復制出相同的內(nèi)容以應付不同搜索引擎的排名規(guī)則。然而,一旦搜索引擎發(fā)現(xiàn)站內(nèi)有大量“克隆”的頁面,就會給以懲罰,不收錄這些重復的頁面。另一方面,我們網(wǎng)站的內(nèi)容屬于個人私密文件,不想暴露在搜索引擎中。這時,robot.txt就是為了解決這兩個問題。
創(chuàng)新互聯(lián)公司科技有限公司專業(yè)互聯(lián)網(wǎng)基礎服務商,為您提供成都西云數(shù)據(jù)中心,高防物理服務器租用,成都IDC機房托管,成都主機托管等互聯(lián)網(wǎng)服務。
一、什么是robots.txt
查找引擎運用spider程序主動拜訪互聯(lián)網(wǎng)上的頁面并獲取頁面信息。spider在拜訪一個網(wǎng)站時,會首先會查看該網(wǎng)站的根域下是不是有一個叫做 robots.txt的純文本文件,這個文件用于指定spider在您網(wǎng)站上的抓取規(guī)劃。您能夠在您的網(wǎng)站中創(chuàng)立一個robots.txt,在文件中聲明 該網(wǎng)站中不想被查找引擎錄入的有些或許指定查找引擎只錄入特定的有些。
二、robots.txt文件對網(wǎng)站有啥優(yōu)點
1、疾速增加網(wǎng)站權重和拜訪量;
2、制止某些文件被查找引擎索引,能夠節(jié)約服務器帶寬和網(wǎng)站拜訪速度;
3、為查找引擎供給一個簡潔明了的索引環(huán)境
三、哪些網(wǎng)站的目錄需求運用robots.txt文件制止抓取
1)、圖像目錄
圖像是構成網(wǎng)站的首要組成元素。跟著現(xiàn)在建站越來越便利,許多cms的呈現(xiàn),真實做到了會打字就會建網(wǎng)站,而正是由于如此便利,網(wǎng)上呈現(xiàn)了許多的同質(zhì)化模板網(wǎng)站,被重復運用,這樣的網(wǎng)站查找引擎是必定不喜愛的,就算是你的網(wǎng)站被錄入了,那你的作用也是很差的。若是你非要用這種網(wǎng)站的話,主張你大概在robots.txt文件中進行屏蔽,一般的網(wǎng)站圖像目錄是:imags 或許 img;
2)、網(wǎng)站模板目錄
如上面 圖像目錄 中所說,cms的強大和靈敏,也致使了許多同質(zhì)化的網(wǎng)站模板的呈現(xiàn)和亂用,高度的重復性模板在查找引擎中形成了一種冗余,且模板文件常常與生成文件高度類似,相同易形成相同內(nèi)容的呈現(xiàn)。對查找引擎很不友愛,嚴峻的直接被查找引擎打入冷宮,不得翻身,許多cms有具有獨立的模板寄存目錄,因而,大概進行模板目錄的屏蔽。一般模板目錄的文件目錄是:templets
3)、css、js目錄的屏蔽
css目錄文件在查找引擎的抓取中沒有用途,也無法供給有價值的信息。所以強烈主張在robots.txt文件中將其進行屏蔽,以進步查找引擎的索引質(zhì)量。為查找引擎供給一個簡潔明了的索引環(huán)境更易晉升網(wǎng)站友愛性。css款式的目錄一般情況下是:css 或許 style
js文件在查找引擎中無法進行辨認,這里僅僅主張,能夠?qū)ζ溥M行屏蔽,這樣做也有一個優(yōu)點:為查找引擎供給一個簡潔明了的索引環(huán)境;
4)、屏蔽雙頁面的內(nèi)容
這里拿dedecms來舉例吧。我們都曉得dedecms能夠運用靜態(tài)和動態(tài)url進行同一篇內(nèi)容的拜訪,若是你生成全站靜態(tài)了,那你有必要屏蔽動態(tài)地址的url連接。這里有兩個優(yōu)點:1、查找引擎對靜態(tài)的url比動態(tài)的url更友愛、更簡單錄入;2、避免靜態(tài)、動態(tài)url能拜訪同一篇文章而被查找引擎判為重復內(nèi)容。這樣做對查找引擎友愛性來說是有益無害的。
5)、模板緩存目錄
許多cms程序都有緩存目錄,這種緩存目錄的優(yōu)點我想不用說我們也明白了吧,能夠十分有用的晉升網(wǎng)站的拜訪速度,削減網(wǎng)站帶寬,對用戶體會也是極好的。不過,這樣的緩存目錄也有必定的缺陷,那就是會讓查找引擎進行重復的抓取,一個網(wǎng)站中內(nèi)容重復也是大祭,對網(wǎng)站百害而無一利。許多運用cms建站的兄弟都沒有注意到,有必要要導致注重。
6)被刪去的目錄
死鏈過多,對查找引擎優(yōu)化來說,是喪命的。不能不導致站長的高度注重,。在網(wǎng)站的開展過程中,目錄的刪去和調(diào)整是不可避免的,若是你的網(wǎng)站當時目錄不存在了,那有必要對此目錄進行robots屏蔽,并回來正確的404過錯頁面(注意:在iis中,有的兄弟在設置404過錯的時分,設置存在疑問,在自定義過錯頁面一項中,404過錯的正確設置大概是挑選:默認值 或許 文件,而不大概是:url,以避免查找引擎回來200的狀況碼。至于怎樣設置,網(wǎng)上教程許多,我們要吧查找一下)
這里有一個爭議性的疑問,關于網(wǎng)站后臺辦理目錄是不是需求進行屏蔽,其實這個可有可無。在能確保網(wǎng)站安全的情況下,若是你的網(wǎng)站運營規(guī)劃較小,就算網(wǎng)站目錄呈現(xiàn)在robots.txt文件中,也沒有多大疑問,這個我也見過許多網(wǎng)站這樣設置的;但若是你的網(wǎng)站運營規(guī)劃較大,對手過多,強烈主張千萬別呈現(xiàn)網(wǎng)站后臺管理目錄的信息,以防被心懷叵測的人使用,危害你的利益;引擎越來越智能,關于網(wǎng)站的管理目錄仍是能極好的辨認,并拋棄索引的。別的,我們在做網(wǎng)站后臺的時分,也能夠在頁面元標簽中增加:進行查找引擎的屏蔽抓取。
四、robots.txt的基本語法
內(nèi)容項的基本格式:鍵: 值對。
1) User-Agent鍵
后面的內(nèi)容對應的是各個具體的搜索引擎爬行器的名稱。如百度是Baiduspider,谷歌是Googlebot。
一般我們這樣寫:
User-Agent: *
表示允許所有搜索引擎蜘蛛來爬行抓取。如果只想讓某一個搜索引擎蜘蛛來爬行,在后面列出名字即可。如果是多個,則重復寫。
注意:User-Agent:后面要有一個空格。
在robots.txt中,鍵后面加:號,后面必有一個空格,和值相區(qū)分開。
2)Disallow鍵
該鍵用來說明不允許搜索引擎蜘蛛抓取的URL路徑。
例如:Disallow: /index.php 禁止網(wǎng)站index.php文件
Allow鍵
該鍵說明允許搜索引擎蜘蛛爬行的URL路徑
例如:Allow: /index.php 允許網(wǎng)站的index.php
通配符*
代表任意多個字符
例如:Disallow: /*.jpg 網(wǎng)站所有的jpg文件被禁止了。
結(jié)束符$
表示以前面字符結(jié)束的url。
例如:Disallow: /?$ 網(wǎng)站所有以?結(jié)尾的文件被禁止。
五、robots.txt實例分析
例1. 禁止所有搜索引擎訪問網(wǎng)站的任何部分
User-agent: *
Disallow: /
例2. 允許所有的搜索引擎訪問網(wǎng)站的任何部分
User-agent: *
Disallow:
例3. 僅禁止Baiduspider訪問您的網(wǎng)站
User-agent: Baiduspider
Disallow: /
例4. 僅允許Baiduspider訪問您的網(wǎng)站
User-agent: Baiduspider
Disallow:
例5. 禁止spider訪問特定目錄
User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /data/
注意事項:1)三個目錄要分別寫。2)請注意最后要帶斜杠。3)帶斜杠與不帶斜杠的區(qū)別。
例6. 允許訪問特定目錄中的部分url
我希望a目錄下只有b.htm允許訪問,怎么寫?
User-agent: *
Allow: /a/b.htm
Disallow: /a/
注:允許收錄優(yōu)先級要高于禁止收錄。
從例7開始說明通配符的使用。通配符包括(“$” 結(jié)束符;
“*”任意符)
例7. 禁止訪問網(wǎng)站中所有的動態(tài)頁面
User-agent: *
Disallow: /*?*
例8. 禁止搜索引擎抓取網(wǎng)站上所有圖片
User-agent: *
Disallow: /*.jpg$
Disallow: /*.jpeg$
Disallow: /*.gif$
Disallow: /*.png$
Disallow: /*.bmp$
其他很多情況呢,需要具體情況具體分析。只要你了解了這些語法規(guī)則以及通配符的使用,相信很多情況是可以解決的。
最后,需求闡明一點,許多站長,經(jīng)常把站點地圖地址放在robots.txt文件中,當然這里并不是去屏蔽查找引擎,而是讓查找引擎在首次索引網(wǎng)站的時分便能經(jīng)過站點地圖疾速的抓取網(wǎng)站內(nèi)容。這里需求注意一下:1、站點地圖的制造必定要標準;2、網(wǎng)站必定要有高質(zhì)量的內(nèi)容;
網(wǎng)頁標題:Robots文件應該屏蔽網(wǎng)站的哪些文件?合理的使用robots
分享鏈接:http://www.ef60e0e.cn/article/iccije.html