Robots協(xié)議,一個(gè)閑人免進(jìn)的牌子

2020-06-19 23:01:57 sunmedia 1645


? ? Robots協(xié)議提供了一種保護(hù)互聯(lián)網(wǎng)內(nèi)容和隱私的手段,借助該協(xié)議,實(shí)現(xiàn)了網(wǎng)站與搜索引擎之間的一種平衡,維護(hù)了正常的網(wǎng)絡(luò)秩序

? ? Robots協(xié)議是有關(guān)網(wǎng)絡(luò)爬蟲的一個(gè)協(xié)議,用于規(guī)范網(wǎng)絡(luò)爬蟲的行為,網(wǎng)站通過(guò)Robots協(xié)議告知爬蟲哪些頁(yè)面可以抓取,哪些頁(yè)面不可以抓取。

? ? Robots協(xié)議形成于1993年、1994年前后。當(dāng)時(shí),隨著互聯(lián)網(wǎng)的發(fā)展,網(wǎng)絡(luò)上的內(nèi)容越來(lái)越豐富,同時(shí),一些早期的搜索引擎包括一些信息收集網(wǎng)站的發(fā)展,出現(xiàn)了不少網(wǎng)絡(luò)爬蟲,自動(dòng)收集網(wǎng)絡(luò)上的內(nèi)容。在這種情況下,網(wǎng)站的所有者希望可以通過(guò)某種手段使自己網(wǎng)站上的全部或者部分內(nèi)容不被抓取,以保護(hù)自己的權(quán)利或者隱私,而搜索引擎也希望可以合理地獲取網(wǎng)絡(luò)上的內(nèi)容。為此,網(wǎng)站所有者和搜索引擎人員一起,通過(guò)郵件組開始討論,共同起草了Robots協(xié)議。

? ? Robots協(xié)議并不復(fù)雜,它主要是提供一些指令,通過(guò)這些指令表明自己網(wǎng)站的哪些內(nèi)容可以被爬蟲爬,或者哪些內(nèi)容不能被爬,也可以指令允許哪些爬蟲爬,不允許哪些爬蟲爬,這也就是所謂的黑名單、白名單這樣的方式。無(wú)論是黑名單還是白名單,都是保護(hù)網(wǎng)站內(nèi)容的一種手段,可以單獨(dú)使用白名單,也可以單獨(dú)使用黑名單,或者兩個(gè)一起用。就我所知,目前使用白名單相對(duì)比較多,因?yàn)檫@樣對(duì)網(wǎng)站所有者比較方便,網(wǎng)站所有者可能不知道一共有多少爬蟲,但是一些大的搜索引擎,比如百度、谷歌、搜狗,允許他們來(lái)爬,于是就設(shè)置出白名單,可能后期還有其他的搜索引擎需要爬取內(nèi)容,他們可以通過(guò)與網(wǎng)站所有者協(xié)商的方式加入到白名單中,這可能就是白名單比較多的原因。

? ? Robots協(xié)議經(jīng)世界互聯(lián)網(wǎng)技術(shù)郵件組發(fā)布以后,幾乎得到了所有搜索引擎的認(rèn)可。Robots協(xié)議雖然不是一個(gè)國(guó)際標(biāo)準(zhǔn),但事實(shí)上已經(jīng)成為了業(yè)內(nèi)一種普遍遵守的規(guī)范。目前國(guó)際上大的搜索引擎均遵守該協(xié)議,比如國(guó)際上的雅虎、谷歌等,國(guó)內(nèi)的百度、搜狗等。

? ? 網(wǎng)站的Robots協(xié)議內(nèi)容以文本文件Robots.txt的方式放置在網(wǎng)站的根目錄下,當(dāng)一個(gè)爬蟲訪問(wèn)某個(gè)網(wǎng)站時(shí),首先到網(wǎng)站的根目錄檢查是否存在Robots.txt,如果存在,則按照其允許的內(nèi)容進(jìn)行抓取;如果不存在,則默認(rèn)該網(wǎng)站全部?jī)?nèi)容可以抓取。另外,Robots協(xié)議從保護(hù)內(nèi)容的角度說(shuō),它僅是一個(gè)聲明并不是一種技術(shù)手段,也不是一種防止爬蟲爬取內(nèi)容的技術(shù),而是一種所謂的防君子不防小人的手段,它從技術(shù)上無(wú)法阻擋某個(gè)爬蟲抓取網(wǎng)站內(nèi)容,只是一種聲明,告訴爬蟲可以抓取的內(nèi)容。這就如同一個(gè)店家在門口掛了一個(gè)“閑人免進(jìn)”的牌子,但是門是開著的,遵守的人看到“閑人免進(jìn)”可能就不進(jìn)入,但這無(wú)法阻止不遵守的人進(jìn)入。

? ? Robots協(xié)議在1993年、1994年前后被提出以后,業(yè)內(nèi)都在遵守這一協(xié)議,說(shuō)明它具有一定的合理性,就如同在車馬路上行駛,大家都靠右行駛,如果有人看到左邊有空就走左邊勢(shì)必會(huì)造成一種混亂。既然目前大家都遵守這樣一個(gè)規(guī)則,那么這個(gè)秩序就形成了,如果容忍破壞者,那么這個(gè)秩序也就被破壞掉了??傊?,Robots協(xié)議提供了一種保護(hù)互聯(lián)網(wǎng)內(nèi)容和隱私的手段,借助該協(xié)議,實(shí)現(xiàn)了網(wǎng)站與搜索引擎之間的一種平衡,維護(hù)了正常的網(wǎng)絡(luò)秩序。

(作者為清華大學(xué)智能技術(shù)與系統(tǒng)國(guó)家重點(diǎn)實(shí)驗(yàn)室主任)


未知來(lái)源
上一篇:
免責(zé)聲明:商媒在線所提供的信息及圖片除原創(chuàng)外,有部分資訊和圖片從網(wǎng)絡(luò)等媒體收集而來(lái),版權(quán)歸原作者及媒體網(wǎng)站所有,商媒在線力求保存原有的版權(quán)信息并盡可能注明來(lái)源;部分因?yàn)椴僮魃系脑蚩赡芤褜⒃行畔G失,敬請(qǐng)?jiān)髡哒徑?,如果您?duì)商媒在線所載文章及圖片版權(quán)的歸屬存有異議,請(qǐng)立即通知商媒在線,商媒在線將立即予以刪除,同時(shí)向您表示歉意!

相關(guān)推薦

最新資訊