Google開始實驗深度Web索引

Posted By Mr. Wednesday

Google一直持續在改進全球資訊網索引的涵蓋率,根據Google官方部落格表示,最近他們開始實驗新的作法,藉由HTML中的<FORM>來發掘新的網頁。

(圖片來源:MCS Internet Driver’s License)

Google目前實驗的作法是藉由<FORM>送出查詢,如果碰到文字欄位會試著填入該網站所含有的文字,如果碰到下拉選單,檢核按鈕或radio按鈕會嘗試從選項中選擇一個。藉由模擬使用者可能送出的查詢,就可以接著『爬進』該查詢所回傳的結果網頁,當確認回傳的網頁是有效的而且不曾被加入索引過,就會像處理其他網頁一樣將其納入索引中。目前這個實驗會謹守一個良善的網頁爬蟲該遵守的規範,預先讀取robots.txt,並遵守nofollow與noindex等指令,而且目前也只實驗於某些含有大量有用資訊的網站。同樣地,這個實驗僅會抓取GET型式的網頁,並且避免任何需要使用者資訊的<FORM>,例如會略過含有password欄位的<FORM>,或是使用一些用以描述個人資訊術語的欄位,像是login,userid與contact等的<FORM>。

藉由加強版本網頁爬蟲所抓取的網頁將不會影響原本抓取的一般網頁,所以這個改善不會降低原本網頁的PageRank,只會增加該網站在Google搜尋結果的曝光機會。

這個實驗是Google為了增加全球資訊網涵蓋率所作的眾多努力之一,事實上,HTML的<FORM>長久以來就視為發掘隱藏於網站內巨量資訊的有效手段,像是Deep Web,Hidden Web或是Invisible Web等術語就是用以描述此類被隱匿於一般搜尋引擎之後的內容。

新聞來源:Google Webmaster Central Blog

喜歡這篇文章嗎? 分享出去給作者一點鼓勵吧!