搜尋引擎再進化,重新組織搜尋結果

Posted By Mr. Wednesday

本文同步刊載於《密計偷偷報 No.39

使用搜尋引擎查詢資料已經是許多人每天不可缺少的必備動作,但是,不知道各位讀者在使用搜尋引擎時是否曾經預想過,你所下的關鍵字會得到怎樣的搜尋結果?在最佳的情況下,搜尋引擎可以馬上回傳你『想要』的搜尋結果。但是更常發生的情況是,電腦跟人腦想得不一樣(人腦:其實你不懂我的心),搜尋結果不是期待中想要的結果,而必須再經過一次次反覆的修改搜尋關鍵字後,才會慢慢貼近心中想要的那個結果。

全球資訊網上的巨量資訊

以目前全球資訊網上擁有的巨量資訊,如果沒有高效率搜尋引擎的幫助,尋找資訊將如同大海撈針一般困難,今天已有許多商業的搜尋引擎試圖滿足此類搜尋工作的需求,例如:GoogleYahooAskMicrosoft Live Search:等。搜尋引擎多會依照某種方式進行排序,把相關的網路搜尋結果以排名順序列表一一提供使用者去瀏覽,讓使用者依照搜尋結果摘要的內容自行挑選。然而這樣的瀏覽方式極度沒有效率,因為網路搜尋結果通常相當的多,而一般使用者多只會有耐心瀏覽前若干筆的搜尋結果,而且這類排名順序列表的呈現方式會使得很多關於使用者查詢的子議題通通混雜在一起,很容易造成使用者錯過重要資訊。

以分類目錄組織全球資訊網

排名順序列表對於瀏覽性的工作相當有效,譬如說尋找某個組織或機構的首頁,但是對於其他性質的工作,排名順序列表這類的形式並不是最佳的呈現方式。現有常見的改善瀏覽網路搜尋結果方式多是建立一個階層式的分類架構,例如Yahoo或是ODP (Open Directory Project)的分類目錄,用階層式分類架構以組織網路搜尋結果,將網路搜尋結果指派進相關的主題之下。然而,這樣的作法也有其缺點,就是這類的分類架構必須依靠人力建立,而依靠人力的缺點就是無法應付整個全球資訊網的量,涵蓋率不夠高。以ODP為例,其涵蓋率不到整個全球資訊網的5%,因此對於某些特定的查詢無法提供良好的搜尋結果組織。

試圖重新組織搜尋結果

在搜尋引擎剛起步的年代,搜尋效率與準確度是大家最關注的焦點,Google在搜尋效率與準確度上表現極為優異,也奠定了日後成為搜尋引擎霸主的基礎。但是,事情到此就結束了嗎?不,當然沒有,搜尋技術絕對沒有到此就停滯不前。全球資訊網是一個極度龐大而且非結構性的資訊來源,以關鍵字為基礎的搜尋引擎在回應使用者查詢時都會回傳數以萬計甚至百萬計的結果,而且以一長串列表呈現,對於使用者的應用上經常造成不便。在這個輕易就能利用搜尋工具獲取大量資訊的時代,減少搜尋結果的量並以一個簡潔易懂的方式呈現所有關於查詢的概念無疑是一項重要的工程。

搜尋引擎可以幫使用者輕易地在全球資訊網上找到大量的相關文件,但是過多而且不相關的資訊對使者來說反而會造成困擾。越來越多的研究都開始注意到要如何根據網路搜尋結果的內容而將其重新組織,如果能有一種更簡潔更清晰易懂的方式來重新組織搜尋結果,必定可以大幅提昇搜尋結果的應用功效。

文件分類與分群技術

一個最直覺的想法,如果可以根據搜尋結果的主題來加以分群,就可以一目了然知道搜尋結果包含哪幾類主題。在資訊檢索領域中,文件分類與分群技術已經研究多年,剛好適合應用來解決這個問題。

分類技術配合事先定義好的類別可以幫助將搜尋結果分類到事先定義好的類別內,唯其缺點在於需要事先定義好各類別,而人工定義好的類別對於全球資訊網上快速產生而且變動劇烈的資訊來說,無法快速產生適合的類別來處理。分群技術與分類技術最大的差別在於不需要事先定義好的類別,更適合運用在全球資訊網上處理各式各樣的搜尋結果。

分群技術的演算法眾多,依處理過程主要分成兩大類,一個是由上而下的分割式分群演算法:在起始狀態裡僅只有一個群,每次尋找一個群加以分割,直到該群僅含有一個元素或是群的總數達到臨界值為止。另一個是由下而上的凝聚式分群演算法:在起始狀態裡,每一個群僅含有單一元素,每一回合尋找兩個最相近的群加以合併,直到任兩個群的距離都大於事先定義的臨界值為止。

目前網路上的自動分群搜尋引擎

目前網路上已經存在有多個針對搜尋結果重新整理的搜尋引擎(以下畫面皆以搜尋關鍵字apple為例):

Ask

Lexxe

Vivisomo / Clusty

畫面看起來是不是都有點類似,這幾個搜尋引擎都採用極為相同的呈現方式,在搜尋結果畫面中右側採用條列的方式呈現搜尋結果(與目前的搜尋引擎相同),左邊多了一些根據這次搜尋結果所產生的主題群。主題群以階層式的方式組織,顯示與目前搜尋關鍵字相關的主題。原本可能是幾十頁的搜尋結果現在全部整理成數個重要的主題,可以快速綜觀全局,也不用擔心重要的訊息會被淹沒在茫茫資訊海中。主題群的設計還可以幫助使用者持續修正查詢的關鍵字,更快速準確地找到需要的資訊。

更進一步,搜尋引擎除了自動將搜尋結果自動分群外,還可以以視覺化的方式呈現搜尋結果。

Mooter

Grokker

優點

以Grokker為例,從搜尋結果可以發現到視覺化的呈現有許多好處,第一,不同顏色代表不同主題,較大的圈圈表示該主題涵蓋較多的網頁,非常容易辨識。第二,要緊縮還是放鬆查詢結果可以靠進入或是退出代表查詢結果的圈圈。視覺化呈現的優點就是可以一目了然了解所有相關主題間的相對關係,不用一頁一頁往下翻尋找搜尋結果,操作便利,而且感覺搜尋結果活潑了起來,讓搜尋變得有趣,不只是死板板的條列式呈現而已。

缺點

看了這些例子,眼尖的讀者一定也有發現,這些自動整理出來的主題群,標題下的並不直覺也不易懂,而且各主題間也偶有發生區分得不是很清楚的情況,主題範圍的重疊性與從屬性不一定能準確判斷。而且在實際操作使用的時候,因為要將搜尋結果再組織,必須花費更多計算資源去處理,回傳的時間有點慢,搜尋效率上仍遠遜於傳統的搜尋引擎。

結論

搜尋結果分群與視覺化呈現可以快速幫助使用者從看似雜亂的搜尋結果中理出一個頭緒,使得搜尋這件事不單單只是尋找資料而已。藉由良好的網路搜尋結果自動組織技術,基本應用上將可使網路搜尋結果的利用更加準確與快速,幫助使用者快速瞭解整個搜尋結果的全貌。此外,將有助於網路知識分類樹自動建立,更輕易地利用整個全球資訊網上蘊含的豐富知識。重新組織搜尋結果是個有潛力的方向,但是如何改善搜尋結果的呈現與執行效率將會是實用與否的重要因素。自動分群搜尋引擎前景將會如何尚有待關注,但的確已走出了一條與傳統搜尋引擎不同的路。

喜歡這篇文章嗎? 分享出去給作者一點鼓勵吧!