Tag Archive 'Information Retrieval'

Twitter推出即時搜尋功能之後,一時之間吸引了相當多人的目光。可是就如同我曾經在 Twitter 引爆即時搜尋風潮,但是目前的即時搜尋到底解決了什麼問題?這裡面提到過的,其實現在的即時搜尋還有很多可待改進之處,其中一個大問題就是如何將訊息排名。我當時是這樣寫的:

排序是一個搜尋引擎的重要課題,因為人們只想要看『重要的資訊』,沒有排序過的資訊根本是一堆垃圾。而像Twitter這樣用時間排序,也不能說是不行,只能說是一種偷懶的方法而已。

Read Full Post »

Posted By Mr. Thursday 在今日我們可以從網路上吸收大量資訊,有時候一堆文章看不完。如果我們想要吸收資訊,時間卻又不夠的時候,使用電腦幫我們過濾資訊,或是用電腦幫我們做個總整理,是個方法。如果今天手中有一篇文章,我們想要用電腦幫我們找出這篇文章最重要的關鍵字,要怎麼做呢?在資訊檢索 (IR: Information Retrieval)領域裡面,有個基礎的方法,入門必學的方法,就是使用 TF 和 IDF (TF: Term Frequency, IDF: Inverse Document Frequency)。使用這兩個估計值,可以讓電腦具有計算重要關鍵字的能力,進而節省我們的時間。 接下來讓我們看看,TF 和 IDF 個是甚麼東西呢?TF 全名是Term Frequency,也就是某個關鍵字出現的次數,譬如說某篇文章裡面,「電腦」這個詞出現很多次,或是「使用者需求」這個詞出現很多次,那麼這些詞句的出現頻率,就會很高。一篇文章中出現很多次的詞句,必定有其重要性。譬如說一篇論述「人工智慧」的文章,「人工智慧」這個詞句再文章中出現的頻率也一定很高。然而為甚麼除了 TF  (Term Frequency) 以外,還要有 IDF (Inverse Document Frequency) 呢?

Read Full Post »