Twitter引爆即時搜尋風潮,但是目前的即時搜尋到底解決了什麼問題?

Posted by Mr. Friday

即時搜尋功能是前一個月在美國很流行的話題,原因是Twitter正式推出的即時搜尋功能,不但引起了一股風潮,一些新的start-up也紛紛推出即時搜尋功能,也讓Google的創辦人講出”這是Google早該做的事”…等等言論。這立刻讓人有了聯想,咦,莫非Twitter在即時搜尋這一塊,已經超越了向來以搜尋功能強大著稱的Google了嗎?

twitter_search_3

不過即時搜尋功能炫歸炫,實用性到底如何?有解決了什麼問題嗎?

我個人對於一個功能的評估方法是,先想想看『需求在哪裡』,再評估『解決方案在哪裡』。對於即時搜尋,需求的確是存在的,但是目前的解決方案,包括Twitter甚至Google在內,其實都沒有很好的答案。

你要用即時搜尋找什麼?

想想看,Google頁面的更新速度,已經到達一小時一次,就一般眼光來說已經很快,可是Page在演講上卻說,Google目前的更新速度是3600秒,他希望日後Google的資料更新速度,能達到數秒一次。好,先不管技術性問題,我要問大家的是,我們在找什麼資訊的時候,會希望結果如此即時、需要每秒就更新一次,而不是每小時更新一次?

答案很顯然,是那種對時間非常敏感〈time-sensitive〉,而且內容會快速變動的資訊。唯有這種『即時資訊』,即時搜尋才會有意義。哪些是即時資訊呢?以下是我想得到的幾個例子:

  • 即時股價、匯價
  • 即時路況
  • 即時賽況、電視節目的Live直播或首播,以及觀眾當下的反應
  • 即時新聞
  • …其他

根據即時資訊種類的不同,對於即時搜尋的依賴度也不同

car_jam

〈圖片:廣州中秋節塞車圖片

上面提到的例子,我其實有特意排序過,由上而下是『我認為』對於即時搜尋的倚賴性由高而低排列。如何判斷的?我是從『訊息更新速度』與『訊息重要程度』來判斷的。以即時路況來說,資訊可以說是瞬息萬變,城市裡哪邊有交通事故,立刻會導致動線大亂,但塞車狀況一旦解除,這個車禍的消息對於之後經過的人一點意義都沒有。像這種變動速度極快、訊息又只有當下才有用的狀況,用上即時搜尋是最有幫助的。

即時賽況與電視Live直播,在播出的當下會引人注目,是因為我們想要感受那分秒必爭、緊張的『氣氛』。這種緊張感如果是『大家一起體驗』,會比一個人還來得深刻,所以也會連帶想知道大家的反應。而既然是為了感受氣氛,這些訊息時效性也很短。不過,即時賽況、電視節目Live秀排第二的原因,是因為交通資訊攸關行車安全,而娛樂資訊比較不會有生命安全的顧慮。

即時新聞跟前面幾項又有點不一樣。我認為新聞尚不用即時到秒的程度,因為大多數新聞的時效性都是可以維持半天甚至是一週,而且重要的事件並不會在幾分鐘之後就變成不重要,因此電視台雖然往往很強調新聞時效性,但是觀眾對於新聞的需求卻還沒到分秒必爭的地步。對於新聞,我認為一小時的更新時間已經算是很足夠了。〈分秒必爭比較像是電視台求獨家、求分段收視率的結果〉

例子還有很多,舉到這裡就好。舉這些例子的用意是,讓大家想一想,有很多東西可以做搜尋,可是做到『即時』搜尋卻不見得有人願意用。問題在哪裡?在於有的資訊根本不是那麼time-sensitive,或者根本不重要。那,針對重要又time-sensitive的資訊進行搜尋〈而且這資訊還要剛好有放在網路上〉,總可以了吧?

可是,即時搜尋本身也不是一件易事。

判斷資訊本身的時間性,不是一件容易事

我們再來談一個面向,就是即時搜尋的技術困難度。有一個大問題是:如果你要做即時搜尋,你就必須要先知道每個資訊的時間性,而且最好要細到每分每秒。問題是,在現實網路上,有太多資訊是很難判斷正確時間的。舉例來說,你怎麼判斷一篇文章是什麼時候寫成的?它很可能是沒有寫明發文時間的。就算有,格式也有千百種,你要怎麼判斷哪個欄位是時間?是阿拉伯數字,還是英文、中文?

plurk_timeline

這是google timeline對於”plurk”這個關鍵字找出來的文章,用時間軸加以排序的結果。結果只能說是差強人意。Google應該是分析全文,找到裡面疑似是年份的數字,判斷這是文章的發表時間。雖然找出來還是以2000之後的居多,但裡面居然可以發現有西元1080年的文章,真是太神奇了! 〈其實那只是一篇在討論Full HD 1080的噗…〉

限於技術難度,如果要做即時搜尋,目前我們只能把範圍縮小在有固定格式、已經明確寫出時間戳記的資訊。這也導致Google做即時搜尋與Twitter做即時搜尋的難易度不同。Google現有的搜尋,若要加上即時特性,得先想辦法處理全世界網路文件的格式,找出時間值才行;而Twitter卻只要搜尋站內的Tweet,而Tweet本來就是有時間值的。

如何替即時搜尋結果排序?

另外一個問題是搜尋結果的重要性,也就是排序的問題。當然我們可以直接根據時間值做排序,就像Twitter Search做的那樣,可是如果我想兼顧重要性呢?

講到排序,大致上搜尋引擎是這樣做的:先把所有的文章當作一個整體,用各家獨門的分析原理,算出每篇文章的特性,再根據使用者下的關鍵字,找出跟該關鍵字最有關的幾篇文章,依照相關程度由大到小排列出來。

如果今天我們要即時搜尋,隨時都有新文章進來,難道我們一有新文章就要把所有文章都重新計算一遍嗎?某些演算法可能真的是。不過,一些演算法可以先粗略分析一下新文章,再根據過往文章的分析結果,去『猜』這篇新文章的特性或重要性來得到結果。這樣可以稍微符合即時搜尋的要求。但是這種『猜』出來的結果,與全部文章重新分析過後的結果並不相同,而且『猜』的文章越多,排序結果越不準,因此還是要找時間重新計算。

排序是一個搜尋引擎的重要課題,因為人們只想要看『重要的資訊』,沒有排序過的資訊根本是一堆垃圾。而像Twitter這樣用時間排序,也不能說是不行,只能說是一種偷懶的方法而已。

所以,目前的即時搜尋…

其實我覺得目前的即時搜尋,炫歸炫,倒是沒解決到什麼問題,Twitter Search的即時功能的確引起了許多注意,但就目前看來,實際上用到的機會並不多,搜到多半的都是一些垃圾,代表這個機制仍不成熟。能引起這麼多討論,或者…只是因為它是目前最紅的Twitter吧。

另外,TechCrunch的這篇文章提到:

At Google’s Searchology event, which is going on right now, Marissa Mayer listed the following as the hardest unsolved problems in search:

Finding the most recent information
– Expressing that you want just one type of result
– Assessing which results are best
– Knowing what you’re looking for
– Expressing your searches in keywords

請注意,即時搜尋的困難度可是列在第一位。這也代表,即時搜尋還有很長一段路要走呢。

喜歡這篇文章嗎? 分享出去給作者一點鼓勵吧!
  • http://mmdays.com Mr. Saturday

    Real-time information 其實我根本上認為不應該由任何 search engine 來做, 做了效果也不大, 當使用者需要接收即時資訊時, 他要的是一個 ad hoc channel 專屬的頻道, 這樣才夠即時, 才夠快, 比如說不會有人去 Yahoo 或是 Google 的 search engine 查即時股價, 而是直接到 Yahoo Finance 或其他財經相關的專屬頁面去看每秒不斷更新的數字

    即時路況也是一樣, search engine index 天生的特性其實並不適合拿來做這種事情, 因為處理 index 的 preprocessing 和 postprocessing 太多了, 一定會有延遲, Google Maps 上面的 traffic 資訊也還是有 5 分鐘以上的延遲, 所以警廣不會被取代.

    也因為 search index 的天性, 再加上即時資訊通常具有 one-off 用一次即丟的特性, 因此我把 Twitter 看成是 semi-realtime 的一個 channel, 因為當使用者需要透過 search 來找即時資訊時, 他找到的已經不是即時的資訊了, 算是相當有趣的弔詭吧 😛

    無論如何, 這些新興的網路 channel, 在即時性上面都是介於真正的 real time 和偏向靜態的 search engine 之間, 我認為這些 channel 扮演的, 概念上應該像是電視台節目的 delay live

    在哲學上來說, there is no real real-time in the world 😛

  • http://mmdays.com Mr. Saturday

    Real-time information 其實我根本上認為不應該由任何 search engine 來做, 做了效果也不大, 當使用者需要接收即時資訊時, 他要的是一個 ad hoc channel 專屬的頻道, 這樣才夠即時, 才夠快, 比如說不會有人去 Yahoo 或是 Google 的 search engine 查即時股價, 而是直接到 Yahoo Finance 或其他財經相關的專屬頁面去看每秒不斷更新的數字

    即時路況也是一樣, search engine index 天生的特性其實並不適合拿來做這種事情, 因為處理 index 的 preprocessing 和 postprocessing 太多了, 一定會有延遲, Google Maps 上面的 traffic 資訊也還是有 5 分鐘以上的延遲, 所以警廣不會被取代.

    也因為 search index 的天性, 再加上即時資訊通常具有 one-off 用一次即丟的特性, 因此我把 Twitter 看成是 semi-realtime 的一個 channel, 因為當使用者需要透過 search 來找即時資訊時, 他找到的已經不是即時的資訊了, 算是相當有趣的弔詭吧 😛

    無論如何, 這些新興的網路 channel, 在即時性上面都是介於真正的 real time 和偏向靜態的 search engine 之間, 我認為這些 channel 扮演的, 概念上應該像是電視台節目的 delay live

    在哲學上來說, there is no real real-time in the world 😛

  • http://www.gururu.tw GURURU

    mmdays大大,關於即時搜尋的部份,五月初我有寫一篇文章。可能跟您這篇觀點有些不同,分享給大大跟大家看看~
    網址在:
    http://bit.ly/7Jo1c

  • http://www.gururu.tw GURURU

    mmdays大大,關於即時搜尋的部份,五月初我有寫一篇文章。可能跟您這篇觀點有些不同,分享給大大跟大家看看~
    網址在:
    http://bit.ly/7Jo1c

  • richie do

    终于更新了也,各位DAys 大大你们最近可好哇?

  • richie do

    终于更新了也,各位DAys 大大你们最近可好哇?

  • http://mmdays.com/ Mr.Friday

    樓上,感謝你的支持:D 之後還是會繼續努力寫好文章的

  • http://mmdays.com/ Mr.Friday

    樓上,感謝你的支持:D 之後還是會繼續努力寫好文章的

  • Pingback: 網路新知:微網誌與社群網站最新消息 | InsightXplorer 創市際電子()

  • Pingback: 微網誌上訊息是如何發送的?以Twitter為例,一窺即時搜尋的可能性 - MMDays()