Big Data Analytics 海量資料分析

一家英國倫敦基金公司 Derwent Capital Markets 在去年五月的時候,推出了世界第一支基於 twitter 上公眾情緒來進行投資的對沖基金,並且承諾每年 15 ~ 20% 的高報酬率。相較於最近台灣的投信還在聯合公司派炒股票被抓包,人家顯然進步得多 (無誤)。雖然這一支對沖基金僅僅一個月後就清算不做了,(月報酬率有 1.86%,以對沖基金來說算不錯了),我們在這個特別的基金當中,卻明顯看到了 big data 帶來的威力以及我們對未來的想像。實際上,美國一位教授 Johan Bollen 就因為發現 Twitter 對於股市的預測效用,竟然因此在上個月獲得了一項專利。Twitter 自然也知道自己的平台有這樣的預測和分析作用,所以也推出了 Twindex 這項即時分析政治情勢和總統大選的服務。

Big data,海量資料,無疑是過去一段時間,全世界最火紅的話題之一,我們最近在其他地方也一再見證了它的威力:

Google 趨勢預測奧斯卡,六大獎命中四項

Google 一直以來都在透過搜尋關鍵字分析全世界的趨勢,也是一個 big data 應用的經典範例。一般人對於 big data 和以前聽過的 OLAP (Online Analytical Processing)、data warehousing 的差別可能所知不多,同樣是資料分析的技術,到底海量資料的特別之處在哪裡?

Jim Gray 是一位著名資料庫專家,曾經獲得有電腦界諾貝爾獎之稱的圖靈獎 (Turing Award),這位科學家在 2007 年出海時不幸失蹤,微軟為了紀念 Jim Gray,出版了「第四典範」(The Fourth Paradigm: Data-Intensive Scientific Discovery),Jim Gray 在書中提到:科學發展已經走過了「實驗、理論、計算」三個階段,而進入了第四個以「資料」為重點的階段,也就是他所稱的第四典範。過去幾十年來是計算科學大行其道的時代,各種重要的資料庫技術和演算法,都在過去幾十年漸漸成熟;而現在由於全世界物聯化 (instrumented) 以及互連化 (inter-connected) 的關係,讓全世界的資料在任何領域都以非常快的速度在累積,而且累積的速度遠遠超過現在所有企業所能處理的速度。由於資料累積的量和速度都是前所未見,而且其中的確蘊含寶貴的資訊金礦,因此在科學研究或是其他各種領域,大家都轉而以資料分析來為科學研究或是企業組織提供發展方向、尋求突破。

所以,重點在於分析 (analytics),而不僅僅是資料的採集和儲存,畢竟資料儲存得再多,如果最後沒有分析技術來促成有意義的決策,企業也只是白白製造一個巨大的資料垃圾場。海量資料的分析內容與過去 OLAP、data warehousing 最不一樣的地方在於:big data 更為強調非結構化或是半結構化資料的分析。舉例來說,各位每天在 facebook 或是 twitter 上面看到的使用者動態更新,就是我們所稱的非結構化資料,這些資料沒有固定的格式,可能包含影音或是文字,傳統的資料分析技術並沒有非常著重這些非結構化資料的分析。但是,使用者對於產品的喜好,卻藏在這些雜亂無章的龐大外部資料當中。因此全世界的企業現在莫不想盡辦法從這些社群媒體當中,了解使用者對於產品的觀感和未來潛在的需求。

資料庫大廠當然也看到 big data + analytics 的大趨勢,因此也非常積極在既有的資料庫產品線上拓展這樣的業務:SAP 推出了 HANA 系統;而 Oracle 則是推出了 Oracle Exalytics。其中 SAP HANA 更進一步與 Amazon 的雲端服務 AWS 結合,讓全世界廣大的使用者使用,號稱 120 塊美金就可以讓企業擁有海量資料分析的服務,拓展業務的速度非常快。另外因為 big data + analytics 的興起,連帶著最近在產業界也出現了一些相當夯的新名詞:像是「in-memory analytics」或是「in-memory technologies」,這些我們在後續的文章都會持續探討。

如同「雲端時代的殺手級應用 – Big Data 海量資料分析」一書中提到的,big data 就是人類生活的下一塊拼圖,我們從海量資料中挖掘出未曾想像過的需求;拼湊出未來生活的樣貌。當我們可以用接近即時的速度來分析所有人類產生出來的資料時,未來的趨勢突然就變得清晰可見,我們可以預見五分鐘後的股價,知道幾天後大選的結果。然後組織的經營、政府的應變、科學家的研究方式,各個產業各個領域都因為如此而發生大幅地改變。我們的生活也不會再像以前一樣,我們的身邊將會出現更為個人化的產品和服務,完全依照我們的喜好所客製,因為我們從出生開始累積的所有資料都不斷地被拿去分析和使用,而隱私權也將成為一個越來越嚴重的問題。我們的社會已經因為海量資料的到來而快速改變中,當有一天,我們每個人都可以瞬間預測未來五分鐘的時候,究竟我們生活的樣貌會是什麼,相當令人好奇。

本文作者程世嘉 (Sega Cheng),網路筆名 Mr. Saturday現任 iKala 執行長,曾任 Google 軟體工程師。

喜歡這篇文章嗎? 分享出去給作者一點鼓勵吧!
  • ibida SEO

    世界的資料量不斷的增加!可見SEO也會很被重視!未來要能在幾兆的資訊過濾出有用的資訊,可預見的是GOOGLE會越來越強大!

  • Pingback: Big Data Analytics 大数据分析 | ClusterTech Blog()

  • Xxl

    “當我們可以用接近即時的速度來分析所有人類產生出來的資料時,未來的趨勢突然就變得清晰可見,我們可以預見五分鐘後的股價,知道幾天後大選的結果。” ………………..做夢比較快

  • Dsff

    我不認同….
    這絕對是趨勢

  • http://www.facebook.com/profile.php?id=578256920 Spike Hsueh

    用情緒探勘”sentiment analysis”來做預測的研究已經出很多了,尤其是受網路言論或情緒影響的事物如電影票房跟美國總統歐巴馬的選情也是twitter上力推跟網民互相串連造出來的,當然有時候會有適用性的問題,但我相信是有很大的著力點的。至於股價這種事,影響因素太多,我覺得要做到真的高度相關不容易

  • 思柔 林

    資料量越大,所要的技術會再提升,很好的分享
    模具開發

  • Steven

    http://www.ted.com/talks/kevin_slavin_how_algorithms_shape_our_world.html
    說要預測未來  是不是有點太誇張了…

  • Angel a

    每次看到大數據相關文章,就感覺google是坐在金山銀山上,也有採礦工具,只是還沒開挖而已!!!