為什麼你的個人資料這麼值錢? 從網路匿名研究談起

Posted by Mr. Friday

今天好像是 Facebook Developer 在台灣的聚會,我個人不太常用 Facebook,因此沒打算去,不過近來 Facebook 的網路新聞真的太太太太太多,連我這個不愛用的人都聽了一堆有的沒有的相關新聞。我想大家對這個網站最好奇的,應該還是「為什麼它這麼值錢?」

本來我也不甚了了,但就在兩個禮拜前,Wired雜誌刊登了一項相當有意思的研究:Why ‘Anonymous’ Data Sometimes Isn’t ?(亂翻譯:為什麼匿名有時候都不匿名了?) ,看完以後,我覺得,或許給了我們一點啟示。

這篇文章從一則德州大學的研究開始談起。去年,美國最大的線上錄影帶出租店Netflix公佈了手上五十萬名顧客對一千萬部電影下的評價,作為電影排行研究者的資料參考來源。當然,這五十萬名顧客的身分資料已經隱去,只留下評價內容。

一般人可能不曉得,這類資料對於做搜尋引擎排行研究者來說是很重要的資料來源。畢竟一套排名機制,不是研究者一個人說準就算數,它常需要拿一套公正的資料庫來試跑排名結果,然後跟其他排名機制比較看誰比較準。舉例來說,TIPSTER就是一套常被用來試驗文章搜尋準不準的檔案庫,裡面蒐集了大量的新聞片段與散文,每個有志研究搜尋機制的人都會拿它來當資料來源。

Netflix提供的這些顧客評價資料,背後用意也差不多,單純只是提供學術用途使用,希望其他研究者藉此作出更精準的電影排行機制,造福觀影大眾。當然,這裡面的顧客姓名等資料都已經拿掉了。不過讓人驚訝的是,兩位來自德州大學(University of Texas at Austin)的研究者,拿到這份資料後,竟然把Netflix提供的匿名保護給破解掉了!(研究論文在此)

不知道說來算不算神奇,他們的研究方法是,把這些資料拿去跟IMDB上的實名資料作比對。如果一個人在差不多的時間裡,在Netflix與IMDB留下了類似的留言,那麼他們就有很大的機會,交叉比對出Netflix與IMDB的資料,最後找出Netflix用戶在IMDB上用了什麼名字!

這段研究當然顯示出了匿名資料其實不如大家想像的那麼安全。不過,我個人比較感興趣的,卻是文章中提到的這個研究發現:

What the University of Texas researchers demonstrate is that this process isn’t hard, and doesn’t require a lot of data. It turns out that if you eliminate the top 100 movies everyone watches, our movie-watching habits are all pretty individual. This would certainly hold true for our book reading habits, our internet shopping habits, our telephone habits and our web searching habits.

這個德州大學研究告訴了我們,比對過程並不困難,而且需要的資料也不多。只要你把大家都看過的百大熱門電影拿掉,你會發現,其實「觀影習慣」這件事是很個人、獨一無二的。這條法則同時也可以應用在讀書習慣、打電話習慣、與網路搜尋習慣上。

文章後面並指出,Netflix其實不只將個人資料隱去,而且還刻意的把讀者留言時間改亂、移除部份資料、添加錯誤內容。但是德州大學的研究還是顯示,駭客只需要8部電影的評價資料,即使當中有2部電影的評價資訊是錯的,他們還是可以找出高達90%以上的網友真實資料!

image

圖為駭客手上掌握的用戶資料數與破解率,三條線分別代表駭客手上資料的正確率:2/2、3/4、6/8,縱軸是準確率,橫軸是容許的錯誤人數,例如n=2代表找出兩個可能用戶,而網友的確在這兩名當中的機率。n=1當然就代表正確找出該網友的機率了。

我相信這個研究應該夠準,因為除了這篇之外,Wired雜誌此文同時又提到好幾篇類似的研究,同樣都指出「匿名沒有你想像中那麼安全,因為你是獨一無二的」。而且從類似的角度出發,如果駭客掌握了你的興趣──你在anobii上的書評資料、FunP或HemiDemi的書籤紀錄、無名小站的好友關係,再適時配合一些公開但卻匿名的重要資料﹝例如信用卡消費紀錄資料庫﹞,「你是誰?什麼時候花錢買了什麼書/唱片/電影?」大概都無所遁形了吧。

如果你對上述結論感到害怕的話,那我想這大概也可以多少解釋了為什麼大家會在意Facebook。因為Facebook上這類的資料非常多,而且還是具名且公開的。我是還沒聽過有人把Facebook上的資料拿去跟什麼銀行信用卡消費資料作比對,可是我沒聽過不代表沒人作,一些知名的銀行,Amazon或Wal-Mart若開始把他們手上的客戶資料拿來與Facebook公開資料作比對,產生的行銷/CRM威力應該會是非常驚人。也難怪大家會對Facebook的廣告潛力產生這麼大的期望。

舉例來說,各位讀者從滿了20歲之後,有沒有很常接到銀行打來的電話,說他們新推出了一種貸款方案,希望你能試看看。我想這種亂槍打鳥的銷售方式,成功率應該不是很高,但若如果今天銀行透過手上消費紀錄比對,找出每個顧客在Facebook上的帳號,之後如果你升學,只要在Facebook上把資料從高中改成大學,銀行就立刻打電話問你說要不要辦就學貸款,靠,你會不會覺得這家銀行準得很恐怖?

這當然是種過度理想的假設,這種系統當中需要考量的因素相當眾多,絕對沒有我在這邊耍耍嘴皮子那麼簡單,可是各位單純從技術面上來考量…好像其實是做得出來的對吧?如果做得出來的話,那…這個機制,實在太可怕,對銀行來說,一方面節省很多胡亂行銷的成本,一方面又可以提升行銷精準度,只要客戶接受率增加個10%,那就能產生非常大的效益。

Google之所以能靠關鍵字廣告賺這麼多錢,就是因為關鍵字本身已經多少帶有使用者意涵〈User Intention〉,譬如說會下「台北101,停車位」的人,十有八九都是要在101附近找停車位,所以在那附近的停車場商家可以靠買關鍵字而精準的到達潛在客戶。但是目前除了搜尋引擎能夠準確的靠著關鍵字判斷網友想做什麼事而賺大錢,其他的網路服務似乎都還很難抓住自己的網友到底想做什麼事。Facebook上豐富的個人資料、人脈與社群連結,似乎就是下一個廣告商寄予厚望的希望所在。只要Facebook能夠想清楚如何利用本身的優勢,抓住網友內心的想法,再精準的送上廣告,難說它不能成為下一個廣告主的金脈。當然,目前為止我是還看不出Facebook想清楚該怎麼作了沒啦…

有人說Google可以知道你叫什麼名字,而Facebook卻可以知道你是誰。雖然市值近五千億台幣真的是太過高估了點,但是Facebook的價值,各位現在有沒有一點頭緒了呢?

喜歡這篇文章嗎? 分享出去給作者一點鼓勵吧!
  • http://www.taiwanrank.tw/taiwanrank/real_time_map/

    這個網站是seednet做出來的…而我也用seednet….

    我每次看都會亂想,上diggirl之類的網站時,我的大頭貼和名字會不會在地圖上跑出來…

    然後有一次,我上yahoo股市玩了沒十分鐘,就有人打電話向我推銷股票。我一直問他問每這時候打給我,他說是隨機的。但我還是有被害妄想了約10分鐘…..

  • http://www.taiwanrank.tw/taiwanrank/real_time_map/

    這個網站是seednet做出來的…而我也用seednet….

    我每次看都會亂想,上diggirl之類的網站時,我的大頭貼和名字會不會在地圖上跑出來…

    然後有一次,我上yahoo股市玩了沒十分鐘,就有人打電話向我推銷股票。我一直問他問每這時候打給我,他說是隨機的。但我還是有被害妄想了約10分鐘…..

  • Chen

    我也有類似的遭遇(好幾次了)
    總覺得做啥事情都被人家知道了
    當兵還曾經收過一封E-mail是冒用連上弟兄的名字寄給我
    連這個都知道
    真的很不爽
    前面文章提到的在需要時忽然收到詢問要不要貸款的通知我也遇過
    真是難道就無法可管

  • Chen

    我也有類似的遭遇(好幾次了)
    總覺得做啥事情都被人家知道了
    當兵還曾經收過一封E-mail是冒用連上弟兄的名字寄給我
    連這個都知道
    真的很不爽
    前面文章提到的在需要時忽然收到詢問要不要貸款的通知我也遇過
    真是難道就無法可管

  • Pingback: 史波茹提督的網誌 » Blog Archive » 春節書單()

  • For marketing study, I don’t mind. But after data cross reference compare, you can locate the person, I don’t think the privacy protection is enough.
    The best thing to protect your privacy online is leave as little data online as possible!

  • For marketing study, I don’t mind. But after data cross reference compare, you can locate the person, I don’t think the privacy protection is enough.
    The best thing to protect your privacy online is leave as little data online as possible!

  • Pingback: Facebook與網路真實身份來臨的時代 – MMDays()