Posted by Mr. Wednesday
最近這一週突然出現了一個引起廣泛討論的網站diggirl,不禁讓Mr. Wednesday想起約莫一年多前想到的天真浪漫的點子,還幫這個點子取了一個名字,叫做BeautyRank。在繼續下去之前,Mr. Wednesday必須要先澄清一下,以下的所有論述都是僅用單一而且偏頗的觀點來看待女性的外貌,事實上人與人的交往絕不應該以如此狹隘的眼光來看待。
回到原本的話題,為甚麼說是天真浪漫呢?因為Mr. Wednesday很想要一個”全自動”的方法可以將所有正妹的相簿找出來並且加以排序。目前台灣最紅的網路相簿應當算是wretch了吧,所以Mr. Wednesday先以wretch作為正妹相簿的來源,說到wretch的竄起,其實Ptt的表特版也是功不可沒, wretch上原本就蘊含大量所謂正妹的相簿,而wretch本身提供的搜尋功能也僅只是關鍵字的比對,如果特別想到找到所謂正妹的相簿事實上用搜尋的方法效果是很有限的。於是乎,某天Mr. Wednesday靈機一動,因為想到wretch的畫面上有提供好友相簿的連結,而這個單向的超連結等於就把整個wretch連結成了一個超大的人際網路(Social network),每個節點代表一個人,每個有向的箭頭就代表了一個好友的關係。正好,超連結分析(Link analysis)的技巧就可以派上用場了,於是就把之前讀到的兩個演算法拿來套用,一個是Sergey Brin與Lawrence Page提出的PageRank(沒錯,正是Google的兩位創辦人所提出的),另外一個演算法是Jon Kleinberg所提出的HITS。
對於PageRank來說,Mr. Wednesday做了兩點大膽的假設,假設一:正妹的朋友也會是正妹,假設二:正妹會被許多異性加入成為好友。於是乎,Mr. Wednesday就以手動的方式加以目測,選出了若干應該是正妹的相簿,給予一個初始值,然後把所有wretch的帳號丟進PageRank裡做計算,形成一個超大的遞迴函式(Recursive function)。
對於HITS來說,需要有兩種身份的wretch使用者協助,第一種就是所謂的正妹(在HITS裡被視為authority),另一種就是專門蒐集正妹的使用者(在HITS裡被視為hub)。同樣地,Mr. Wednesday也手動的方式目測選出若干應該是正妹或者應該是很會蒐集正妹的相簿,給予一個初始值,接著把所有的wretch帳號進HITS的公式裡做計算,仍然是一個超大的遞迴函式。
理論上來說,這是一個漂亮而且全自動的方式,不過在實做上不可避免地碰到了許多問題。其中最大的問題就是初始值的給予,如果用手動的方式檢閱所有帳號再以人工的方式給予一個初始值一定是曠日費時,而且這樣一來就完全失去了當初想要全自動的意義了。第二個問題是,PageRank與HITS這兩個演算法都分別是基於一個遞迴函式,當節點數目一多,計算量將會非常龐大,而如果節點數目不夠多,計算出來的結果卻又會產生相當的偏頗。第三個問題是,其實在 wretch上的這個人際網路的連結程度不如想像中的緊密,存在太多的孤島,並不完全適用於PageRank與HITS的設計。
說了這麼多,其實Mr. Wednesday還是很想要一個全自動的方式能夠即時自動篩選出所謂的正妹相簿,也想到了一些可能可以改進之前碰到的問題的解法。在wretch的相簿裡有兩個數字可以利用,就是”今日瀏覽人數”與”總瀏覽人數”,做個大膽的假設,正妹的相簿一定很多人會來瀏覽,而這兩個數字或許可以直接作為初始值來加以利用。另外一方面,就是要想辦法改善當節點數目很多時遞迴函式的計算效率。
Mr. Wednesday這個天真浪漫的想法與diggirl大異其趣,diggirl利用大量使用者的投票來篩選出所謂的正妹相簿,而BeautyRank想要利用漂亮的數學公式直接計算出正妹的得分並加以排序,兩者篩選的基礎不相同。就正妹的排序這件事情來說,或許,還可以找到一方結合兩者優點的方式吧!
過去的今天:
- 教育柏拉圖: 誰的理想世界? - 2008
- 從 Facebook 看起,你的個人資料究竟算誰的? - 2008
- 變形金剛大集合 - 2007
- 台灣的PTT效應 - Chapter 1 - 2007
- Digital Music in Taiwan ? Chapter 3 - 2007
熱門程度: 6%
隨機推薦
![]() |
![]() |












就Diggirl這件事情,我想兩件事情可以來討論。第一件事情,就是證明了無名小站的人實在沒什麼能力,一群人都看到了聚集了這麼大的社群,又這麼多的資料,總可以幹點什麼好玩的。不過這群人實在想像力太差了,Yahoo會去把它併購也真是…。第二點,準確與否,在自動跟全自動上面當然還是有差距,但是可以先release自動版本,結合Digg,讓網友將整個結果朝向正確的方向平衡回來。還有,目前Diggirl的首頁,看起來分明就很色情,這是為什麼呢?因為是根據之前的幹圖王的結果,所排出來的。去幹圖王的首頁,就會發現他們promote的幹圖王的原因。色情,是一個產業,但是總覺得做事情還是要有格調一點。我相信,更多的美女是不需要擠奶的照片還是依然受到大家的歡迎的。
Interesting~
我的論文跟這個領域滿相關的
首先PageRank的精隨在於re rank一個query的結果,由於傳統上re rank網頁的方法不精確。
在網路相簿環境中,我想PageRank的結果會與依照瀏覽人次排列的結果相似。因為基本上使用者的行為幾乎是完美的random walker,而瀏覽人次也清楚了記錄了這個行為模式的結果。如果單純只是把整個相簿網路拿PageRank去算一遍,得到的排序跟依瀏覽人次排序我想差異不大。
所以重點是,假設我們認為依瀏覽人次排列不是我想要的結果,PageRank可以做到些什麼去re rank一個我要的正妹排序?
其實PageRank厲害的還有另一個部份,也就是文獻中的E陣列,可以依據這個陣列做個人化的調整,所以事實上是,如果能夠利用這個來re rank出在不同intention下不同的正妹rank,例如腿細的正妹,胸部大的正妹,有淺力的正妹,老的正妹之類的,應該非常的powerful。
然而要如何蒐集資訊來產生那個E?可能可以去scan使用者回覆的內容,再用textmining去做分類(例如胸部大女生的留言可包含很多關於胸部的字眼),或是設計一個collaborate filter以使用者偏好為基礎,利用推薦權重來形成那個E。
總而言之,這個領域很多東西可以加進來,但是交一個正妹女友有比較實在…
哈哈,Mr. Wednesday的這個作品和想法實在是讓人眼睛為之一亮,實在是太有趣了!而且公開之後一定相當合PTT廣大鄉民們的胃口啊!不過就像ZEEBRA講的,現在還是交一個正妹女友還是比較實在
Hi, 我是diggirl的站長。
唯一的問題在於正妹的朋友不是正妹呀。:)
唯一的例外,在於那種從事模特兒工作的特定人選。他們的朋友因為加入了模特兒進來,所以會品質較優,要不正妹們常常都設一些不好看的女生當好友。以顯示自己的好看嗎?
目前要找人氣正妹的話,有幾個手動收集的達人。
乳波臀浪
http://blog.xuite.net/ilovebmilk/ABCD
by人氣的話,請參考
http://www.wretch.cc/album/super101dog&page=3
以下也是無名有名的收藏達人
http://www.wretch.cc/album/um2
至於text mining的話,目前這些相簿裡面缺乏text mining的資訊。你很難從一個大胸部美眉的照片裡面讀到F罩杯這類文字資訊吧?
而我們應該最近會加上user tagging的機制。所以如果會員夠多,要找應該會容易而且精準多了。
我們的資料目前排序不太好,所以會需要重新洗個牌。事實上也才開站沒多久,對於各種建議都蠻歡迎的。我們會盡量努力看可以怎麼樣廣納大家的意見,也請各位有什麼好建議時不吝賜教。在此先謝過啦!
謝謝ZEEBRA與singlelog提供的建議與資訊!
Mr. Wednesday必須要承認, 關於在應用PageRank時所作的假設, 真的是非常大膽而且天真, 很冒犯的說, Mr. Wednesday相信物以類聚(但Mr. Wednesday不是說正妹是物XD).
理論上來說, PageRank相信當一篇網頁A連結到網頁B的時候, 代表網頁A有一定程度的推薦網頁B, 很明顯地, 這與現實的情況有出入. 這也是PageRank先天上的不足, 不過當整個人際網路夠大, 連結數目夠多的時候, 這些”雜訊”的影響也會相對降低.
最後Mr. Wednesday一定要說, diggirl的出現真是讓人眼睛為之一亮, 亮的理由不是正妹(笑~), 而是可以看到越來越多好玩的點子真的被實做出來, 這種感覺真的很棒!
無名交友地圖
http://210.71.14.164/
感謝John提供的消息, 事實上Mr. Wednesday也正在玩這個新的服務, 接下來會跟大家分享一下使用心得 ^^
[...] 繼前一陣子看到diggirl這個網站的出現後,最近又發現了一個網路上好玩的應用,叫做Web Allusive Relation Map(WARM)。該服務目前是以無名小站(Wretch)上的使用者為基礎,提供許多有趣且實用的人際關係分析服務。記得在Mr. Wednesday的前一篇文章”全自動正妹排行榜“中有提到,無名小站的網頁中其實提供了許多有用的資料可以將無名小站所有的使用者建立起一個人際網路(Social network)。 [...]
哇哈哈哈!
超好笑的。
我想假設有點錯誤,實際上兩種演算法還是可以用的。
但是,結果就不知道了。