Posted By Mr. Wednesday
漫畫自動產生器,這是很久以前無聊時的突發奇想,剛好碰上這次有幸參與Demomo Show的活動,跟大家分享一下我的點子。
簡單來說,這是一個四格漫畫自動產生器,輸入一篇文章就會根據文章內容自動產生四格漫畫。
系統分成以下幾個步驟處理:
- 從文章中找出有代表性的關鍵字:
將使用者輸入的文章利用抽詞工具將其中的關鍵字抽取出來,並利用改良後的TF-IDF概念計算每個關鍵字的分數並加以排序,找出代表性高的關鍵字(分數高的)。 - 找出重要的句子:
將文章拆成一個一個句子,每個句子的分數就是其中所含有的關鍵字的分數總和,排序選出最重要的四句,作為漫畫的四個字幕。 - 找出圖片:
將四個最重要的句子丟到Flickr與Google Image Search找出相關的圖片,選出相關的四張圖片。 - 將字幕與圖片結合
- 完成
概念上很簡單,但是許多細節的處理累積起來都會造成結果不夠理想,其中最難處理的問題就是要如何定義『好笑』這件事。
歡迎大家試玩,有任何疑問或建議非常歡迎提出來一起討論。
特別感謝Mr. Friday在百忙之中還抽空幫我去現場報告,大感謝。
過去的今天:
- 網路遊戲進入生活中 : 是危機還是轉機? - 2007
- 個人化搜尋: 搜尋引擎的下一步, Semantic Web 的前一步 - 2007
相關推薦
![]() |
![]() |












You need to check on Alan Turing ideas of computability.
很有趣的實作,我覺得有些圖片是蠻好笑的。
有兩個淺見供W大參考。
1. 用TF-IDF或許可以找出具代表性的關鍵字,可是句子呈現的順序是依計算後的分數,即使有字幕和圖片,可能也無法傳達原文要表達的語意。
2. 選取圖片用句子、詞、或是字比較能取得準確的代表圖片?
既然在每個句子中已經有計算後最重要的關鍵字,或許可以這些term尋找圖片。
To Grady:
謝謝你的建議。
1. 找出最重要的四個句子後,我會還原每個句子的相對順序,然後再依序編成第一,第二,第三與第四個字幕。
2. 目前是用一個句子中最重要的那個詞來找圖,有試過用整個句子或是句子中的多個詞來找圖,但是會讓找到的圖片數量大幅減少甚至找不到(因為限制變多了),所以還是選擇用單一個詞來找圖。
[...] 漫畫自動產生器:這個網站可以將一篇滿滿文字沒任何一張圖的文章,透過關鍵字的分析和句子結構分析,再從Flickr上找出相關圖片做結合,自動產生圖文對照漫畫效果,這網站是由知名部落格MMDays裡的Mr. Wednesday所開發,詳細介紹可以參考這篇漫畫自動產生器,以後寫文章不用怕沒圖沒真相了。 [...]
我想好笑的點就在於
電腦看不出context關聯的特性
..像是Demo網站中小紅帽故事裡
大野狼找出搭配的野狼機車 這樣就挺好笑的
如果真的找出一匹狼 可能或許沒那麼好笑
但找出七匹狼的圖可能會相當好笑
To jaxx:
你說的沒錯,單一關鍵字的圖片搜尋很容易有一字多義的『好笑』,另外就是圖片本身的Tag,如果下得特別,也會造成有趣的效果。
現在就已經可以感受到
如果字數太多的時候
實在沒有辦法擷取具有代表性的四段字幕出來
這個漫畫產生器看起來大概是利用文件自動摘要的一些方法,加上中研院的資料庫來做斷辭吧
基本上這領域研究有相當多的著作,例如除了考慮每個句子的TF-IDF分數總合,還會考慮句子的位置,即通常我們會認為一個句子出現在段落的前後會比出現在中間來的稍微重要.
另外有一些字辭可能會因為太一般而被過濾掉,像英文的however,whatever等,這些字雖不足以代表文章的主體,但卻文章意涵有相當大的影響.尤其出現以這種自為首的句子時,常被認為是相對重要的句子,因為他們才是作者真正想要表達的內容.
其他諸如詞性,例如名詞相對於形容詞可能比較利於摘要,數字可能較帶有決定性的意義等.
另外就是中研院的詞語資料庫太過於正式了,很多好笑的網誌或是文章,常含有次文化的辭彙,這讓這類的文章再斷詞切字彙遇到很多麻煩.
總之摘要的技術真的太多,多加一些機制搞不好會有更好的效(笑)果喔
To Zeebra:
碰到專家了!你說的沒錯,主要就是利用文件自動摘要的方法來做。選句子的方法目前只採用比較簡單的TF-IDF概念,句子的位置,長度等還未列入考慮。詞性方面目前以名詞為主,次文化的辭彙真的不容易切出來,但是CKIP是我目前知道斷詞最準的系統了。
再次感謝你幫我點出不少該改善的地方。