Posted By Mr. Thursday 今天上網尋找東西或資訊,無論是用Google還是Yahoo,我們用的都是關鍵字 (keyword) 搜尋。關鍵字搜尋對一些專有名詞的資訊搜尋效果不錯,然而有時候我們只知道比較廣泛的概念,想要找比較詳細的資訊卻不知道該下什麼關鍵字,或著是同義字很多,像是 Apple是指水果的蘋果,還是蘋果電腦?或是我們想用自然語言的問句,來界定我們關鍵字的上下文意義,避免找到有這個關鍵字,應用情境 (context) 卻不是想要尋找的情況。「語意搜尋引擎」想要達成的目標就是如此,當少數關鍵字的意思並不明確,無法清楚定義出情境 (context) 或是排除同義字,或是想從廣泛的概念搜尋比較詳細特定的概念,就可以運用語意搜尋引擎來找找。 目前有哪些搜尋引擎呢?針對 Wikipedia 內容來做語意搜尋的搜尋引擎有 Powerset 和 Cognition,Cognition除了包含Wikipedia的內容外,也針對法律 (legal) 內容和醫學 (medicine) 內容做搜尋。Hakia 則是針對整個網路的內容做語意搜尋。除此之外,最近也有 Evri 這個語意搜尋引擎,使用類似資料庫裡面 entity-relationship (ER) 的瀏覽方式,讓使用者可以根據事情之間意義上的關係,從一個網頁連到另外一個網頁,讓超連結 (hyperlink) 不是只有關鍵字的連結,而是經由事物的屬性意義的連結。下面就讓我們先看一下這些搜尋引擎的 DEMO 吧! 影片1 Powerset demo
Category Archive for 'Mr. Thursday'
神經科學研究的各個層次
Posted in Mr. Thursday, Research, 大腦, 專欄, 影片, 神經生物, 認知心理, 電腦科學 on Sep 16th, 2008
Posted By Mr. Thursday 在之前有寫了一些神經科學相關的文章,有些是偏向認知心理的,有些是偏向細胞分子的,或是偏向視覺處理的。神經科學的研究,我本身的是以人工智慧作為出發點,往神經科學研究方向進行。至於為什麼要在人工智慧以外加上神經科學呢?這兩者似乎有一點距離?原來資訊工程的技術是否已經足夠了呢? 這邊我提出幾點研究的動機。首先,目前的機器學習的方式,和人類學習的方式比較起來,有個最大的不同,就是我們人類可能從上課或是閱讀當中自我學習,或是由外在環境給予的經驗來學習。機器同樣也是接收外界的刺激,調整自己的反應來學習,然而機器學習過程當中,有時候會需要滿多人類的介入,譬如說調整參數、調整模型或演算法等等。如果用類比的方式來說,目前機器學習的方式如果用到人上面,就像是把人的腦蓋打開,調整裡面的神經連結,關起來以後再讓人腦跑跑看有沒有學習到。其實這種方式學習也沒有什麼不好,因為機器的目標,其實是服務人類,學習的東西有學到,怎樣子學習到就不那麼重要了。 那麼機器目前學習的情況如何呢?其實目前的電腦和機器算是滿先進的,加上運算速度快,純粹數字計算的能力就比人類心算能力還快,許多應用服務也讓人類生活改善不少。然而有些比較難處理的問題,像是需要人類智能才能完成的問題,譬如說翻譯、圖形辨識、影像辨識、語音辨識、語意了解等等,這些都算是人工智慧 (Artifitial Intelligence 人工智能) 所需要解決的問題,這些問題的解決,沒有隨著硬體速度的增加而解決,因此軟體上面的進步,就是關鍵了!目前對於這些難以解決的方式,有兩種解法:(1) 運用大量的訓練資料,譬如說Google翻譯,使用大量的訓練資料,或是PDA的手寫辨識,大量的訓練資料都讓正確率大大提升。(2) 運用人工運算 (Human Computing) 結合Web2.0的方式,提供人性化的介面,讓每個人在趣味中貢獻微小的人類智力,解決一些大量資料也無法解決的東西,譬如說reCAPTCHA、語意辨識、圖形的ROI (region of interest) 等等。
Posted by Mr. Thursday 之前曾經介紹過〈海扁學習與神經網路的同步化〉,今天則是要和各位介紹和長期記憶相關的一個腦部結構,叫做「海馬迴」。「海馬迴」英文稱為 hippocampus,是從希臘文字根 hippos (馬) + kampos (海怪)而來的。 圖1 海馬迴在人腦裡面的位置 海馬迴重要在哪裡呢?主要是因為海馬迴和我們形成長期記憶的過程有關。怎樣子曉得和長期記憶有關呢?最重要的是因為在1953年,有一為病人,名字縮寫為H.M. (Henry M.) ,因為一直為癲癇 (epilepsy) 所苦,因此醫生決定為他開刀,把癲癇的來源,也就是腦部顳葉 (temporal lobe) 的地方,摘除掉。這個部分剛好也就是海馬迴的地方,因此他的左右的海馬迴、以及杏仁核 (amygdala, 負責情緒功能的區域),也被摘除掉了。 手術之後,病人H.M.好像恢復正常,不再癲癇。但是,他開始產生嚴重的失憶症,手術往前一部分時間的記憶消失,手術後無法形成新的長期記憶。人沒有長期記憶的功能,是非常不容易生活下去的!醫師發現這個情況以後,也就在沒有其他醫生會使用這種切除海馬迴的方式來治療癲癇了。對於科學研究來說,我們則是順便從這個病例,了解到海馬迴具有形成長期記憶的功能,詳細迴路可能還不知道,但是至少知道如果整個海馬迴摘掉,就無法形成長期記憶,因此非常重要! 下面是另外一張海馬迴的立體位置圖:(尋找hippocampus的地方) 圖2 海馬迴位置圖
語言數字觀研究與人類數字功能的猜想
Posted in Mr. Thursday, Research, 大腦, 專欄, 神經生物, 網路新聞, 認知心理 on Sep 1st, 2008
Posted By Mr. Thursday MIT News前陣子有一篇報導,敘述有一些和認知語言有關的研究。他們主要是研究南美洲一些原住民部落的語言,主要是巴西的西北部一個叫做Piraha的部落。在那邊除了研究語言之外,也研究該部落的語言,對於數字的概念是如何?他們發現到一個有趣的現象,就是在Piraha這個部落的語言裡面,對於數字的觀念非常模糊,幾乎沒有精確的數字描述。譬如說研究者請他們從1數到10,或是從10數到1,結果用他們的語言,1和2兩個字都有,但是數到3以上,都是同一個單字。也就是說,他們對於數字的觀念,只有「1」、「2」、和「很多」這三種區別。(圖: Edward Gibson教授) 就我們的工作記憶(working memory) 來講,的確也是有類似的現象,譬如說我們印象深刻的數字,第一個大概是「3」,大於「3」的數字,我們比較不容易捕捉其概念。舉個例子來說,中文字的1是「一」,2是「二」,3是「三」,但是4呢?就不是四條橫線了!又另外一個數字比較印象深刻的,大概是7。不是因為7乘以4等於28天,也不是一個禮拜剛好七天,而是因為工作記憶的容量,通常就在7到8位數字左右,觀察一下我們的電話號碼,你說手機有10位數字,但是開頭兩位可能都是固定的,所以其實只要記住8位數字就好,室內電話最多也是8位數,第一位數有時候也是固定的。如果要再科學一點,我們也可以用實驗的方式,來證實工作記憶的儲存容量,對一般人來說就是7到8位數。譬如說亂數唸出一堆數字,然後請受試者寫下記得的數字,一般人大概最多回憶到7組數字 (如果兩個數字一組,7組數字就是14個數字,也就是7個二位數的數字)。 而這則新聞和認知科學上面對工作記憶的發現,也讓我產生了一個大膽的假設,或許有興趣的話,可以實驗來證明一下。我的假設是說:人類數字功能,是一種類似「繞道」而行的方式產生,也就是說數字功能可能不是天生的,但是後天可以勤能補拙,產生數字的功能。為什麼會這樣子假設呢?
Posted By Mr. Thursday David OReilly運用 anamorphosis 的技術 (古代把物體畫成變形的圖案,透過特殊鏡片或角度才能看到原貌的繪圖技術),將他原本的動畫呈現在iphone上面,但是會因為觀看角度的關係,讓人以為這隻小貓是立體的,而且還可以透過觸控螢幕來移動動畫的觀賞角度呢!實在是非常神奇的創作! iHologram – iPhone application from David OReilly on Vimeo. 資料來源 (The Next Web) See that little creature? It’s a iPhone holographic illusion
免疫系統一日遊
Posted in Mr. Thursday, 專欄, 影片, 神經生物 on Aug 25th, 2008
Posted By Mr. Thursday 免疫系統對我們實在是非常重要。之前介紹過的病毒,或是生活環境中都有許多細菌,甚至身體裡面也會自己長出癌細胞,但是因為有了免疫系統,我們可以在一定程度下保持自己的健康,除此之外,我們得過一種疾病之後,還會記住這個疾病,第二次的免疫反應會更大更迅速,讓我們有「免疫」的表現。或者透過疫苗的方式,我們也不需要得過一次病,就可以「免疫」了!然而我們的免疫系統,是如何運轉的呢?除了白血球 (可以細分為4種今天不談) 提供身體一般非特定性的免疫功能,對每一種疾病特定的免疫反應,則是透過身體裡面的兩種淋巴細胞來反應,分別是B細胞和T細胞。為什麼叫做B細胞和T細胞呢?是因為他們喜歡用 BT 下載影片嗎?No No No! B細胞是因為他是在骨髓 (bone marrow) 裡面成熟,所以稱為B細胞, T細胞是因為他是在胸腺 (thymus) 成熟,所以稱為T細胞。 圖1 淋巴細胞(lymphocyte)與樹狀白血球細胞(dendritic cell) B細胞和T細胞如何在身體裡面清除病原,讓身體保持健康呢?這邊有另外兩個主角,就是抗原和抗體 (antigen and antibody)。抗原是病菌或病毒上面某個可以被辨認的蛋白質片段,而抗體就是免疫細胞上面,可以專門來辨認和結合抗原的部分,抗原和抗體,就有如鑰匙和鎖的關係,而且具有特定性,一個抗體就只辨認一種抗原。B細胞和T細胞的差別,可以從他們細胞膜上面的抗體來分別。 圖2 抗原 (antigen) 與 抗體 (antibody) 每個T細胞或B細胞上面有許多抗體 (antibody),就像上面那張圖裡面紫色的部分一樣,每個細胞有很多個抗體,但是同一個細胞表面的抗體會全部都一樣,也就是說抗體有很多種,但是一個B細胞或T細胞上面,只有一種抗體分布在上面。而一個抗原(antigen)則會有許多小部分 (epitopes) 可以讓某一個特定的抗體所辨認,所以一個抗原,有時候會需要三個抗體才能完全被辨認和結合。 抗體結合到抗原上面,就表現出免疫的作用了,譬如說病毒如果被抗體辨認,然後結合起來,病毒原來可以侵入細胞的區域,可能就被抗體給佔據,因此病毒就無法再入侵健康的細胞了。對於已經被感染的細胞,或是外來的病菌,抗體則是有另外一種作用,簡單地說,是一種把抗原標示起來的作用,讓免疫系統其他組成份子可以確定摧毀的目標。整個故事怎麼走呢?下面就來慢慢解釋。
呼吸的花朵與人機運算的比較
Posted in Mr. Thursday, Research, 大腦, 專欄, 影片, 神經生物, 網路新聞, 認知心理 on Aug 23rd, 2008
Posted By Mr. Thursday 下面的FLASH是由 Arthur Shapiro 所製作的視覺錯覺。原本固定形狀的花朵,加上邊緣的線條,就會開始規律地扭轉,好像在呼吸一樣呢! FLASH1 呼吸的花 Arthur Shapiro會在他的blog每天製作一個視覺的錯覺 (Visual Illusion)。也許會納悶,怎麼人的視覺系統會產生錯覺呢?這樣子不就不大好?其實我們也可以說,因為人類視覺系統如此特別,所以可以輕鬆地辨識物體,尤其在切割兩個重疊的影像的時候,我們可以很輕鬆地把同一盤菜裡面的菜和湯分開來,如果要用電腦來處理,目前仍然無法很容易地進行。 其中部分原因,是因為我們的視覺系統是用對比的訊號 (contrast),而不是像電腦的編碼,儲存的時候是用點陣圖的方式儲存,對比的資訊需要另外計算。電腦似乎就是用「絕對」的方式來處理視覺資訊,而人腦就是用一種「相對」的方式來處理視覺資訊,因此對電腦來說不容易的視覺工作,人腦是非常容易辦到,不過也因此會有副產品的產生,就是視覺上的錯覺了。之前曾經介紹的Ebbinghaus Illusion,就是可以說明我們使用相對資訊來處理視覺,因而產生錯覺的例子,您看!中間兩個圓圈是一樣大的,但是因為週遭圓圈大小不同,我們相對的視覺系統,就產生大小不同的錯覺了。 圖1 ebbinghaus illusion 除了「相對」的處理方式是人腦和電腦有所不同的地方,「平行計算」是另一個可以比較的地方。不過無論是電腦或是人腦,都會有平行計算,因此今天想探討的是另外一個問題,請各位先觀察一下下面這張圖片: 圖2 人腦XOR 這個圖片是由 Mark Changizi 所製作的,主要的想法是希望能夠利用人腦平行計算的能力,來解決一些邏輯上的運算。譬如說上面這張圖,是希望在圖的最上方可以放0或1,0的盒子會遠離觀賞者,1的盒子看起來會朝向觀賞者。接著觀賞著沿著這張設計好的圖,運用人腦的平行計算能力,看到圖片最下方的地方,如果感覺是朝向觀賞者,就說是1,如果最下面看起來是遠離觀賞者,就說是0。而這張圖的設計,可以讓觀賞者自然地從上面看到下面的時候,做了一個XOR (exclusive OR) 的運算。 不過我想探討的問題就是:平行計算應該是發生在運算初期的部分,無論是人腦還是電腦的平行計算。