視覺傳遞路徑總整理

Posted by Mr. Thursday

恭喜新年好!今天要和各位介紹的,是有關我們天天都會使用的視覺。視覺是非常重要的,有視覺是非常幸福的一件事。在資訊科學裡面,如何讓電腦也可以看到圖片、看懂圖片,目前也仍舊是一個困難的問題,但也是可以有許多應用的問題。之前在MMDays上面的文章就曾經介紹過電腦視覺的相關應用,譬如說以圖找圖超影像連結(hyper video link)AdSense for videoCAPTCHA、以及無人車比賽等等。

有這麼多應用急待電腦視覺來解決,但是有些解答,或許可以從生物模型上面得到靈感。因此,這篇文章就把過去曾經介紹過的視覺路徑整理起來,從一開始的視網膜、到中繼站的LGN、到大腦皮質的第一站V1、以及之後兩條路徑裡面處理物體移動資訊的MT、和今天會新介紹的和辨識物體形狀有關的IT。最後,也會就目前未知的部分,提供一些假說作為參考。

光進入瞳孔之後,會先被視網膜上面的光感受體 (photo receptor)所吸收,之後驅動了一連串化學反應,變成了神經的電訊號,開始往後傳遞。上面這張示意圖裡面,我們也看到,視網膜其實可以詳細區分為更多層,可以作為第一階段視覺訊號的整合處理。

如果要詳細的介紹,可以參考:〈靈魂的紗窗:走訪人類的視網膜

視網膜的光刺激轉換成神經訊號之後,會延著視神經往後傳遞,左右眼睛的視神經分別會有部分先交叉,接著進入大腦下方的一個區域,就是丘腦 (thalamus) 的其中一小塊,英文縮寫為 LGN (lateral geniculate nucleus)。LGN相當於視覺訊號從視網膜到視覺皮質V1的一個中繼站

在LGN主要是有一些注意力的功能,以及其他大腦區域的回饋訊號 (feedback) 一些調節功能。此外,視覺訊號到LGN為止,每個神經細胞有反應的影像,都是一個圓圈的形狀,中間和外圈有亮度對比 (內亮外暗、內暗外亮),才會引起視網膜或是LGN細胞的反應。

在LGN也初步區分兩個路徑,課本通常會稱為 M Pathway和P Pathway,無論名稱如何,只要曉得這兩個路徑的訊號,分別是和「移動」的訊號以及「形狀色彩」的訊號有關。這兩種訊號在最後也會分別傳到不同的區域作處理。

LGN詳細的介紹可以參考〈視覺交響曲第二樂章: LGN〉。

接著,如前面那一張人腦的圖,視覺訊號從視網膜出發,經過LGN中繼站,接著到達大腦後腦杓的地方,也就是視覺皮質第一站,名字常常稱為V1。V1和LGN最大的不同在於,需要一條直線,而不是一個有對比亮度的內外圓圈,才能讓一個細胞有反應。

下面是一段實驗影片,裡面就有分別對圓圈形狀才會反應的LGN細胞,對直線才有反應的V1細胞等等。V1其實可以細分simple cell和complex cell,詳細介紹可以參考〈視覺交響曲第三樂章: V1〉。

此外,視覺皮質V1區域,在前面那一張圖有一個 ice cube model,是描述V1細胞有一個一個直列,每一個直列(column)就代表一群對某一個方向的直線會有反應的細胞。方向角度相似的細胞會在腦區上也接近。不過後來的研究結果發現,比較符合的模型應該是pinwheel model。

不同的顏色,代表不同的方向,譬如說紅色的區域,都是會對某一個方向的直線有反應,以此類推。

此外,因為V1會整合左右眼的資訊在一起,變成右大腦處理左視野,左大腦處理右視野,所以同一邊的大腦,左右兩眼的資訊會有不同的傳遞目標的分布,稱為 Ocular Dominance。

上面這張圖就代表,右腦的V1處理左視野的資訊,但是黑色腦區域是處理左眼來的左視野資訊,白色區域是處理右眼來的左視野資訊。

所以一路走來,從視網膜LGN,從LGN到視覺皮質V1,訊號從圓圈對比,到直線對比。上圖的右手邊就是眼睛的方向,左手邊就是後腦杓的視覺皮質V1。經過這趟旅程之後,視覺從眼睛傳到了後腦杓。接下來又要往大腦前方傳遞。不過,這時候分為兩個路徑,和物體移動有關的訊息,會往上傳,到MT (Medial Temporal Lobe) 的區域。和物體形狀有關的訊息,會往下傳,到IT (Inferotemporal Lobe) 的區域。

視覺的訊號到這邊就算到一個段落。之後就提供給其他腦區做為輸入的訊號來源,譬如說提供給杏仁核 (amygdala) 作為情感反應的視覺訊息,提供給前額葉 (prefrontal lobe) 作為視覺分類 (categorization) 的訊息。

也因此,在MIT的一位教授 Tomaso Poggio 就提出了一個最開端的視覺模型,希望把這些在神經科學裡面,有關視覺的研究成果,轉化成資訊科學裡面可以使用的演算法 (Algorithm) ,讓電腦借鏡這個生物模型,幫助人類完成一些圖片影像分類的工作。

上面就是 Poggio 提出來的模型。然而有些問題,是這個模型可以在繼續修改的地方。首先在物體移動的資訊方面,視覺孔徑 (Aperture Problem) 問題,牽涉到了不同區域的資訊如何彼此連結成整體的資訊,也就是 Binding Problem。譬如說神經元A對往左移動的影像有反應,神經元B對往右移動的影像有反應,但是如果一張大影像整體往上移動,但是區域上來看分別是往左往右移動,這種問題要用什麼模型解釋呢?

像上面這張圖,某個神經元可能只看得到中間圓圈的範圍,但是整張圖的移動方向,有可能是往右、往下、或是右下的方向,怎樣子結合其他神經元的資訊,才能判斷出整體移動的方向,就是Binding Problem想要找的答案。

另外在IT也有新的問題。Poggio的最初模型,是一種階層式 (Hierarchical) 的模型。大腦處理資訊也是有階層沒有錯,但是大腦階層的資訊分法,和人類有意識的階層分法似乎不大相同,怎麼說呢?

 IT是大腦處理物體形狀資訊的區域。如果用比較工程的角度,會像Poggio的模型一樣,最底層是判斷的神經元,在來就是V1對不同方向的直線有反應的神經元,在來可能就是簡單的正方形,最後就是對某一張臉或是形狀的圖片有反應的神經元。

然而一些研究成果,像是Keiji Tanaka對IT的實驗結果發現,IT的神經元,要特定形狀才會有反應,而不是簡單的幾何形狀像是圓形或正方形等等。

it_map

譬如說上面這一張圖,是IT裡面某一個神經細胞的反應。左上角那張圖反應最大,是一個大圓圈然後有一個小突起的圖片。反應是1.0。然而如果轉180度,反應就剩下0.01。小突起改成方形,反應也剩下0.01。如果小突起沒有,只有中間的大圓圈,反應居然是0!但是小突起改成細長突起,反應還有0.82

這邊就可以看到,IT接收來自V1的訊號沒錯,但是中間的連結似乎和人類意識自我想像有所不同。IT對於形狀分解的方式,並不是直接在視野裡面左右切割的方式,也不是直接用人類切割有意義單位的方式來組合會反應的影像 (譬如說我們會想要把大圓圈和小圓圈分開來,然後會假設神經元是接受大圓圈有反應的神經元,以及接受小圓圈有反應的神經元,加總起來才產生反應),有些細微改變就會讓反應消失,但是有些不大直覺的形狀改變,卻還有0.8的反應。

因此IT對於物體形狀的處理方式,目前仍然未明朗,因為不像V1那麼明顯,某一群神經元,就是對某個方向的直線有反應。IT的每一個神經元,只對某一種特別的形狀有反應,有的特徵很重要,有的特徵卻是可以拿走卻不影響。也因此這部分還有待研究者繼續努力的部分。

Poggio提出的模型也可以在這部分繼續提出修正了!在網路上也有他的演講,有興趣的可以在演講中接觸更多相關的基本知識。演講前半連結後半連結

最後,我自己對這種神經反應的假說如下:

(1) 神經反應可能在另外一個數學空間會有比較接近加總(sum)的階層模型。傅立葉轉換可以把神經反應轉換到頻率週期的數學空間,不過似乎這個可能性也不高。

(2) 除了神經活動率,其他數值譬如不同神經元的活動率的差 (difference),或是活動時間相位差 (phase),或是同步化的程度 (synchrony),有可能提供另外一種比較符合階層模型的神經編碼方式。

(3) 簡單幾何形狀,如正方形、三角形、圓形等分割影像的方法,應該和motor指令比較相關,有可能是意識資訊後期接近motor command的地方才會有神經元的反應是針對有意義的幾何圖案。IT則是還很前期的資訊處理階段。

以上都只是假說猜想,僅供作實驗的假設的參考,並非已經確定的生物模型!

今天就和各位介紹到這邊。希望各位讀完這篇以後,可以知道視覺訊號從視網膜、LGN、到腦後杓的V1,接著分兩部分到MT和IT的這整個故事的來龍去脈。也希望各位可以了解目前Poggio提出的模型,以及其他實驗結果帶來的挑戰等等。

期待有更正確的生物模型提出,讓電腦的視覺功能更接近人類,提供更多影像服務給人類。希望這一篇不會太難了解,真的看不懂的話,也許我會再想一下怎樣子用更白話易懂的方式,把這方面的知識傳遞給大家!祝大家新年快樂!

 

相關連結

喜歡這篇文章嗎? 分享出去給作者一點鼓勵吧!
  • Peter

    剛考完資格考
    沒想到複習的內容就出現在blog上
    大家參考一下神經學(Neuroscience)的課本裡都會有提到Visual System這一章
    目前神經科學在生醫工程領域另一已近成熟的是聽覺系統(Auditory system)方面的研究
    人類耳朵的設計更是讓人嘆為觀止
    同時包括聽覺(cochlea, ossicles, etc.)和平衡(vestibular labyrinth)的功能
    同時兼具機械與電生理的機制, 甚至包含訊號處理的功能
    每次讀神經學都對人體的奇妙設計讚嘆不已
    Mr. Thursday 花了這許多心力嘗試將複雜的神經pathway和特殊機制用白話文解釋
    請大家用力鼓掌加油~~~~

  • Peter

    剛考完資格考
    沒想到複習的內容就出現在blog上
    大家參考一下神經學(Neuroscience)的課本裡都會有提到Visual System這一章
    目前神經科學在生醫工程領域另一已近成熟的是聽覺系統(Auditory system)方面的研究
    人類耳朵的設計更是讓人嘆為觀止
    同時包括聽覺(cochlea, ossicles, etc.)和平衡(vestibular labyrinth)的功能
    同時兼具機械與電生理的機制, 甚至包含訊號處理的功能
    每次讀神經學都對人體的奇妙設計讚嘆不已
    Mr. Thursday 花了這許多心力嘗試將複雜的神經pathway和特殊機制用白話文解釋
    請大家用力鼓掌加油~~~~

  • Raim

    光(電磁場)可以用眼睛看,若是磁場(磁鐵)也可以用看的(比如細胞)不就更精彩,這個世界

  • Raim

    光(電磁場)可以用眼睛看,若是磁場(磁鐵)也可以用看的(比如細胞)不就更精彩,這個世界

  • 謝謝Peter的鼓勵
    有機會複習完聽覺 觸覺 本體感覺的章節
    再和各位分享一下這部分的神經架構
    —————–
    Raim提到的電磁場或電磁波
    也許將來人機合一的時候
    人腦可以有無線WiFi接收電磁波
    彼此溝通傳檔案也不用電腦 就可以看到上傳的檔案
    那一個時代應該就算是滿先進的
    —————–
    不過現在如果要看電磁波化成可見光的展現
    也許要先到北極圈才看得到北極光了
    我還沒親眼看過北極光 (Aurora)
    不過電影上的北極光也都滿漂亮的
    可以先欣賞一下囉
    http://images.google.com.tw/images?hl=zh-TW&q=aurora

  • 謝謝Peter的鼓勵
    有機會複習完聽覺 觸覺 本體感覺的章節
    再和各位分享一下這部分的神經架構
    —————–
    Raim提到的電磁場或電磁波
    也許將來人機合一的時候
    人腦可以有無線WiFi接收電磁波
    彼此溝通傳檔案也不用電腦 就可以看到上傳的檔案
    那一個時代應該就算是滿先進的
    —————–
    不過現在如果要看電磁波化成可見光的展現
    也許要先到北極圈才看得到北極光了
    我還沒親眼看過北極光 (Aurora)
    不過電影上的北極光也都滿漂亮的
    可以先欣賞一下囉
    http://images.google.com.tw/images?hl=zh-TW&q=aurora

  • K

    不知道Mr. Thursday有沒有機會下次介紹 EEG & 腦波 & 睡覺之間的關係。

  • K

    不知道Mr. Thursday有沒有機會下次介紹 EEG & 腦波 & 睡覺之間的關係。

  • Hello K:
    如果有複習到睡覺那一章或相關資料的話
    我也可以再分享一下閱讀的心得!

  • Hello K:
    如果有複習到睡覺那一章或相關資料的話
    我也可以再分享一下閱讀的心得!