<?xml version="1.0" encoding="UTF-8"?><rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
		>
<channel>
	<title>Comments on: 字字珠璣: TF 和 IDF</title>
	<atom:link href="http://mmdays.com/2007/10/19/tf_idf/feed/" rel="self" type="application/rss+xml" />
	<link>http://mmdays.com/2007/10/19/tf_idf/</link>
	<description>網路, 產業, 資訊, 觀察, 生活, 電影, 技術, 新知, 科技, 媒體, 趨勢, Web 2.0</description>
	<lastBuildDate>Wed, 23 May 2012 15:48:00 +0000</lastBuildDate>
	<sy:updatePeriod>hourly</sy:updatePeriod>
	<sy:updateFrequency>1</sy:updateFrequency>
	<generator>http://wordpress.org/?v=3.0.1</generator>
	<item>
		<title>By: &#187; MMDays - Mr. Thursday - 二元樹在排序的應用</title>
		<link>http://mmdays.com/2007/10/19/tf_idf/comment-page-1/#comment-15962</link>
		<dc:creator>&#187; MMDays - Mr. Thursday - 二元樹在排序的應用</dc:creator>
		<pubDate>Sat, 15 Mar 2008 17:14:55 +0000</pubDate>
		<guid isPermaLink="false">http://mmdays.com/2007/10/19/tf_idf/#comment-15962</guid>
		<description>[...] 字字珠璣: TF 和 IDF [...]</description>
		<content:encoded><![CDATA[<p>[...] 字字珠璣: TF 和 IDF [...]</p>
]]></content:encoded>
	</item>
	<item>
		<title>By: 機器學習與腦機介面的願景 &#171; Mr./Ms. Days - 網路, 資訊, 觀察, 生活</title>
		<link>http://mmdays.com/2007/10/19/tf_idf/comment-page-1/#comment-13298</link>
		<dc:creator>機器學習與腦機介面的願景 &#171; Mr./Ms. Days - 網路, 資訊, 觀察, 生活</dc:creator>
		<pubDate>Thu, 15 Nov 2007 17:48:59 +0000</pubDate>
		<guid isPermaLink="false">http://mmdays.com/2007/10/19/tf_idf/#comment-13298</guid>
		<description>[...] 但是到了文字意義學習的問題，機率式學習法也會有問題，因為文字要數字化很難。目前有一些統計量，或是計算字的頻率，將文字數字化(可以參考字字珠璣: TF 和 IDF)，但是對於了解意義還是有段距離。如果今天有個演算法可以學習到：某個字出現五次以後，另外一個字又出現八次，就表示某個意思，這個意思類似的概念可以用某個字先出現三次再出現某個字兩次來表達，那也算是機器學習法的成功。 [...]</description>
		<content:encoded><![CDATA[<p>[...] 但是到了文字意義學習的問題，機率式學習法也會有問題，因為文字要數字化很難。目前有一些統計量，或是計算字的頻率，將文字數字化(可以參考字字珠璣: TF 和 IDF)，但是對於了解意義還是有段距離。如果今天有個演算法可以學習到：某個字出現五次以後，另外一個字又出現八次，就表示某個意思，這個意思類似的概念可以用某個字先出現三次再出現某個字兩次來表達，那也算是機器學習法的成功。 [...]</p>
]]></content:encoded>
	</item>
	<item>
		<title>By: Mr. Thursday</title>
		<link>http://mmdays.com/2007/10/19/tf_idf/comment-page-1/#comment-13294</link>
		<dc:creator>Mr. Thursday</dc:creator>
		<pubDate>Sun, 21 Oct 2007 14:47:27 +0000</pubDate>
		<guid isPermaLink="false">http://mmdays.com/2007/10/19/tf_idf/#comment-13294</guid>
		<description>希望以後有機會可以多討論自然語言處理的問題:)
有關斷詞的部分
課本上是提到了bigram model可以做到
也就是用條件機率的模型來斷詞
http://en.wikipedia.org/wiki/N-gram
http://en.wikipedia.org/wiki/Bigram
我還沒有自己跑過一次...效果課本上是說不錯...
另外一個方法是CRF (conditional random field)
不過我也還沒跑過...而且也還不大了解CRF的公式
所以還不知道CRF斷詞效果如何...要嚐試過以後才知道囉...
--------------
另外有關TF*IDF的部分
還有一些細節的部分...譬如說會有normalization
這樣子每個關鍵字的TF不會因為某篇文章字特別多
TF跟著變多....就是把文章的字數normalize成一樣就是了...
另外DF如果是0的時候...會讓分母變成0
所以有時候會加上一個epsilon
或是把DF取log之前先加1等等
另外還有後來人的改進...變成新版的TF*IDF
似乎就稱為smoothing的公式
有興趣的話也可以再查查這方面的相關資料了:)</description>
		<content:encoded><![CDATA[<p>希望以後有機會可以多討論自然語言處理的問題:)<br />
有關斷詞的部分<br />
課本上是提到了bigram model可以做到<br />
也就是用條件機率的模型來斷詞<br />
<a href="http://en.wikipedia.org/wiki/N-gram" rel="nofollow">http://en.wikipedia.org/wiki/N-gram</a><br />
<a href="http://en.wikipedia.org/wiki/Bigram" rel="nofollow">http://en.wikipedia.org/wiki/Bigram</a><br />
我還沒有自己跑過一次&#8230;效果課本上是說不錯&#8230;<br />
另外一個方法是CRF (conditional random field)<br />
不過我也還沒跑過&#8230;而且也還不大了解CRF的公式<br />
所以還不知道CRF斷詞效果如何&#8230;要嚐試過以後才知道囉&#8230;<br />
&#8212;&#8212;&#8212;&#8212;&#8211;<br />
另外有關TF*IDF的部分<br />
還有一些細節的部分&#8230;譬如說會有normalization<br />
這樣子每個關鍵字的TF不會因為某篇文章字特別多<br />
TF跟著變多&#8230;.就是把文章的字數normalize成一樣就是了&#8230;<br />
另外DF如果是0的時候&#8230;會讓分母變成0<br />
所以有時候會加上一個epsilon<br />
或是把DF取log之前先加1等等<br />
另外還有後來人的改進&#8230;變成新版的TF*IDF<br />
似乎就稱為smoothing的公式<br />
有興趣的話也可以再查查這方面的相關資料了:)</p>
]]></content:encoded>
	</item>
	<item>
		<title>By: Mr. Thursday</title>
		<link>http://mmdays.com/2007/10/19/tf_idf/comment-page-1/#comment-83975</link>
		<dc:creator>Mr. Thursday</dc:creator>
		<pubDate>Sun, 21 Oct 2007 14:47:00 +0000</pubDate>
		<guid isPermaLink="false">http://mmdays.com/2007/10/19/tf_idf/#comment-83975</guid>
		<description>希望以後有機會可以多討論自然語言處理的問題:)
有關斷詞的部分
課本上是提到了bigram model可以做到
也就是用條件機率的模型來斷詞
http://en.wikipedia.org/wiki/N-gram
http://en.wikipedia.org/wiki/Bigram
我還沒有自己跑過一次...效果課本上是說不錯...
另外一個方法是CRF (conditional random field)
不過我也還沒跑過...而且也還不大了解CRF的公式
所以還不知道CRF斷詞效果如何...要嚐試過以後才知道囉...
--------------
另外有關TF*IDF的部分
還有一些細節的部分...譬如說會有normalization
這樣子每個關鍵字的TF不會因為某篇文章字特別多
TF跟著變多....就是把文章的字數normalize成一樣就是了...
另外DF如果是0的時候...會讓分母變成0
所以有時候會加上一個epsilon
或是把DF取log之前先加1等等
另外還有後來人的改進...變成新版的TF*IDF
似乎就稱為smoothing的公式
有興趣的話也可以再查查這方面的相關資料了:)</description>
		<content:encoded><![CDATA[<p>希望以後有機會可以多討論自然語言處理的問題:)<br />
有關斷詞的部分<br />
課本上是提到了bigram model可以做到<br />
也就是用條件機率的模型來斷詞<br />
<a href="http://en.wikipedia.org/wiki/N-gram" rel="nofollow">http://en.wikipedia.org/wiki/N-gram</a><br />
<a href="http://en.wikipedia.org/wiki/Bigram" rel="nofollow">http://en.wikipedia.org/wiki/Bigram</a><br />
我還沒有自己跑過一次&#8230;效果課本上是說不錯&#8230;<br />
另外一個方法是CRF (conditional random field)<br />
不過我也還沒跑過&#8230;而且也還不大了解CRF的公式<br />
所以還不知道CRF斷詞效果如何&#8230;要嚐試過以後才知道囉&#8230;<br />
&#8212;&#8212;&#8212;&#8212;&#8211;<br />
另外有關TF*IDF的部分<br />
還有一些細節的部分&#8230;譬如說會有normalization<br />
這樣子每個關鍵字的TF不會因為某篇文章字特別多<br />
TF跟著變多&#8230;.就是把文章的字數normalize成一樣就是了&#8230;<br />
另外DF如果是0的時候&#8230;會讓分母變成0<br />
所以有時候會加上一個epsilon<br />
或是把DF取log之前先加1等等<br />
另外還有後來人的改進&#8230;變成新版的TF*IDF<br />
似乎就稱為smoothing的公式<br />
有興趣的話也可以再查查這方面的相關資料了:)</p>
]]></content:encoded>
	</item>
	<item>
		<title>By: peter</title>
		<link>http://mmdays.com/2007/10/19/tf_idf/comment-page-1/#comment-13296</link>
		<dc:creator>peter</dc:creator>
		<pubDate>Sat, 20 Oct 2007 02:12:09 +0000</pubDate>
		<guid isPermaLink="false">http://mmdays.com/2007/10/19/tf_idf/#comment-13296</guid>
		<description>理解(understanding)確實是AI people想讓電腦做到的事,
但是中文房論證(或其他反駁AI的論證)似乎beg the question.
我的意思是,前提已經預設了電腦不可能(in principle)理解.

(這方面的討論在心智哲學中已經累積了很多文獻,有興趣的人可以Google一下.)

簡單提一個反駁論證:
一、我們預設了人類具有理解能力(具有mind).
二、如果上述的預設是正確的,腦會是最有可能&quot;產生&quot;理解能力的地方.
(或是執行該過程的地方)
三、如果我們將腦剖開,我們會發現&quot;理解&quot;或&quot;mind&quot;嗎?
四、不會.(許多哲學家認為mind是non-physical,所以不會located在空間)
五、反觀電腦,當電腦在運作時,我們似乎也觀察不到&quot;理解&quot;或&quot;mind&quot;.

那為什麼我們要認為電腦無法&quot;理解&quot;?
拿Searle的中文房論證來看,他不就預設了身在中文房中的外國人不懂中文嗎?

總之,上述的論證不在&quot;證明&quot;電腦可以理解或具有mind,而是指出所有用來&quot;證明&quot;電腦沒有理解能力的理由,同樣也適用人類自己.</description>
		<content:encoded><![CDATA[<p>理解(understanding)確實是AI people想讓電腦做到的事,<br />
但是中文房論證(或其他反駁AI的論證)似乎beg the question.<br />
我的意思是,前提已經預設了電腦不可能(in principle)理解.</p>
<p>(這方面的討論在心智哲學中已經累積了很多文獻,有興趣的人可以Google一下.)</p>
<p>簡單提一個反駁論證:<br />
一、我們預設了人類具有理解能力(具有mind).<br />
二、如果上述的預設是正確的,腦會是最有可能&#8221;產生&#8221;理解能力的地方.<br />
(或是執行該過程的地方)<br />
三、如果我們將腦剖開,我們會發現&#8221;理解&#8221;或&#8221;mind&#8221;嗎?<br />
四、不會.(許多哲學家認為mind是non-physical,所以不會located在空間)<br />
五、反觀電腦,當電腦在運作時,我們似乎也觀察不到&#8221;理解&#8221;或&#8221;mind&#8221;.</p>
<p>那為什麼我們要認為電腦無法&#8221;理解&#8221;?<br />
拿Searle的中文房論證來看,他不就預設了身在中文房中的外國人不懂中文嗎?</p>
<p>總之,上述的論證不在&#8221;證明&#8221;電腦可以理解或具有mind,而是指出所有用來&#8221;證明&#8221;電腦沒有理解能力的理由,同樣也適用人類自己.</p>
]]></content:encoded>
	</item>
	<item>
		<title>By: peter</title>
		<link>http://mmdays.com/2007/10/19/tf_idf/comment-page-1/#comment-83977</link>
		<dc:creator>peter</dc:creator>
		<pubDate>Sat, 20 Oct 2007 02:12:00 +0000</pubDate>
		<guid isPermaLink="false">http://mmdays.com/2007/10/19/tf_idf/#comment-83977</guid>
		<description>理解(understanding)確實是AI people想讓電腦做到的事,
但是中文房論證(或其他反駁AI的論證)似乎beg the question.
我的意思是,前提已經預設了電腦不可能(in principle)理解.

(這方面的討論在心智哲學中已經累積了很多文獻,有興趣的人可以Google一下.)

簡單提一個反駁論證:
一、我們預設了人類具有理解能力(具有mind).
二、如果上述的預設是正確的,腦會是最有可能&quot;產生&quot;理解能力的地方.
(或是執行該過程的地方)
三、如果我們將腦剖開,我們會發現&quot;理解&quot;或&quot;mind&quot;嗎?
四、不會.(許多哲學家認為mind是non-physical,所以不會located在空間)
五、反觀電腦,當電腦在運作時,我們似乎也觀察不到&quot;理解&quot;或&quot;mind&quot;.

那為什麼我們要認為電腦無法&quot;理解&quot;?
拿Searle的中文房論證來看,他不就預設了身在中文房中的外國人不懂中文嗎?

總之,上述的論證不在&quot;證明&quot;電腦可以理解或具有mind,而是指出所有用來&quot;證明&quot;電腦沒有理解能力的理由,同樣也適用人類自己.</description>
		<content:encoded><![CDATA[<p>理解(understanding)確實是AI people想讓電腦做到的事,<br />
但是中文房論證(或其他反駁AI的論證)似乎beg the question.<br />
我的意思是,前提已經預設了電腦不可能(in principle)理解.</p>
<p>(這方面的討論在心智哲學中已經累積了很多文獻,有興趣的人可以Google一下.)</p>
<p>簡單提一個反駁論證:<br />
一、我們預設了人類具有理解能力(具有mind).<br />
二、如果上述的預設是正確的,腦會是最有可能&#8221;產生&#8221;理解能力的地方.<br />
(或是執行該過程的地方)<br />
三、如果我們將腦剖開,我們會發現&#8221;理解&#8221;或&#8221;mind&#8221;嗎?<br />
四、不會.(許多哲學家認為mind是non-physical,所以不會located在空間)<br />
五、反觀電腦,當電腦在運作時,我們似乎也觀察不到&#8221;理解&#8221;或&#8221;mind&#8221;.</p>
<p>那為什麼我們要認為電腦無法&#8221;理解&#8221;?<br />
拿Searle的中文房論證來看,他不就預設了身在中文房中的外國人不懂中文嗎?</p>
<p>總之,上述的論證不在&#8221;證明&#8221;電腦可以理解或具有mind,而是指出所有用來&#8221;證明&#8221;電腦沒有理解能力的理由,同樣也適用人類自己.</p>
]]></content:encoded>
	</item>
	<item>
		<title>By: Mr.J</title>
		<link>http://mmdays.com/2007/10/19/tf_idf/comment-page-1/#comment-13295</link>
		<dc:creator>Mr.J</dc:creator>
		<pubDate>Fri, 19 Oct 2007 04:33:58 +0000</pubDate>
		<guid isPermaLink="false">http://mmdays.com/2007/10/19/tf_idf/#comment-13295</guid>
		<description>的確　我也覺得少了斷詞技術
雖然　可得知關鍵字清單
如果再加上　關鍵字連結
可連結到關鍵字解釋名詞或是相關的網頁(例如:Wikipedia)

這樣　就變成知識網了</description>
		<content:encoded><![CDATA[<p>的確　我也覺得少了斷詞技術<br />
雖然　可得知關鍵字清單<br />
如果再加上　關鍵字連結<br />
可連結到關鍵字解釋名詞或是相關的網頁(例如:Wikipedia)</p>
<p>這樣　就變成知識網了</p>
]]></content:encoded>
	</item>
	<item>
		<title>By: Mr.J</title>
		<link>http://mmdays.com/2007/10/19/tf_idf/comment-page-1/#comment-83976</link>
		<dc:creator>Mr.J</dc:creator>
		<pubDate>Fri, 19 Oct 2007 04:33:00 +0000</pubDate>
		<guid isPermaLink="false">http://mmdays.com/2007/10/19/tf_idf/#comment-83976</guid>
		<description>的確　我也覺得少了斷詞技術
雖然　可得知關鍵字清單
如果再加上　關鍵字連結
可連結到關鍵字解釋名詞或是相關的網頁(例如:Wikipedia)

這樣　就變成知識網了</description>
		<content:encoded><![CDATA[<p>的確　我也覺得少了斷詞技術<br />
雖然　可得知關鍵字清單<br />
如果再加上　關鍵字連結<br />
可連結到關鍵字解釋名詞或是相關的網頁(例如:Wikipedia)</p>
<p>這樣　就變成知識網了</p>
]]></content:encoded>
	</item>
	<item>
		<title>By: Typed ROBIN</title>
		<link>http://mmdays.com/2007/10/19/tf_idf/comment-page-1/#comment-13297</link>
		<dc:creator>Typed ROBIN</dc:creator>
		<pubDate>Fri, 19 Oct 2007 02:04:17 +0000</pubDate>
		<guid isPermaLink="false">http://mmdays.com/2007/10/19/tf_idf/#comment-13297</guid>
		<description>這篇文章寫得真好, 實在太讚了,
不過,
我看完之後覺得,
這用在英文上面還可以, 因為英文剛好一個單字一個意義,
要用在中文上面的話, 好像少了啥...
或許是斷詞技術吧,
期待Thursday先生有機會能針對這個議題來做發揮囉!</description>
		<content:encoded><![CDATA[<p>這篇文章寫得真好, 實在太讚了,<br />
不過,<br />
我看完之後覺得,<br />
這用在英文上面還可以, 因為英文剛好一個單字一個意義,<br />
要用在中文上面的話, 好像少了啥&#8230;<br />
或許是斷詞技術吧,<br />
期待Thursday先生有機會能針對這個議題來做發揮囉!</p>
]]></content:encoded>
	</item>
	<item>
		<title>By: Typed ROBIN</title>
		<link>http://mmdays.com/2007/10/19/tf_idf/comment-page-1/#comment-83978</link>
		<dc:creator>Typed ROBIN</dc:creator>
		<pubDate>Fri, 19 Oct 2007 02:04:00 +0000</pubDate>
		<guid isPermaLink="false">http://mmdays.com/2007/10/19/tf_idf/#comment-83978</guid>
		<description>這篇文章寫得真好, 實在太讚了,
不過,
我看完之後覺得,
這用在英文上面還可以, 因為英文剛好一個單字一個意義,
要用在中文上面的話, 好像少了啥...
或許是斷詞技術吧,
期待Thursday先生有機會能針對這個議題來做發揮囉!</description>
		<content:encoded><![CDATA[<p>這篇文章寫得真好, 實在太讚了,<br />
不過,<br />
我看完之後覺得,<br />
這用在英文上面還可以, 因為英文剛好一個單字一個意義,<br />
要用在中文上面的話, 好像少了啥&#8230;<br />
或許是斷詞技術吧,<br />
期待Thursday先生有機會能針對這個議題來做發揮囉!</p>
]]></content:encoded>
	</item>
</channel>
</rss>

