從九把刀事件談起: 網路的抄襲/反抄襲攻防戰

Posted By Mr. Wednesday

本文同步刊載於《Download 網路密技王 No. 3

最近網路上突然暴出了一則新聞,知名得網路作家九把刀指稱,一名十五歲的新店高中學生去年參加台北文學獎且獲入圍的作品『顛倒』,抄襲他的作品『語言』。關於抄襲這個古老的問題一下子又在網路上沸沸揚揚地討論了起來,該生的作品是否涉及抄襲在這裡不做任何判斷,不過這個事件意外勾起了Mr. Wednesday小學老師當年的諄諄教誨:『作業要自己寫,不要抄別人的,不然抓到打屁股。』當年師威震天,完全不敢造次。直到上了大學,由於課業繁忙(?),總有那麼幾次天人交戰,抄,還是不抄?抄了等下就可以跟小明去夜唱,聽說還約了某系的辣妹,不過萬一被抓到,號稱大刀得老師當起人來可是完全不留情。不抄,那種只有神會懂的作業要我這個凡夫俗子怎能理解,這,該如何是好。這樣的情境是否似曾相似,當過學生的人一定或多或少曾有這種經驗,不管是抄別人還是被別人抄作業。

天下文章一大抄,這句話雖然有點俏皮卻多少也反應了部份事實。自古以來抄襲事件就是層出不窮,過去沒有電腦的時代,抄襲還會手酸。現在只要按下右鍵,輕輕的複製,再貼上,不管多偉大的曠世劇作,馬上就可以歸我所有,好不愉快。

回歸正題,我們先來了解一下,究竟何謂抄襲?

根據Merriam-Webster Online Dictionary,對於『plagiarize(抄襲)』這個字的解釋如下:

: to steal and pass off (the ideas or words of another) as one’s own
: use (another’s production) without crediting the source
: to commit literary theft
: present as new and original an idea or product derived from an existing source

另外,抄襲在維基百科上的定義

抄襲,亦稱作學術剽竊、剽竊學術研究成果、違反學術誠信,是對於原著未經或基本未經修改的抄錄,這是一種侵犯著作權的行為。

綜合以上解釋,抄襲牽涉到兩個因素,第一,抄錄(全部或部份),第二,欺騙(未說明出處)。總結來說,抄襲是種詐欺的行為,先竊取了他人的智慧結晶,再謊稱出於己手。說了這麼多,對於網路上的抄襲是否能藉由技術上的幫助來加以避免或是補救呢?答案是肯定的,Mr. Wednesday為各位整理了數種方式,從主動與被動兩個方面來面對這個問題。

1. 主動預防 – 如何防止抄襲
對於公開的文章,不管是以網頁的型式公佈在網路上還是以檔案的型式傳播,最根本的辦法就是從原始文件本身著手,避免被輕易大量複製。

(1) 對於公佈在網頁上的文章
a. 防止右鍵複製貼上
如果您有足夠得權限,可以在網頁內加上這段javascript程式碼,避免瀏覽者輕易就用右鍵複製貼上。



資料來源:http://www.cashquests.com/stop-people-stealing-your-content

b. 直接把文章以圖檔方式呈現
更狠一點,直接把整篇文章改用圖檔的方式儲存並呈現。但是這樣的缺點就是文章內容沒辦法被搜尋引擎給索引,不能出現在搜尋結果內。而且,即便以圖檔的型式儲存文章,有心人還是有可能透過OCR來做辨識還原成文字,甚至,直接用人力重新騰打一份。

(2) 對於公佈在網頁上的檔案
如果文章內容是以word檔或是pdf檔來儲存,這兩種檔案格式都有提供保密的設定可以防止內容被直接複製,詳細使用方法請參考軟體使用說明。

2. 被動抵抗 – 如何做抄襲偵測
目前思想上的抄襲仍無法藉由電腦系統給予準確的判斷,但是對於文字上直接抄錄的行為,字串比對這種反覆而且龐大的工作就是電腦的強項了。最簡單的作法就是利用程式自動化比對原始文章與對照文章,檢查其中是否有連續一定字數以上的相同字串。有興趣的讀者可以自己手動實做試試看,或者利用現成的工具來輔助。

(1) 抄襲偵測網站
網路上有不少提供抄襲偵測服務的網站,Mr. Wednesday在這裡以Copyscape這個網站提供的服務來做說明。使用方法很簡單,只要提供要被比對的網頁連結即可,按下Copyscape Search就會開始搜尋,接著就可以看到您所指定的文章在網路上哪裡有出現過。搜尋結果中列出的網址不必然代表抄襲,可能也是轉載,還需要人力介入判斷。Copyscape的免費版本只提供前十個搜尋結果,如果要檢視更多就必須付費申請premium版本。
copyscape-screenshot

(2) 轉載文章搜索器
除了線上的服務,筆者在對岸的月光博客上看到一個自行開發的工具,可以獨立執行,也完全免費。不過缺點是只能支援幾個特定的部落格系統,而且只針對文章的標題做判斷,誤判或漏失的機率不小,但仍有參考價值。有興趣的讀者可以到原作者的這篇文章來下載該程式。

(3) 搜尋引擎
除了專門提供抄襲偵測服務的網站或程式外,藉由搜尋引擎無遠弗屆的力量也可以主動從網路上找尋文章在哪些地方出現過。以搜尋引擎Google來說,首先選定一段欲比對的文章段落,然後在前後加上引號『”』,目的在於告訴Google將整段句子當作一個完整得關鍵字來做搜尋。如果幸運就可以找到網路上含有此段落文字的文章,其中紅色字就是與搜尋關鍵字相同的部份。看到這裡讀者們應該會赫然發現,在網路時代抄襲網路上的文章最後還放到網路上,這實在不是一件聰明的事情。(以下圖片以MMDays文章當作例子來做搜尋,結果不必然代表抄襲,只是同樣的句子有在該網頁出現)

google-screenshot

剛剛利用搜尋引擎的作法僅適用於零星的搜尋,如果每天都得重複上述動作未免太過勞累。Google有一個Google Alerts的功能,設定好要搜尋的關鍵字後,以後每當發現您所要找的關鍵字出現在網路上就會主動通知您。

嚴格來說,上述的作法不能說是抄襲偵測,只能算是高相似(高字詞重複)文章搜尋,搜尋文章還有在網路上哪裡出現過,實際上是否為抄襲仍需要人力介入來做判斷。

最後,以上提供的方法都是防君子不防小人,網路創作的最後一道防線還有賴各位網路公民的自覺與監督才能維持。

喜歡這篇文章嗎? 分享出去給作者一點鼓勵吧!