一秒揪出AI槍手!

7款「智慧內容偵測」告訴你,作者是人類寫手或是AI?

文/Anice 圖/Shutterstock

打造熱門AI聊天機器人ChatGPT的開發公司OpenAI於2月1日對外宣告,已經開發出了可以初步檢測由AI所產生的文字的偵測工具:AI Text Classifier。這個語言模型是以人類和人工智慧針對相同主題所撰寫及生成的文字組資料加以訓練,使用多種來源,以處理自動生成的假消息,以及學術抄襲等問題。

不過根據OpenAI的說法,這個偵測工具除了需要至少1,000個字元(約150~250個字)才能使用;且目前能成功辨識的機率也還僅有26%而已。而OpenAI也表示他們正在與教育工作者合作,討論ChatGPT的功能和局限性,並將繼續致力於檢測AI生成的文字。

不久前我們還以為AI生成內容將從此成為主流,人類寫手恐怕會有失業的一天。但工程師們似乎決心不讓機器人專美於前,正嘗試開發多個偵測工具,可辨識出ChatGPT等聊天機器人程式之產出內容。

ChatGPT由OpenAI LP所開發,該公司隸屬於加州非營利組織、AI研究機構「OpenAI」,由特斯拉執行長馬斯克、矽谷創投Y Combinator前執行長阿特曼(Sam Altman)共同創立,微軟也是重要投資者之一。

OpenAI在2020年推出自然語言處理(NLP)模型「GPT-3」,經過大量文本學習,熟悉人類慣用的文字接龍方式;透過人類訓練者標註,讓AI模仿答覆;再以人類回答的資料模型進行「增強式學習」,讓AI更精準模仿人類語言,不斷練習組織內文與意涵,才發展成如今見到的ChatGPT聊天機器人工具。

不只ChatGPT,OpenAI目前公開的一系列AI應用都正挑戰著人類的想像邊際。例如文字轉圖像模型「DALL E」、AI音樂生成工具「Jukebox」、勝率突破99%的電競AI「OpenAI Five」,以及去年12月最新推出的兩項應用:文字轉3D模型「Point-E」、Email 自動撰寫工具「Ellie A」。

隨著生成式AI不斷進步,ChatGPT等內容生成器也開始在全球引發爭議,尤其是在教育界——如果所有學生都叫AI寫作業或論文,難道不算是一種作弊?學習效果自然也會大打折扣。也難怪日前紐約市教育局,宣布將在特定網路與裝置上禁用ChatGPT。

與此同時,市面上已出現多款AI內容辨識工具,能幫助你(或虎視眈眈的教授和老闆)揪出AI生成內容,判別準確度也將不斷提升。

1. GPTZero
這款應用程式由就讀普林斯頓大學的大四學生愛德華‧田開發,他主修電腦科學、副修新聞,在寒假間開發出GPTZero,能夠辨別出內容是否由ChatGPT所撰寫;使用上非常方便,只要將文本複製貼上再送出,該工具就能告訴你文本是真、是假的可能性有多高。給出判別前,GPTZero會評估好幾個變因,其中一項評估項目就是文本的「變化性」——人類寫手作品在用字遣詞、句子長度上,往往都更多變。

2. Hugging Face
Hugging Face是一間AI機器學習工具的開發商,早在ChatGPT尚未問世的2019年,就已架設出AI內容辨識網站,使用者只需要輸入約50字,它就能給出此段內容是否由AI生成的概率。

3. GPT-2內容產出偵測器 (GPT-2 Output Detector)
如果OpenAI 工程師能打造出寫作能力和普通人不相上下、甚至更優異的機器人,那麼想設計出比人類更擅於判別AI內容的應用程式,想必也非難事。目前此工具尚處於線上demo階段,使用者只需要將文本輸入指令框,就能即時看到這段文字為AI產出的可能性有多高。

4. GPT-3內容產出偵測器 (GPT-3 Output Detector)
此工具由加拿大AI內容流程軟體商「DNG. AI」開發,能夠有效辨識內容是出於AI或人類之手,使用者必須在指令框輸出至少400字,跑過分析模型後就會得出概率;此工具目前僅能分析英文文本,但DNG.AI 已預告很快將推出多國語言本版。

5. 巨型語言模型 (GLTR)
OpenAI在2019年釋出GPT-2模型時,由MIT、IBM聯合成立的華生實驗室 (Watson AI Lab) 找上哈佛NLP社群合作,開發出這款GLTR演算法。

儘管表面上電腦生成文本可能和人類寫的沒兩樣,但其實人類寫手的字詞選用,通常擁有較高的不可預測性,因此若演算法能預測出某句子中的下一個字,該句子就會被判定為由AI產出 。

6. Chat-GPT 文字水印功能
不同於上面幾款抄襲偵測器,OpenAI選擇從源頭下手處理問題——在近期一場AI安全研討會中,OpenAI客座學者Scott Aaronson指出,組織內工程師已設計出工具雛型,能夠為OpenAI產出的所有文本加上辨識用途的浮水印;然而圈內人士多半認為此功能能極易破解。

儘管智慧內容辨識工具越來越多,但專家指出,人們不該仰賴單一模型或演算法,更好的解方應該是博採眾家之長,創建出一個結合多種方法的平台,這麼做將能有效提高辨識準確率。

圖文摘自:《廣告雜誌Adm》第371期