半個班延畢美國教授用ChatGPT「查重」全給0分，登微博熱搜

來源：新智元

【新智元導讀】天下苦GPT檢測器久矣用AI的怕被揪出來，沒用AI的怕被冤枉。最近，又發生了一起被AI誤判的冤假錯案。

離了個大譜

最近，一位美國教授為了解決學生用AI作弊的問題，決定用「魔法」打敗「魔法」。

但完全沒搞懂原理的他，在「查重」時竟然用的是ChatGPT。

於是，同學們辛辛苦苦碼出的畢業論文，通通被胡說八道的ChatGPT判定為「抄襲」。

而教授不僅據此掛掉了半個班的人，學校也拒發畢業證……

甚至，這件事直接火到了大洋彼岸，一度登上了微博的熱搜。

教授：被ChatGPT認領的，都得0分

前段時間，在得克薩斯農工大學（Texas A&M），發生了這樣一件令人哭笑不得的事。

為了檢測學生提交的論文是否作弊，一位名叫Jared Mumm的教授把他們的論文提交給了ChatGPT。

他對學生們說：我會把你們的論文複製粘貼到ChatGPT中，它會告訴我，你們的論文是不是它生成的。

「我會在兩個不同的時間段裡，把每個人的最後三篇論文放進去，如果這兩次它們都被ChatGTP認領了，我就會給你0分。」

顯然，沒有任何計算機相關背景知識的Mumm教授，對ChatGPT的原理一竅不通。

實際上，ChatGPT並不能識別由AI創建的內容，即使是它自己寫的都不行。

甚至，他連ChatGPT都沒拼對——直接寫成了「Chat GPT」以及「chat GPT」。

結果，全班有一多半人的論文被ChatGPT不負責任地「認領」，因而掛了這一科。

更倒霉的是，大多數已畢業學生的文憑，因此直接被學校拒發了。

當然，Mumm教授也不是毫不留情，他為全班同學提供了重做作業的機會。

如何證明自己沒用ChatGPT？

收到上面這封郵件後，幾名學生寫信給Mumm力證自己的清白。他們提供了帶有時間戳的Google Docs，來證明自己並沒有使用ChatGPT。

但Mumm教授直接無視了這些電子郵件，只在幾個學生的評分軟件中留下了這樣的回應——我不給AI生成的「shit」評分。

不過，還是有學生「平反」了，據說，已經有一名學生被「無罪釋放」，並且得到了Mumm的道歉。

然而，讓情況更複雜的事，有兩名學生「挺身而出」，承認自己的確在本學期使用過ChatGPT。

這一下子就讓其他沒有用ChatGPT寫論文的學生，更難自證清白了……

對此，得克薩斯農工大學商學院表示正在調查這一事件，但並沒有學生不及格，也沒有人因為這個問題被延畢。

學校表示，Mum教授正在一對一地與學生談話，了解他們寫作業的過程中是否使用了AI，使用到了什麼程度。個別學生的文憑將被扣留，直到調查完成。

而學生們表示，自己並沒有獲得文憑。

目前，事件還在調查中。

用ChatGPT檢測ChatGPT？

那麼問題來了，ChatGPT能證明一篇文章是不是自己寫的嗎？

來源：B站UP主「子羨nike」

對此，我們基於教授這封郵件的內容，問了問ChatGPT的觀點：

ChatGPT一上來就表示，自己並沒有能力驗證內容的原創性，以及是不是由AI生成的。

「這位老師似乎誤解了像我這樣的AI是如何工作的。雖然AI可以根據提示生成文本，但它不能確定另一篇文本是否由人工智能生成。」

話雖如此，但這並不能攔住愛整活的網友。

他們來了一出「以其人之道還治其人之身」，在線教Mumm教授做人。

首先，ChatGPT表示，教授寫的這封郵件，正是出自自己之手。

緊接著，網友又復刻了Mumm教授的做法——

拿一段看起來像是某篇論文的節選，來問ChatGPT是不是它寫的。

這次，ChatGPT雖然沒說是自己寫的，但基本上確定內容就是來自AI。

其中，有幾個特徵與Al生成的內容一致：

1. 文本是連貫的，遵循一個清晰的結構，從一般到具體。

2. 準確地引用了來源和數字數據。

3. 正確地使用了術語，這是典型的Al模型的特點。比如GPT-4，就是在包括科學文獻在內的各種文本中訓練出來的。

那麼實際上，這段內容的出處是哪裡呢？

有意思的地方來了，沒想到竟然是Mumm教授自己寫的博士論文

AI檢測器並不靈？

既然ChatGPT無法檢驗一段內容是不是AI生成的，那什麼可以呢？

自然是為此專門誕生的「AI檢測器」，號稱是用魔法打敗魔法。

眾多AI檢測器中，最出名的一個便是由普林斯頓華人本科生Edward Tian創建的GPTZero——它不僅免費，而且效果拔群。

只需把文字複製粘貼進去，GPTZero就可以明確地指出一段文字中，哪段是AI生成的，哪段是人類寫的。

原理上，GPTZero主要靠「困惑度」（文本的隨機性）和「突發性」（困惑度的變化）作為指標進行判斷。

在每次測試中，GPTZero還會挑選出困惑度最高的那個句子，也就是最像人話的句子。

但這個方法其實並不完全可靠，雖然GPTZero聲稱產品的假優勢率

在實測中，有人曾把美國憲法輸入GPTZero，結果被判定是AI寫的。

而剛剛那段ChatGPT的回复，GPTZero則認為很可能完全是由人類寫的。

這導致的後果就是，不了解其中原理、太固執的老師，就會無意中冤枉很多學生，比如Mumm教授。

所以，如果遇到這種情況，我們該怎麼自證清白？

有網友提議，類似「美國憲法實驗」，把ChatGPT出現之前的文章丟進AI檢測器，看看結果如何。

然而，從邏輯上講，即使能證明AI檢測器確實不靠譜，學生也無法直接證明自己的論文不是由AI生成的。

問一下ChatGPT怎麼破，它是這麼說的。

「讓老師理解AI的工作方式和局限性」，嗯，ChatGPT發現了華點。

目前小編唯一想到的答案是，如果不在教授眼皮底下直接寫，那就每次寫論文都錄屏，或者乾脆給教授開直播。

連OpenAI對於自己的官方ChatGPT檢測器，也只能保證26%的「真優勢」正確率。

他們還特地發了官方聲明給大家打預防針：「我們真的不建議孤立地使用這個工具，因為我們知道它可能出錯，使用AI進行任何種類的評估都是如此」。

AI內容檢測為何如此困難？

目前市面上已有的檢測器已經數不勝數——GPTZero、Turnitin、GPT-2 Output、Writer AI 、Content at Scale AI等等，但準確率都差強人意。

那麼，為什麼我們想檢測一段內容是不是AI生成的，就這麼困難？

Turnitin的AI副總裁Eric Wang稱，用軟件檢測AI寫作的原理，是基於統計學。從統計學的角度來看，AI與人類的區別在於，它極其穩定地處於平均水平。

「像ChatGPT這樣的系統就像是自動補全的高級版本，尋找下一個最可能要寫的單詞。這實際上就是它為什麼讀起來如此自然的原因。AI寫作是人類寫作中最可能的子集。」

Turnitin的檢測器便會「識別出書寫過於一致的平均情況」。然而，有時人類的寫作看起來也會處於平均水平。

在經濟學、數學和實驗室報告中，學生傾向於遵循固定的寫作風格，這意味著他們更有可能被誤認為是AI寫作。

更好笑的是，前不久的一篇論文中，來自斯坦福大學的研究團隊發現：對於非母語者的論文，GPT檢測器更容易判為AI寫的。其中，中國人寫的英文論文被判為AI生成的概率，高達61%。

論文地址：https://arxiv.org/pdf/2304.02819.pdf

研究人員從中國的教育論壇上獲取了91篇托福作文，又從美國Hewlett基金會的數據中心化摘取了88篇美國八年級學生寫的作文，輸進了7大GPT檢測器。

圖中百分比即「誤判」比例，也就是明明由人寫的，卻被判為AI生成的

可以看到，美國學生的作文被誤判的概率最高才12%，而中國學生的作文，概率基本過半，甚至高達76%。

研究者的結論是，因為非母語者寫的東西不地道，複雜度低，容易被錯判。

可見，以復雜度來判定作者是人類還是AI，並不合理。

抑或，背後還有其他原因？

對此，英偉達科學家Jim Fan稱，檢測器在很長一段時間內都是不可靠的。畢竟AI會變得越變越強，並且會以越來越像人類的方式寫作。

可以肯定地說，隨著時間的推移，這些語言模型的小怪癖會越變越少。

不知這對學生們，會是福音還是噩耗。

參考資料：

https://www.rollingstone.com/culture/culture-features/texas-am-chatgpt-ai-professor-flunks-students-false-claims-1234736601/

資訊來源：由0x資訊編譯自8BTC。版權歸作者所有，未經許可，不得轉載

半個班延畢美國教授用ChatGPT「查重」全給0分，登微博熱搜

比特幣有兩名礦工攻擊51％攻擊的風險

Dogecoin（Doge）會打1美元嗎？三個鮮為人知的山寨幣首先要到達那裡

為什麼Pepe Coin和Dogwifhat的持有者在Web3 Coldbook Plauna Punauna之前選擇多樣化投資於RWA加密貨幣

Ripple提出數字資產託管四大準則，推動穩定幣與數字金融發展

金鵝寵物種植花園維基

傑克遜霍爾會議前夕，交易員押注美聯儲激進降息

以太坊模因幣Pepeto上市時預售金額突破62億美元

社會排名情況

半個班延畢美國教授用ChatGPT「查重」全給0分，登微博熱搜

Related Posts