“大模型數據被盜第一案”背後


文:朱凌

來源:財聯社

圖片來源:由無界AI‌ 生成

在OpenAI面臨“數據小偷”指控,深陷多場集體和作者個體訴訟時,中國“AI大模型數據被盜第一案”也一觸即發,但最終以雙方消除誤會而和解,“誤會”背後是否另有隱情?

近日,世紀天鴻投資的AI輔助寫作產品筆神作文發布聲明稱,已於8月4日決定不再對學而思,針對相關數據調取事件發起訴訟。

筆神作文表示,經與學而思深入調查並坦誠溝通後,對雙方有爭議條款已達成一致,雙方已消除誤會,並將繼續深化合作,共同推進AI技術在教育領域的探索。

《科創板日報》記者向筆神作文詢問和解原因、誤會來由,相關負責人表示,“事件已在聲明中介紹清楚,其他不再作回應。”

一個半回合的“空中喊話”

回到兩個月前,筆神作文在6月13日下午發布聲明,指控合作夥伴學而思“盜取”作文股票數據,來訓練即將上線的AI大模型產品。筆神作文表示,將通過司法程序解決糾紛,要求學而思支付1元賠償金,公開道歉,刪除已爬取的數據,並稱之為國內“AI大模型數據被盜第一案”。

當晚,學而思火速回應稱,對筆神作文數據的使用屬於雙方合約約定的正常合作範圍,筆神作文“主觀揣測”“與事實嚴重不符”。

6月14日,筆神作文拿出調用量和服務器日誌截圖反駁學而思回應,力圖證明學而思在短短幾天內通過“爬蟲”技術非法訪問、緩存筆神作文APP服務器數據258萬次,是典型的“扒庫”行為,嚴重侵犯了筆神作文的數據權益。

之後學而思並未再做公開回應,《科創板日報》記者致電學而思母公司好未來欲進行採訪,但接線工作人員拒絕為記者轉接相關部門。

6月20日,筆神作文所屬北京一筆兩劃科技有限公司的二股東世紀天鴻在互動平台上表示,目前公司也在關注事件的進展。此前因在互動平台中提到筆神作文,世紀天鴻股價在4月24日起連續10個交易日累計漲幅超過100%。

500萬篇作文素材從何而來

藍媒匯早在2019年向筆神作文創始人宋嘉偉提出了一個問題:筆神後台增持的龐大資料性內容數據,版權問題怎樣解決?

宋嘉偉當時坦言,正在和一些版權方溝通合作。此外,筆神團隊盡量蒐集公版作品的素材,比如詩詞,名人名言。該篇報導作者預言,版權問題也許是筆神在未來長期的麻煩。

作為AI核心要素之一的數據,據筆神作文和世紀天鴻披露,筆神作文增持的作文素材已超過500萬篇。

世紀天鴻此前在互動平台中表示,筆神作文的大數據來源於自身上漲,算法模型為公司自研訓練。

5月8日,深交所對世紀天鴻下發關注函,其中要求說明公司是否向一筆兩劃提供訓練“筆神作文”AI模型所需的數據;如是,需要結合公司有關數據的獲取方式及來源等,按照《數據安全法》等相關規定,說明獲取、處理及使用有關數據的合法性;有關數據資產產權的權屬是否清晰、是否存在潛在糾紛,相關方是否存在其他協議及利益安排。

世紀天鴻回復關注函時表示,經核實,一筆兩劃訓練“筆神作文”AI模型所需數據,均為一筆兩劃在自身經營過程中增持。截至目前,公司未使用“筆神作文”向客戶提供服務,也未向一筆兩劃提供“筆神作文”AI模型訓練所需數據。後續,如一筆兩劃就“筆神作文”AI 模型訓練有數據採買需求,公司將嚴格按照《數據安全法》等相關規定,在確保有關數據獲取、處理及使用合法、數據資產產權權屬清晰,無潛在糾紛的前提下,協商確定具體業務合作方式。

筆神作文向《科創板日報》記者表示:“用戶在筆神作文APP使用我們服務的過程中,根據協議,我們會增持大量用戶的原始的作文素材,成為我們的資產。這也是學而思與我們合作的原因,學而思如果從頭增持數據,時間成本很高,短期沒有辦法增持相同數量級的數據。”

《科創板日報》記者註意到,根據筆神作文的用戶服務協議,用戶在筆神作文發表的內容,授予筆神作文免費且不可撤銷的非獨家使用許可。

究竟是誰抄了誰的作文?

剛從大學畢業的王浩軒向《科創板日報》記者表示,他大二在網上搜索自己名字時,竟發現自己初中時所寫的一篇作文出現在筆神作文平台上。

王浩軒稱,該篇作文曾被初中老師推薦發表在一本不公開發行的內部刊物上,他寫作時花了很多精力。他對筆神作文未經其許可使用他的作文,感到氣憤。

王浩軒認為,此侵犯了自己作品信息網絡傳播權。他曾與筆神作文工作人員交涉,但對方態度不好,僅刪除了該篇作文,就不再回复消息。他委託律師向筆神作文發送的律師函也沒有得到回复。

王浩軒決定起訴筆神作文,來捍衛自己權利,獲法院立案。直到開庭前一周,筆神作文的律師才聯繫他,希望能夠和解。律師稱,該篇文章是別人發佈到筆神作文網站上的,筆神作文只負責展示。

經法官調解,王浩軒和筆神作文最終達成了和解,王浩軒獲得了賠償。

不過,王浩軒推測,筆神作文侵權的文章可能遠不止他這一篇,只是更多人不知道。並且筆神作文平檯面向的群體是中小學生,他們就算知道自己的文章被侵權,也不一定有保護自己權利的意識。

《科創板日報》記者在筆神作文指控學而思時發現,筆神作文APP有大量作文與原創作文相比,未顯示作者、發佈時間等信息。記者對比發現,這些作文在筆神未成立前就已發佈在小荷作文網等非商業性網站,部分文章還存在疑似爬蟲痕跡。

左圖為涉及侵權問題作文,右圖為原創作文

就此,筆神作文當時回應《科創板日報》記者稱,“會有作者一稿多投的情況,是正常現象。這些文章都是由用戶上傳的,用戶對文章的版權和真實性負責。如果有他人對文章的版權提出異議並提出證據,我們經初步核實後會依法進行刪除處理。該文章屬於早期的文章,當時的展示還不完善。”

不過,小荷作文網向《科創板日報》記者表示,“所有其它網站上出現的作文,如果是小荷作文網首發的,那就是擅自抄襲。像神筆作文之類的很多網站一開始都是採集站,從抄小荷作文網的文章起步,但由於流程過於麻煩,沒有維權。”

小荷作文網的版權說明頁顯示,“小荷作文網所發表的作文版權歸作者所有,禁止任何網絡媒體轉載。其他紙媒轉載必須經過本站同意,並向作者支付稿酬。嚴正警告少數網站和軟件公司,立即停止複製本站內容。”

北京市京師律師事務所律師孟博向《科創板日報》記者表示,著作權法所稱作品,是指文學、藝術和科學領域內具有獨創性並能以某種有形形式複制的智力成果。根據《著作權法實施條例》第六條的規定,著作權自作品創作完成之日起產生。文學、藝術和科學作品作者的著作權,以及與著作權有關的權益受法律保護。根據《著作權法》第五十二條的規定,侵犯著作權以及與著作權有關的權利的行為,應當根據情況,承擔停止侵害、消除影響、賠禮道歉、賠償損失等民事責任。

數據”脫水”後作文大幅減少

《科創板日報》記者發現,前述涉及侵權問題作文目前在筆神作文APP搜索結果中已不見踪影,打開分享鏈接也顯示“作文因非原創下架”。

不過,數據“脫水”後,筆神作文APP上的作文數量顯著減少,《科創板日報》記者根據筆神作文此前展示的學而思訪問日誌截圖中部分搜索詞進行搜索,學而思此前訪問了多頁(筆神作文稱每頁會返回30篇作文結果)的高頻搜索詞,目前搜索結果中僅剩一兩篇作文。

但筆神作文並未修改涉及作文數量的介紹,會員價格不降反漲。值得一提的是,筆神作文向會員提供的“秒變作文”尊享特權疑似可“一鍵洗稿”生成新作文。

筆神作文年度會員價格相比兩個月前有所上漲

此外,筆神作文APP還曾在2020年9月因推送導向不良和低俗信息行為被國家網信辦點名通報。據“網信中國”發布,當時筆神作文APP“家族Square”欄目中存在多個明星應援群組,且平台中存在大量“男女”“戀愛”等不利於未成年人身心健康的內容。記者註意到,筆神作文目前已無涉及群組或相關內容。

筆神作文在聲明中也表示,將繼續加強對數據使用規範與保護工作,確保用戶、合作方以及公司的數據安全與合規使用。

野蠻生長後,高質量數據及合規建設,或是學習類APP與行業AI模型步入成熟期的必然選擇。

資訊來源:由0x資訊編譯自8BTC。版權歸作者所有,未經許可,不得轉載

Total
0
Shares
Related Posts