AI領域“語言霸權”?語言差異或成本土人工智能發展關鍵動力


原創:王嗚

來源:大模型之家

圖片來源:由無界AI工俱生成

人工智能(AI)作為當今科技領域最受關注的話題之一,其中自然語言處理(NLP)的技術演進和應用一直是最熱門的賽道。然而,在AI演進的過程中,英語作為世界通用語言,佔據了這個領域優勢地位。

就如同GPT3,英文佔比為92.7%、法語1.8%、德語1.5%而中文語料只佔0.1%。這意味著,英文之外的語料匱乏,會導致使用這些語種的國家在發展AI大模型的過程中遭遇更多阻力。

香港科技大學人工智能研究中心主任馮雁表示:儘管自己掌握著七門語言,但英語在學術界的地位是沒有其他語言可以撼動的,尤其在人工智能領域,如果不用英文發表論文將很難獲得學術界的認同。

語言差異成為人工智能開發和應用的本質挑戰

今年5月,谷歌發布了PaLM 2大語言模型,谷歌宣稱,PaLM 2為100多種語言增加了非英語訓練數據。該模型可以識別德語和斯瓦希里語中的成語、日語中的笑話以及印度尼西亞語中的語法,並且比以前的模型更好地識別區域變化。

不過在應用推廣階段,谷歌並沒能兌現發布會上的承諾,用戶發現,谷歌仍在限制普通用戶使用PaLM 2的場景。例如旗下的聊天工具Bard,雖然獲得了PaLM 2的支持,但僅開放了英語、日語和韓語三種語言的使用,而Gmail的寫作助手更是僅支持英語。

可見,無論從開發,還是到落地,英語在人工智能賽道中,始終有著最高的優先級。業內專家表示,尤其是中文這樣採用非拉丁語系的語言,英語進行人工智能的開發和應用會因文化和語言差異而出現更多的歧義或誤解,進而導致人工智能技術的可靠性和準確性下跌。其次,由於缺乏適合中文等非英語語言的開發平台也對於國內的人工智能開發產生了阻礙。

從現實角度出發,摒棄傳統編程方式對於任何一個非英語國家都是不現實的,所需投入的研發成本、教育成本以及時間成本都是難以估量的。

然而,隨著大模型成為了推動新一代產業革命的重要基石已經成為行業共識,大模型的開發和應用也面臨著巨大的挑戰,如技術壁壘、數據安全、倫理道德等。

因此,中國發展大模型是形勢所需,既要把握機遇,又要防範風險。一方面,中國需要加強自主創新,掌握核心技術,避免被外部勢力卡脖子,提升國家的競爭力和影響力。另一方面,中國需要建立健全的數據治理體系,保護國家和個人的數據安全,防止數據洩露、濫用、歧視等問題,促進數據的合理利用和共享。

其中,我們看到了一些國內企業,正在根據中國獨特的語言環境與市場需求,試水更加符合國內需求的大模型產品。

今年3月,在文心一言大模型發布會上,百度創始人、董事長兼CEO李彥宏就曾強調,文心一言基於海量網頁數據、搜索數據和圖片數據以及語音日均調用數據,以及5500億事實的知識圖譜的訓練數,這讓百度在“中文語言”的處理上,能夠處於獨一無二的位置。

上個月,雲知聲發布的山海大模型展示了中國大模型針對醫療領域的優勢,雲知聲不僅使用了領域內專業數據,還加入了大量專輯、病案、教材以及雲知聲增持的標準醫療數據,並建立了國內最大的醫療知識數據圖譜,通過醫療領域的知識增強,從而實現了在MedQA評測能力中超越GPT-4的結果。

除此之外,阿里巴巴、騰訊、商湯科技、科大訊飛等也在各自的AI大模型中,結合自身的優勢研究和應用場景數據,展現出了巨大的潛力和發展空間。

大模型之家認為,企業可以在自身人工智能業務中,也應當注重開發麵向非英語語種的產品和服務,以適應更廣闊的市場,以及針對不同使用場景有的放矢地開發產品。

同時,在政策方面,也希望能夠提供針對中文的語言環境,提供更多相應的研究和發展政策支持,鼓勵更多的人工智能創新項目。除此之外,學術研究機構也可以加強中文人工智能領域的研究,在保證數據安全與隱私的前提下,共享更多相關數據資源。

文化差異將成為大模型本土發展的先進動力

語言作為國家文化的血脈,不同的語言和文化背景往往會導致ChatGPT在應用中產生歧義。例如“鴿子”在中國和大多數國家的印像中都代表著和平,在ChatGPT中亦是如此。不過,在巴斯克語中的“鴿子(uso)”也有一定的侮辱性含義。這是因為中國龐大的人口和美國經濟的主導地位,導致可用數據材料中,忽略了部分小語種中詞語的含義。

從一定程度上看,AI智能大模型的使用會影響使用者的價值觀念,成為一種潛移默化的“文化入侵”。如果不能實現人工智能的自主把控,將會對國家安全等方面產生極大的影響,從長遠角度來看,人工智能技術在用於意識形態傳播領域將起到極大的作用。這也對自然語言處理等領域的人才培養提出了新的需求,加強人才培養,有利於中國在語言類大模型開發方面更快地追趕國際領先水平。

值得一提的是,第七屆世界智能大會上仁文伏羲1.0中文大模型正式發布,仁文伏羲是由天津大學自然語言處理實驗室自主研製的,與中國人文倫理價值對齊的中文大模型。目前1.0版本模型擁有67億參數,進行了海量中文數據的“自監督學習” (預訓練)及大規模指令數據的“模仿學習”(微調),展現了強大的問答、生成、對話、意圖捕獲、價值對齊等能力。

同時為確保機器翻譯等技術不會洩露敏感信息,制定相應的政策和法規也成為亟待解決的嚴峻問題,加強對於人工智能技術監管和治理的重要性已經成為全球公認的抵禦人工智能風險辦法。

可喜的是,隨著國內人工智能發展的重視程度持續高漲,有關部門都在提出實施人工智能戰略的目標。如《上海市促進人工智能產業發展條例》、《2022年北京人工智能產業發展白皮書》、《南京國家人工智能創新應用先導區建設實施方案》等一系列相關政策和措施。同時,高校、研究機構等積極投入到人工智能的研究和應用中,也為中國人工智能產業的進一步發展提供堅實的保障。

當然,人工智能的發展,都離不開國際合作交易所的支持,中國擁有廣闊的合作空間和機遇,通過交易所借鑒和吸收其他國家的先進經驗和技術,同時也可以為其他國家提供優質的人工智能技術和服務。人工智能技術在非英語國家的應用和發展依然面臨著諸多困難和挑戰。只有充分認識到問題並迎難而上,才能夠進一步促進我國人工智能領域的發展,佔領大模型的發展高地。

資訊來源:由0x資訊編譯自8BTC。版權歸作者所有,未經許可,不得轉載

Total
0
Shares
Related Posts