根據OpenAI 9 月25 日的公告,ChatGPT 很快就會提供新功能,讓用戶可以透過圖像和語音識別與其互動。
OpenAI 宣布用戶將能夠使用語音命令與ChatGPT 進行交互,從而實現更個人化的用戶體驗。該公司表示,該功能由文字轉語音模型提供支持,該模型可以根據專業配音演員創建的最小樣本語音生成音訊。該公司表示,該功能還由其開源語音辨識系統Whisper 提供支援。
語音功能預計將提供更廣泛的用例,例如協助閱讀睡前故事、創建食譜、撰寫演講、背誦詩歌、解釋常用短語,甚至解決「餐桌辯論」等任務。
OpenAI 補充說,用戶很快將能夠向ChatGPT 提供圖像(或選擇圖像的某些部分)以進行解釋和回應。
OpenAI 承認風險
OpenAI 承認存在欺詐和假冒風險,並表示,相應地,它正在限制其語音聊天平台的語音功能。它強調它使用專業配音演員——而不是用戶的聲音——來輸出音訊。 OpenAI 補充說,某些其他團體被允許將語音功能用於其他目的; 例如,Spotify 正在將參與的播客翻譯成新語言,並使用每位主持人的原始聲音。
該公司指出,圖像識別存在隱私風險,並表示,作為回應,它限制了ChatGPT 發表有關人物的聲明的能力。它指出ChatGPT“並不總是準確”,但表示對圖像的一般描述可能很有用,並引用了其早期與Be My Eyes 的合作,Be My Eyes 是一款針對盲人和弱視人士的應用程式。
OpenAI 表示,將在未來兩週內向ChatGPT Plus 和Enterprise 引入語音和影像功能。該公司表示,語音功能將在iOS 和Android 上提供(可選擇加入),圖像功能將在所有平台上提供。
OpenAI 宣布ChatGPT 很快就會「看、聽、說」的貼文首先出現在CryptoSlate 上。
資訊來源:由0x資訊編譯自BITCOININSIDER。版權歸作者Anonymous所有,未經許可,不得轉載
0X簡體中文版:OpenAI 宣布ChatGPT 即將“看、聽、說”