初創AI公司眼下的致命“軟肋”:不缺錢但急缺“它”


來源:財聯社

編輯瀟湘

圖片來源:由無界AI工俱生成

隨著ChatGPT推動AIGC熱潮在全球範圍內迅速升溫,大量的生成式人工智能初創公司眼下也正如雨後春筍般湧現。

然而,即便這些初創公司能夠輕而易舉地獲得數十億美元的投資資金,但依然有一個致命軟肋,在眼下幾乎難以避免——那就是訓練數據的缺失,而這最終可能成為這些初創公司成功道路上的最大“絆腳石”。

風投公司Primary Venture Partners聯合創始人兼普通合夥人Brad Svrluga就表示,“我們已經收到了許多初創AI公司的毛遂自薦,它們很可能正在追求創造出色的AI應用,但它們很多無法獲得能夠讓它們構建強大應用的訓練數據,更不用說那些能夠幫助它們在業務中,建立有競爭力的護城河的專有數據了。”

數據比錢還“難得”

根據PitchBook的數據,生成式人工智能初創公司的風險投資規模,已從2022年的48億美元增長到了2023年前5個月的127億美元。

現在,這些公司中的許多都在尋求在金融或醫療保健等領域,建立更小眾的人工智能模型,但獲得這些領域的訓練數據集並不容易。

Bullpen Capital的首席技術官Paul Tyma便指出,現在建造實際模型在某種程度上已經商品化了,而真正的價值就在於數據。

一些人工智能初創公司正瞄準與大型、數據豐富的企業合作。例如,安永公司負責稅務的全球副主席Marna Ricker就表示,由於該公司擁有大量的交易數據,每天都有生成型人工智能初創企業前來接洽合作。

但安永的全球客戶服務管理合夥人Andy Baldwin指出,他擔心,如果安永的數據被用於訓練外部模型,不知道會發生什麼情況。

“誰會擁有這些數據?當我們訓練模型時,我們對模型的訪問權限是什麼?其他人又能怎樣使用這個模型呢?”Baldwin稱,“這些數據是我們知識產權的一部分。”

當然,初創公司可以通過僅僅使用客戶的數據,為每個客戶訓練不同的模型來解決知識產權問題。創業公司TermSheet就正在使用這一策略來構建其Ethan產品,這是一個生成式人工智能模型,能夠為房地產開發商、經紀人和投資者回答行業問題。

但TermSheet首席執行官兼聯合創始人Roger Smith表示,即使是讓客戶同意這一點,也需要耗費不少唇舌來說服對方。

法律科技公司Logikcull的聯合創始人兼首席執行官Andy Wilson指出,如何讓企業相信你擁有強大的網絡安全實力,並可以切實保護這些數據,也是一個挑戰。

大企業握有巨大優勢

Primary Venture Partners的Svrluga表示,大型科技公司在生成式人工智能應用方面,顯然要比初創公司更有優勢,部分原因是它們已經獲得了大客戶的信任,這些客戶對它們處理數據感到更為放心。

金融服務公司Truist首席數據官Tracy Daniels就表示,她目前只與大型科技企業而不是初創公司,探索生成式AI的用例。她表示,她更信任大型供應商能保證數據的安全。

這一切都意味著,即使是那些能夠利用公開數據取得先機的初創企業,在利用企業數據集充實其模型方面也面臨挑戰。

Veesual是一家人工智能初創公司,可以生成人們試穿衣服的樣子的圖像。該公司最初就主要利用互聯網上的公共圖像來進行模型訓練,但此後很難讓大型零售商同意交出他們的數據來增強模型。

Veesual首席執行官兼聯合創始人Maxime Patte表示,在某些情況下,大型零售商甚至想要Veesual支付巨額股息或獲得該公司的股權,以換取Veesual對這些數據的使用權,這些交易最終沒有談成。

PatentPal是一家幫助律師事務所起草專利申請的生成式人工智能初創公司。其首席執行官兼創始人Jack Xu也表示,該公司最初只能根據對外公開的專利申請文件進行培訓。

他指出,若能繼續通過加密貨幣或匿名的實際客戶案例反饋來進行培訓,該AI工具有機會變得更加準確。但想要做到這一點很複雜,因為反饋必須與高度敏感和機密的數據(包括商業機密)分開。

“對於處於早期階段的初創公司來說,存在一個品牌認知的問題,此外還面臨著社會認同的問題,”他表示。

與此同時,行業間的“內捲”也正變得越來越激烈。 Struck Capital創始人兼執行合夥人Adam Struck表示,一些初創公司正在相互競爭,以確保在某些特定領域獲得更多數據,而且速度更快。

他表示,“如果你相信有一個專有數據集,你就會想在其他人之前得到它,然後就排他性進行談判。從這個意義上說,這幾乎已經演變為了一場軍備競賽。”

資訊來源:由0x資訊編譯自8BTC。版權歸作者所有,未經許可,不得轉載

Total
0
Shares
Related Posts