原文:venturebeat
編譯: DeFi 之道, Kyle
人工智能(AI) 迅速改變了我們的生活和工作方式。與此同時,AI 數據偏見帶來的挑戰已經走到了最前面。當我們走向Web3 的未來時,我們自然會看到同時使用Web3 和AI 的創新產品、解決方案和服務。而且,雖然一些評論員認為去中心化技術可以解決數據偏見問題,但事實並非完成如此。
圖片來源:由Maze AI 生成
Web3 市場規模仍然相對較小且難以量化,因為Web3 生態系統仍處於發展的早期階段,Web3 的確切定義仍在不斷發展。雖然2021 年的Web3 市場規模估計接近20 億美元,但各種分析師和研究公司報告稱,預計複合年增長率(CAGR) 約為45%,再加上Web3 解決方案和消費者採用率的快速增長,到2030 年,Web3 市場的價值將達到800 億美元左右。
雖然Web3 正在快速增長,但該行業的現狀與其他科技行業因素相結合是AI 數據偏見走上錯誤道路的原因。
數據偏見、質量和數量之間的聯繫
AI 系統依靠大量高質量數據來訓練它們的算法。 OpenAI 的GPT-3(包括ChatGPT 模型)在大量高質量數據上進行了訓練。 OpenAI並未透露用於訓練的確切數據量,但估計在千億字量級或更多。
數據經過過濾和預處理,以確保其質量高且與語言生成任務相關。 OpenAI 使用先進的機器學習(ML) 技術(例如Transformer)在這個大型數據集上訓練模型,使其能夠學習單詞和短語之間的模式和關係,並生成高質量的文本。
AI 訓練數據的質量對ML 模型的性能有重大影響,數據集的大小也是決定模型泛化到新數據和任務能力的關鍵因素。但是,質量和數量都會對數據偏見產生重大影響,這也是事實。
數據偏見的獨特風險
AI 中的數據偏見是一個重要問題,因為它可能在就業、信貸、住房和刑事司法等領域導致不公平、歧視和有害的結果。
2018 年,亞馬遜被迫廢棄了一款顯示出對女性有偏見的AI 招聘工具。該工具接受了對過去10 年期間提交給亞馬遜的簡歷的培訓,其中主要包括男性候選人,導致AI 減少了包含“女性”和“女人”等詞的簡歷。
2019 年,研究人員發現,一種用於預測患者預後的商用AI 算法對黑人患者存在偏見。該算法主要針對白人患者數據進行訓練,導致其對黑人患者的假陽性率更高。
Web3 解決方案的去中心化性質與AI 相結合,帶來獨特的偏見風險。這種環境中數據的質量和可用性可能是一個挑戰,這使得準確訓練AI 算法變得困難,這不僅是因為缺乏使用中的Web3 解決方案,還因為缺乏有能力使用它們的人群。
我們可以從23andMe 等公司收集的基因組數據中得出相似之處,這些數據對貧困和邊緣化社區存在偏見。 23andMe 等DNA 檢測服務的成本、可用性和目標營銷限制了來自低收入社區或生活在該服務未運營地區的個人獲得這些服務的機會,這些地區往往是較貧窮、欠發達國家。
因此,這些公司收集的數據可能無法準確反映更廣泛人群的基因組多樣性,從而導致基因研究以及醫療保健和醫學發展的潛在偏差。
這讓我們想到了Web3 增加AI 數據偏見的另一個原因。
行業偏見和對道德的關注
Web3 創業行業缺乏多樣性是一個主要問題。截至2022 年,女性佔據了26.7% 的技術職位。其中,56% 是有色人種女性。科技行業的高管職位中女性比例更低。
在Web3 中,這種不平衡加劇了。根據各種分析師的說法,只有不到5% 的Web3 初創公司擁有女性創始人。這種多樣性的缺乏意味著AI 數據偏見很可能被男性和白人創始人無意識地忽視為一個問題。
為了克服這些挑戰,Web3 行業必須在其數據源和團隊中優先考慮多樣性和包容性。此外,該行業需要改變為什麼多樣性、平等和包容是必要的故事。
從財務和可擴展性的角度來看,從不同角度設計的產品和服務更有可能為數十億客戶服務,而不是數百萬客戶,這使得那些擁有多元化團隊的初創公司更有可能獲得高回報和全球規模的能力。 Web3 行業還必須關注數據質量和準確性,確保用於訓練AI 算法的數據沒有偏見。
Web3 能否解決AI 數據偏差問題?
應對這些挑戰的一種解決方案是開發去中心化的數據市場,允許個人和組織之間安全、透明地交換數據。這有助於降低數據偏差的風險,因為它允許在訓練AI 算法時使用更廣泛的數據。此外,可以利用區塊鏈技術保證數據的透明性和準確性,使算法不產生偏見。
但是,最終,在主流受眾使用Web3 解決方案之前,我們將面臨多年尋找廣泛數據源的重大挑戰。
雖然Web3 和區塊鏈繼續出現在主流新聞中,但此類產品和服務最有可能吸引初創企業和技術社區的人們——我們知道這些社區缺乏多樣性,但在全球市場中所佔的份額相對較小。
很難估計在Web3 初創公司工作的世界人口的百分比。近年來,該行業在美國創造了大約300 萬個工作崗位。如果將這一數字與美國總人口相比——並且不考慮失去的工作崗位——這個科技行業遠不能代表適齡工作的公民。
在Web3 解決方案變得更加主流並將其吸引力和使用範圍擴大到那些對技術具有內在興趣並變得負擔得起並且足以被更廣泛的人群使用之前,獲得足夠數量的高質量數據來訓練AI 系統仍然是一個重大障礙。業界現在必須採取措施解決這個問題。