中國大模型語料數據聯盟開源發布高質量多模態語料“書生・萬卷”

據金十8 月14 日報導，繼今年7 月在2023 世界人工智能大會發起成立“中國大模型語料數據聯盟”，上海人工智能實驗室（上海AI 實驗室）於今日宣布，聯合語料數據聯盟成員單位，共同開源發布“書生・萬卷”1.0 多模態預訓練語料。 “書生・萬卷”1.0 目前包含文本數據集、圖文數據集、視頻數據集三部分，本次開源的數據總量超過2 TB。該語料數據包含超過5 億個文本，2200 萬個圖文交錯文檔，1000 個節目影像視頻，具備多元融合、精細處理、價值對齊、易用高效等四大特徵。

巴比特訊

中國大模型語料數據聯盟開源發布高質量多模態語料“書生・萬卷”

Bossjob在東京Webx Summit上通過雙引擎戰略創新人才獲取方式

如果今天是“ Q-Day”，請擔心您存儲在交易所中的加密貨幣

美銀：穩定幣顛覆性應用在跨境P2P支付，年化或催生高達750億美債需求

9 月降息後市場一定會漲嗎?

市場靜待“鮑威爾時刻”：宏觀視角下加密貨幣資產的新定位

分析師發現XRP歷史數據顯示即將出現777%的價格上漲

Riot Platforms於週一出售超1110萬股Bitfarms股票，總價值約1510萬美元

更多延遲：SEC延遲推動對Solana，Truth Social和XRP加密貨幣ETF的決定

中國大模型語料數據聯盟開源發布高質量多模態語料“書生・萬卷”

Related Posts