中國大模型語料數據聯盟開源發布高質量多模態語料“書生・萬卷”

據金十8 月14 日報導,繼今年7 月在2023 世界人工智能大會發起成立“中國大模型語料數據聯盟”,上海人工智能實驗室(上海AI 實驗室)於今日宣布,聯合語料數據聯盟成員單位,共同開源發布“書生・萬卷”1.0 多模態預訓練語料。 “書生・萬卷”1.0 目前包含文本數據集、圖文數據集、視頻數據集三部分,本次開源的數據總量超過2 TB。該語料數據包含超過5 億個文本,2200 萬個圖文交錯文檔,1000 個節目影像視頻,具備多元融合、精細處理、價值對齊、易用高效等四大特徵。

巴比特訊

Total
0
Shares
Related Posts