商湯科技等機構(gòu)聯(lián)合開源了百億級圖文交錯數(shù)據(jù)集OmniCorpus,規(guī)模是現(xiàn)有數(shù)據(jù)集的15倍,包含86億張圖像和16,960億個文本標記。OmniCorpus數(shù)據(jù)集在多語言、多類型數(shù)據(jù)抓取上進行了優(yōu)化,提高了內(nèi)容提取的質(zhì)量和完整性。通過人工反饋和自動過濾規(guī)則,確保了數(shù)據(jù)集的高質(zhì)量。在VQA和Image Captioning等測試中,基于OmniCorpus預訓練的模型表現(xiàn)出色,對訓練多模態(tài)大模型有重要幫助。