首先考慮企業(yè)已經(jīng)擁有的、或者可以使用的、符合要求的數(shù)據(jù)和數(shù)據(jù)集。接下來(lái),你需要決策點(diǎn)透明度,以及信號(hào)值來(lái)評(píng)估可用性、可行性和業(yè)務(wù)效果等因素,或者潛在表現(xiàn)與競(jìng)爭(zhēng)對(duì)手相比的數(shù)據(jù)等。
為了解決訓(xùn)練數(shù)據(jù)短缺和質(zhì)量差的難題,微軟研究院發(fā)布了一個(gè)專(zhuān)門(mén)用于生成高質(zhì)量合成數(shù)據(jù)的的AI Agent——Agent Instruct。
商湯科技等機(jī)構(gòu)聯(lián)合開(kāi)源了百億級(jí)圖文交錯(cuò)數(shù)據(jù)集OmniCorpus,規(guī)模是現(xiàn)有數(shù)據(jù)集的15倍,包含86億張圖像和16,960億個(gè)文本標(biāo)記。OmniCorpus數(shù)據(jù)集在多語(yǔ)言、多類(lèi)型數(shù)據(jù)抓取上進(jìn)行了優(yōu)化,提高了內(nèi)容提取的質(zhì)量和完整性。通過(guò)人工反饋和自動(dòng)過(guò)濾規(guī)則,確保了數(shù)據(jù)集的高質(zhì)量。在VQA和Image Captioning等測(cè)試中,基于OmniCorpus預(yù)訓(xùn)練的模型表現(xiàn)出色,對(duì)訓(xùn)練多模態(tài)大模型有重要幫助。
弱智吧的數(shù)據(jù)真的這么厲害嗎?持著好奇和懷疑的態(tài)度,我們仔細(xì)閱讀了這篇論文,「弱智吧的數(shù)據(jù)碾壓其他數(shù)據(jù)」這個(gè)結(jié)論有待深入討論和探索。我們提出以下幾個(gè)疑問(wèn):
在大模型領(lǐng)域英語(yǔ)一直是訓(xùn)練數(shù)據(jù)最重要的語(yǔ)言,但由于中英文的結(jié)構(gòu)和文化差異,直接將英文數(shù)據(jù)集翻譯成中文并不理想。所以,為了填補(bǔ)高質(zhì)量中文數(shù)據(jù)集的空白,研究人員開(kāi)發(fā)出了COIG-CQIA數(shù)據(jù)集。
澳大利亞維多利亞州日前宣布正式推出維多利亞州數(shù)字孿生(DTV)平臺(tái),旨在提供相關(guān)數(shù)據(jù)的可視化、探索和規(guī)劃。