極智視界分享了多模態(tài)大模型中的動(dòng)態(tài)高分辨率技術(shù),該技術(shù)允許模型根據(jù)圖像復(fù)雜度實(shí)時(shí)調(diào)整處理分辨率,以優(yōu)化計(jì)算量。介紹了LLava-Next中的實(shí)現(xiàn),包括切圖和縮放兩個(gè)分支,并展示了動(dòng)態(tài)高分辨率的代碼實(shí)現(xiàn),涉及尋找最接近的寬高比和動(dòng)態(tài)預(yù)處理。
從業(yè)務(wù)角度來(lái)說(shuō)是反映模型的初始響應(yīng)速度,對(duì)于實(shí)時(shí)交互式應(yīng)用非常重要,較低的TTFT可以提高用戶體驗(yàn),使用戶感覺(jué)模型響應(yīng)迅速;從算法推理角度來(lái)說(shuō),其實(shí)主要是在掐大模型推理的 Prefill 時(shí)間,更加準(zhǔn)確一些的是上圖中的 Queueing Time + Prefill Latency 時(shí)間和。
商湯科技等機(jī)構(gòu)聯(lián)合開(kāi)源了百億級(jí)圖文交錯(cuò)數(shù)據(jù)集OmniCorpus,規(guī)模是現(xiàn)有數(shù)據(jù)集的15倍,包含86億張圖像和16,960億個(gè)文本標(biāo)記。OmniCorpus數(shù)據(jù)集在多語(yǔ)言、多類(lèi)型數(shù)據(jù)抓取上進(jìn)行了優(yōu)化,提高了內(nèi)容提取的質(zhì)量和完整性。通過(guò)人工反饋和自動(dòng)過(guò)濾規(guī)則,確保了數(shù)據(jù)集的高質(zhì)量。在VQA和Image Captioning等測(cè)試中,基于OmniCorpus預(yù)訓(xùn)練的模型表現(xiàn)出色,對(duì)訓(xùn)練多模態(tài)大模型有重要幫助。