Mini-Omni是清華大學(xué)啟元實驗室開源的多模態(tài)模型,具備實時語音到語音的對話能力,無需額外的ASR或TTS模型。它能夠邊思考邊說話,支持流式音頻輸出,并能通過'Any Model Can Talk'方法為其他模型添加語音交互能力。
馬斯克旗下AI公司x.ai推出Grok-1.5 Vision,具備視覺功能,能深度理解真實世界并進(jìn)行數(shù)據(jù)解讀、轉(zhuǎn)換。Grok-1.5 V在多模態(tài)模型測試中超過GPT-4V等競品,展示了強(qiáng)大的理解、數(shù)據(jù)轉(zhuǎn)換和檢索能力,如將圖片翻譯成Python代碼。即將向早期測試者和現(xiàn)有用戶推出。
DeepSeekVL是一款開源多模態(tài)模型,通過對訓(xùn)練數(shù)據(jù)、模型架構(gòu)和訓(xùn)練策略的聯(lián)合拓展,構(gòu)建了7B與1.3B規(guī)模的強(qiáng)大模型。相關(guān)資源可通過論文鏈接、模型下載頁面和GitHub主頁獲取。