微軟推出了新型AI模型Magma,旨在提升機(jī)器人的視覺、理解和行動(dòng)能力。Magma能同時(shí)處理多種類型的數(shù)據(jù),是朝著"代理AI"邁出的重要一步。該模型結(jié)合了視覺和語(yǔ)言處理技術(shù),經(jīng)過多模態(tài)訓(xùn)練,可以執(zhí)行操控機(jī)器人和導(dǎo)航用戶界面等任務(wù),為AI自動(dòng)化日常生活開辟了新的可能性。
前OpenAI首席技術(shù)官M(fèi)ira Murati今天推出了一家新的人工智能初創(chuàng)公司——思維機(jī)器實(shí)驗(yàn)室,專注于開發(fā)多模態(tài)模型。該公司在競(jìng)爭(zhēng)激烈的AI市場(chǎng)中嶄露頭角,Murati曾在四個(gè)月前與投資者洽談籌集超過1億美元的資金。思維機(jī)器實(shí)驗(yàn)室的初始團(tuán)隊(duì)包括前OpenAI研究高管Barret Zoph,Murati擔(dān)任首席執(zhí)行官,Zoph擔(dān)任首席技術(shù)官。該實(shí)驗(yàn)室計(jì)劃訓(xùn)練能夠處理文本和多媒體文件的模型,并將基礎(chǔ)設(shè)施質(zhì)量作為首要任務(wù),致力于提高研究生產(chǎn)力。
Mini-Omni是清華大學(xué)啟元實(shí)驗(yàn)室開源的多模態(tài)模型,具備實(shí)時(shí)語(yǔ)音到語(yǔ)音的對(duì)話能力,無(wú)需額外的ASR或TTS模型。它能夠邊思考邊說(shuō)話,支持流式音頻輸出,并能通過'Any Model Can Talk'方法為其他模型添加語(yǔ)音交互能力。
馬斯克旗下AI公司x.ai推出Grok-1.5 Vision,具備視覺功能,能深度理解真實(shí)世界并進(jìn)行數(shù)據(jù)解讀、轉(zhuǎn)換。Grok-1.5 V在多模態(tài)模型測(cè)試中超過GPT-4V等競(jìng)品,展示了強(qiáng)大的理解、數(shù)據(jù)轉(zhuǎn)換和檢索能力,如將圖片翻譯成Python代碼。即將向早期測(cè)試者和現(xiàn)有用戶推出。
DeepSeekVL是一款開源多模態(tài)模型,通過對(duì)訓(xùn)練數(shù)據(jù)、模型架構(gòu)和訓(xùn)練策略的聯(lián)合拓展,構(gòu)建了7B與1.3B規(guī)模的強(qiáng)大模型。相關(guān)資源可通過論文鏈接、模型下載頁(yè)面和GitHub主頁(yè)獲取。