近年來(lái),隨著深度學(xué)習(xí)、自然語(yǔ)言處理、計(jì)算機(jī)視覺(jué)等技術(shù)的快速發(fā)展,多模態(tài)技術(shù)取得了顯著進(jìn)展。商湯秒畫(huà)、Sora、可靈等文生圖、文生視頻等模型產(chǎn)品的推出,讓AI生成的內(nèi)容更加豐富多彩,極大地豐富了用戶(hù)體驗(yàn)和應(yīng)用場(chǎng)景。
想象一下,一個(gè)人工智能系統(tǒng)不僅能閱讀文本或識(shí)別圖像,還能夠同時(shí)讀、寫(xiě)、看、聽(tīng)和創(chuàng)造。這其實(shí)就是多模態(tài)人工智能的精髓。這些先進(jìn)的多模態(tài)人工智能系統(tǒng)可以同時(shí)處理和整合多種形式的數(shù)據(jù),包括文本、圖像、音頻甚至視頻。這就像是賦予了人工智能一整套的感官。
我們介紹了EMMA,一個(gè)端到端的自動(dòng)駕駛多模態(tài)模型;诙嗄B(tài)大型語(yǔ)言模型的基礎(chǔ),EMMA直接將原始相機(jī)傳感器數(shù)據(jù)映射到各種特定于駕駛的輸出中,包括規(guī)劃器軌跡、感知對(duì)象和道路圖元素。EMMA通過(guò)將所有非傳感器輸入(例如導(dǎo)航指令和自我車(chē)輛狀態(tài))和輸出(例如軌跡和3D位置)表示為自然語(yǔ)言文本,最大化了預(yù)訓(xùn)練大型語(yǔ)言模型的世界知識(shí)效用。
多模態(tài)大型語(yǔ)言模型(MLLM)通過(guò)在大型語(yǔ)言模型(LLM)中集成視覺(jué)編碼器,在多模態(tài)任務(wù)中取得了有希望的結(jié)果。然而,大型模型的大小和廣泛的訓(xùn)練數(shù)據(jù)帶來(lái)了顯著的計(jì)算挑戰(zhàn)。例如,LLaVA-NeXT的最大版本使用了Qwen-1.5-110B,并且使用128個(gè)H800 GPU訓(xùn)練了18小時(shí)。
多模態(tài)AI系統(tǒng),融合語(yǔ)音對(duì)話(huà)和音頻分析功能,支持超過(guò)8種語(yǔ)言和方言,無(wú)需自動(dòng)語(yǔ)音識(shí)別即可進(jìn)行語(yǔ)音交互,提供音頻信息分析和多語(yǔ)言支持。
巴黎奧運(yùn)會(huì)上,AI技術(shù)的應(yīng)用成為了賽事的一大亮點(diǎn)。從智能裁判系統(tǒng)到運(yùn)動(dòng)員訓(xùn)練輔助,再到賽事直播的個(gè)性化推薦,AI技術(shù)的融入不僅提升了賽事的公平性和觀賞性,也讓觀眾享受到了前所未有的觀賽體驗(yàn)。
GPT-4o mini("o"代表"omni")是小型型號(hào)類(lèi)別中最先進(jìn)的型號(hào),也是OpenAI迄今為止最便宜的型號(hào)。它是多模態(tài)的(接受文本或圖像輸入并輸出文本),具有比 gpt-3.5-turbo 更高的智能,但速度同樣快。它旨在用于較小的任務(wù),包括視覺(jué)任務(wù)。
目前,AIGC產(chǎn)業(yè)生態(tài)體系的雛形已現(xiàn),呈現(xiàn)為上中下三層架構(gòu):①第一層為上游基礎(chǔ)層,也就是由預(yù)訓(xùn)練模型為基礎(chǔ)搭建的AIGC技術(shù)基礎(chǔ)設(shè)施層。②第二層為中間層,即垂直化、場(chǎng)景化、個(gè)性化的模型和應(yīng)用工具。③第三層為應(yīng)用層,即面向C端用戶(hù)的文字、圖片、音視頻等內(nèi)容生成服務(wù)。
2023年大眾對(duì)AI的看法從懷疑到認(rèn)可,AGI(通用人工智能)的發(fā)展迅速,大模型展現(xiàn)出驚人的想象力和取悅能力。應(yīng)用層尚未出現(xiàn)獨(dú)角獸,創(chuàng)業(yè)者面臨官方技術(shù)迭代的挑戰(zhàn)。
AI大模型通過(guò)大規(guī)模預(yù)訓(xùn)練和微調(diào)實(shí)現(xiàn)通用人工智能,目前正從'大煉模型'向'煉大模型'轉(zhuǎn)變,推動(dòng)多模態(tài)和多場(chǎng)景革命。GPT模型迭代加速,國(guó)內(nèi)企業(yè)如百度、騰訊、阿里在大模型市場(chǎng)占據(jù)優(yōu)勢(shì)。
Anthropic推出了第三代大語(yǔ)言模型Claude3,包含三個(gè)版本:Claude3-Opus、Claude3-Sonnet和Claude3-Haiku,能力和成本遞減。Claude3-Opus在多項(xiàng)評(píng)測(cè)中超過(guò)GPT-4,支持多模態(tài)和最高100萬(wàn)上下文輸入。
由于專(zhuān)家不足且高度依賴(lài)臨床專(zhuān)業(yè)知識(shí)來(lái)評(píng)估視網(wǎng)膜成像情況,確定年齡相關(guān)性黃斑變性的高風(fēng)險(xiǎn)人群一直是個(gè)令人頭痛的難題。但如今,人工智能/機(jī)器學(xué)習(xí)(AI/ML)等新興技術(shù)的逐步普及,正為更準(zhǔn)確、更高效的篩查方法鋪平道路。
12月5日,以數(shù)據(jù)「智」上為主題的多模態(tài)數(shù)據(jù)智能峰會(huì)在北京舉行,以多模態(tài)數(shù)據(jù)智能為核心戰(zhàn)略的愛(ài)數(shù)AISHU品牌新征程,愛(ài)數(shù)成功展示了從圖像到文本的跨模態(tài)場(chǎng)景應(yīng)用,邁出了從單模態(tài)數(shù)據(jù)分析到多模態(tài)數(shù)據(jù)智能的第一步。
7月4日召開(kāi)的百度AI開(kāi)發(fā)者大會(huì)上,百度高級(jí)副總裁、AI技術(shù)平臺(tái)體系(AIG)總負(fù)責(zé)人王海峰發(fā)布百度大腦3.0,并指出,百度大腦3.0的核心是“多模態(tài)深度語(yǔ)義理解”,包括數(shù)據(jù)的語(yǔ)義,知識(shí)的語(yǔ)義,以及圖像、視頻、聲音、語(yǔ)音等各方面的理解。