想象一下,一個(gè)人工智能系統(tǒng)不僅能閱讀文本或識別圖像,還能夠同時(shí)讀、寫、看、聽和創(chuàng)造。這其實(shí)就是多模態(tài)人工智能的精髓。這些先進(jìn)的多模態(tài)人工智能系統(tǒng)可以同時(shí)處理和整合多種形式的數(shù)據(jù),包括文本、圖像、音頻甚至視頻。這就像是賦予了人工智能一整套的感官。
我們介紹了EMMA,一個(gè)端到端的自動(dòng)駕駛多模態(tài)模型;诙嗄B(tài)大型語言模型的基礎(chǔ),EMMA直接將原始相機(jī)傳感器數(shù)據(jù)映射到各種特定于駕駛的輸出中,包括規(guī)劃器軌跡、感知對象和道路圖元素。EMMA通過將所有非傳感器輸入(例如導(dǎo)航指令和自我車輛狀態(tài))和輸出(例如軌跡和3D位置)表示為自然語言文本,最大化了預(yù)訓(xùn)練大型語言模型的世界知識效用。
多模態(tài)大型語言模型(MLLM)通過在大型語言模型(LLM)中集成視覺編碼器,在多模態(tài)任務(wù)中取得了有希望的結(jié)果。然而,大型模型的大小和廣泛的訓(xùn)練數(shù)據(jù)帶來了顯著的計(jì)算挑戰(zhàn)。例如,LLaVA-NeXT的最大版本使用了Qwen-1.5-110B,并且使用128個(gè)H800 GPU訓(xùn)練了18小時(shí)。
多模態(tài)AI系統(tǒng),融合語音對話和音頻分析功能,支持超過8種語言和方言,無需自動(dòng)語音識別即可進(jìn)行語音交互,提供音頻信息分析和多語言支持。
巴黎奧運(yùn)會(huì)上,AI技術(shù)的應(yīng)用成為了賽事的一大亮點(diǎn)。從智能裁判系統(tǒng)到運(yùn)動(dòng)員訓(xùn)練輔助,再到賽事直播的個(gè)性化推薦,AI技術(shù)的融入不僅提升了賽事的公平性和觀賞性,也讓觀眾享受到了前所未有的觀賽體驗(yàn)。
GPT-4o mini("o"代表"omni")是小型型號類別中最先進(jìn)的型號,也是OpenAI迄今為止最便宜的型號。它是多模態(tài)的(接受文本或圖像輸入并輸出文本),具有比 gpt-3.5-turbo 更高的智能,但速度同樣快。它旨在用于較小的任務(wù),包括視覺任務(wù)。
目前,AIGC產(chǎn)業(yè)生態(tài)體系的雛形已現(xiàn),呈現(xiàn)為上中下三層架構(gòu):①第一層為上游基礎(chǔ)層,也就是由預(yù)訓(xùn)練模型為基礎(chǔ)搭建的AIGC技術(shù)基礎(chǔ)設(shè)施層。②第二層為中間層,即垂直化、場景化、個(gè)性化的模型和應(yīng)用工具。③第三層為應(yīng)用層,即面向C端用戶的文字、圖片、音視頻等內(nèi)容生成服務(wù)。
2023年大眾對AI的看法從懷疑到認(rèn)可,AGI(通用人工智能)的發(fā)展迅速,大模型展現(xiàn)出驚人的想象力和取悅能力。應(yīng)用層尚未出現(xiàn)獨(dú)角獸,創(chuàng)業(yè)者面臨官方技術(shù)迭代的挑戰(zhàn)。
AI大模型通過大規(guī)模預(yù)訓(xùn)練和微調(diào)實(shí)現(xiàn)通用人工智能,目前正從'大煉模型'向'煉大模型'轉(zhuǎn)變,推動(dòng)多模態(tài)和多場景革命。GPT模型迭代加速,國內(nèi)企業(yè)如百度、騰訊、阿里在大模型市場占據(jù)優(yōu)勢。
Anthropic推出了第三代大語言模型Claude3,包含三個(gè)版本:Claude3-Opus、Claude3-Sonnet和Claude3-Haiku,能力和成本遞減。Claude3-Opus在多項(xiàng)評測中超過GPT-4,支持多模態(tài)和最高100萬上下文輸入。
由于專家不足且高度依賴臨床專業(yè)知識來評估視網(wǎng)膜成像情況,確定年齡相關(guān)性黃斑變性的高風(fēng)險(xiǎn)人群一直是個(gè)令人頭痛的難題。但如今,人工智能/機(jī)器學(xué)習(xí)(AI/ML)等新興技術(shù)的逐步普及,正為更準(zhǔn)確、更高效的篩查方法鋪平道路。
12月5日,以數(shù)據(jù)「智」上為主題的多模態(tài)數(shù)據(jù)智能峰會(huì)在北京舉行,以多模態(tài)數(shù)據(jù)智能為核心戰(zhàn)略的愛數(shù)AISHU品牌新征程,愛數(shù)成功展示了從圖像到文本的跨模態(tài)場景應(yīng)用,邁出了從單模態(tài)數(shù)據(jù)分析到多模態(tài)數(shù)據(jù)智能的第一步。
7月4日召開的百度AI開發(fā)者大會(huì)上,百度高級副總裁、AI技術(shù)平臺體系(AIG)總負(fù)責(zé)人王海峰發(fā)布百度大腦3.0,并指出,百度大腦3.0的核心是“多模態(tài)深度語義理解”,包括數(shù)據(jù)的語義,知識的語義,以及圖像、視頻、聲音、語音等各方面的理解。