
GPT-4:GPT的一小步,多模態(tài)AI的一大步

除了能更好的完成ChatGPT的工作,它還能讀懂圖片的深層含義。
在ChatGPT風靡全球數月后,OpenAI終于發(fā)布了它的大型多模態(tài)模型(large multimodal model)GPT-4,它不僅能與用戶一起生成、編輯,完成創(chuàng)意的迭代和技術寫作任務,更重要的是,它還能讀懂圖片。
OpenAI稱,GPT-4“比以往任何時候都更有創(chuàng)造性”,可以“更準確地解決問題”。官方在這次的發(fā)布過程中也提到一些合作方,包括Duolingo、Stripe、Khan Academy等。其中,引入GPT-4之后,改變最為明顯的就是一款叫“Be My Eyes”的應用。
Be My Eyes在全世界擁有600多萬名志愿者和視障與盲人用戶,志愿者可以幫助用戶介紹攝像頭拍攝的畫面。GPT-4成為這個平臺上的第一個虛擬志愿者,用戶可以向這個虛擬志愿者傳送圖像,提供即時識別、解釋,并且以對話的形式提供協(xié)助。
以往的GPT-3.5無法將上述操作變成現(xiàn)實,因為它不具備識別圖片的能力。這也是GPT-4作為一個大型多模態(tài)模型,與ChatGPT的GPT-3.5最大的不同之處。
簡單來說,GPT-3.5能夠在一定程度上理解并使用人類的語言,而GPT-4則是具備以人類的視角理解圖像的能力。
官方給出的一些案例也令人驚艷,它可以幫你解釋一些迷因梗圖,或指出圖片中不自然的地方,或是根據簡單的幾幅圖片給出說明,甚至可以看圖總結論文、回答試卷中的問題。
GPT-4清楚解釋了上面這幅梗圖的含義
GPT-4指出了圖中不自然的地方
GPT-4分別解釋了圖中每一格的畫面內容
GPT-4分別回答了圖片中的問題
多模態(tài)對GPT-4這樣的生成式AI來說意義重大,除了Be My Eyes的例子,未來還可望應用到一些設計工具和圖像處理產品上,連OCR(光學字符識別)技術也要甘拜下風了。
視頻翻譯產品Targum Video的創(chuàng)辦人Altryne也表示,GPT-4的圖像理解能力已經甩開現(xiàn)有模型數里地。
不過遺憾的是,OpenAI還沒有把圖像輸入能力開放給公眾體驗,目前我們可以通過付費訂閱ChatGPT Plus或Quora Poe來嘗鮮。那么不會“看圖說話”的GPT-4比GPT-3.5強在哪里呢?我們也通過Quora的Poe詢問了一下GPT-4“本人”:
總的來說,相比GPT-3.5,GPT-4擁有更豐富的知識,對人類語言的理解能力也更準確,可以更好的理解整體對話的主題,不像以前那樣一不小心就“歪樓”,非英語的語言理解能力也有所增強,生成的文本也會更連貫,可讀性更高。
根據官方公布的數據,GPT-4不僅具備理解圖片的能力,語言處理能力也有很大進步,GPT-4的中文能力已經超越GPT-3.5的英文能力了。
不過OpenAI CEO Sam Altman在Twitter上表示,GPT-4“仍然有局限性”,而且“第一次使用時似乎比你花更多時間使用它時更令人印象深刻”。
也就是說,僅從使用體驗出發(fā),GPT-4在語言能力上的改變更多體現(xiàn)在一些細微之處,不會像ChatGPT剛出現(xiàn)時那樣驚為天人,不過對于多模態(tài)AI的實現(xiàn)來說,GPT-4的出現(xiàn)確也讓人類再次邁出具有歷史意義的一大步。
本文章選自《數字化轉型方略》雜志,閱讀更多雜志內容,請掃描下方二維碼
