本文提出了一種精心設(shè)計(jì)的分階段訓(xùn)練方法,逐步訓(xùn)練大型語(yǔ)言模型以理解視覺(jué)和語(yǔ)音信息,最終實(shí)現(xiàn)流暢的視覺(jué)和語(yǔ)音交互。我們的方法不僅保留了強(qiáng)大的視聽(tīng)能力,而且無(wú)需單獨(dú)的自適應(yīng)語(yǔ)音識(shí)別(ASR)和文本到語(yǔ)音(TTS)模塊,就能實(shí)現(xiàn)高效的語(yǔ)音轉(zhuǎn)語(yǔ)音對(duì)話能力,顯著加快了多模態(tài)端到端的響應(yīng)速度。