Nvidia TensorRT深度學習推理平臺在會話AI領域取得新突破
Nvidia發(fā)布了用于高性能深度學習推理的新版本TensorRT軟件平臺,以強化自己的人工智能戰(zhàn)略。
TensorRT是一個將高性能深度學習推理優(yōu)化器與運行時相結合的平臺,可為AI應用提供低延遲、高吞吐量的推理。
推理是AI的一個重要方面,AI訓練涉及算法理解數(shù)據(jù)集的能力演化,而推理是指AI能夠對這些數(shù)據(jù)進行操作以推斷特定查詢的答案。
新版本的TensorRT在性能方面有了顯著改善,包括大幅縮短了在最先進AI語言模型之一——Bidirectional Encoder Representations from Transformers -Large(BERT-Large)——上的推理時間。眾所周知,BERT-Large是一種自然語言處理訓練方法,涉及在大型文本語料庫(如維基百科)上訓練通用語言理解模型,然后把該模型作為下游NLP任務的基礎,例如回答人們的問題。
Nvidia表示,TensorRT 6新增的優(yōu)化功能可以將B44與T4 GPU的算法推理時間縮短至5.8毫秒,低于之前的10毫秒性能閾值。
Nvidia表示,這次改進的性能足夠高,使得BERT可以被企業(yè)首次部署到生產環(huán)境中。傳統(tǒng)觀點認為,應該在不到10毫秒的時間內執(zhí)行NLP模型,才能提供自然的、引人入勝的體驗。
Nvidia表示,還對該平臺進行了優(yōu)化,加速了對于語音識別、醫(yī)療應用3D圖像分割、工業(yè)自動化中基于圖像的應用相關任務的推斷。
Nvidia表示,TensorRT 6還增加了對動態(tài)輸入批大小的支持,這有助于加速AI應用,例如計算需求波動的在線服務等。TensorRT Open Source Repository 也有升級,新增的訓練樣本有助于加快基于語言和圖像的應用的推斷。
Constellation Research分析師Holger Mueller表示,這次改進很及時,因為會話AI平臺的競爭正在全面展開。
“但是Nvidia仍然需要解決下一代應用的本地部署問題,除非它設法將TensorRT平臺變成公有云。在這方面Nvidia有很好的經(jīng)驗,但需要一定的時間才能實現(xiàn)。”
Nvidia表示,現(xiàn)在已經(jīng)可以通過產品頁面下載TensorRT 6平臺。
本文章選自《數(shù)字化轉型方略》雜志,閱讀更多雜志內容,請掃描下方二維碼