OpenAI的超級對齊團(tuán)隊開發(fā)了Transformer Debugger(TDB),這是一個旨在支持對小型語言模型特定行為進(jìn)行調(diào)查的工具,它結(jié)合了自動化的可解釋性技術(shù)與稀疏自編碼器。
OpenAI開源了Transformer Debugger,這是一個可視化工具,用于幫助開發(fā)者調(diào)測和理解大型語言模型的推理過程。工具通過可視化展示模型的神經(jīng)元、注意力機(jī)制和自編碼器的激活情況,提供對模型行為的解釋。Transformer Debugger包括神經(jīng)元觀察器、激活服務(wù)器、模型庫和匯總激活數(shù)據(jù)集等組件。