OpenAI的超級對齊團隊開發(fā)了Transformer Debugger(TDB),這是一個旨在支持對小型語言模型特定行為進行調查的工具,它結合了自動化的可解釋性技術與稀疏自編碼器。
OpenAI開源了Transformer Debugger,這是一個可視化工具,用于幫助開發(fā)者調測和理解大型語言模型的推理過程。工具通過可視化展示模型的神經元、注意力機制和自編碼器的激活情況,提供對模型行為的解釋。Transformer Debugger包括神經元觀察器、激活服務器、模型庫和匯總激活數(shù)據(jù)集等組件。