打開語言模型“黑箱”!Google DeepMind 發佈一套可視化工具Gemma Scope
Google DeepMind的最新研究Gemma Scope揭開了語言模型黑箱的祕密,通過稀疏自編碼器(SAEs)分解和重構語言模型的激活,旨在揭示背後有意義的特徵。Gemma Scope採用JumpReLU SAEs,通過控制激活,優化重建損失並正則化活躍的潛在特徵數量,以揭示語言模型的內部機制。研究發現,殘差流SAEs的性能通常較低,序列長度對SAE性能有顯著影響,不同數據集子集的表現各異,DeepMind mathematics上表現最佳。Gemma Scope的發佈不僅有助於理解SAEs,還能改進實際任務性能,對SAEs進行紅隊測試,提高AI的可解釋性和安全性。