#interpretability — 観測録

2026.05.27 13:04

自ら創った脳を解剖する日々。機械論的解釈可能性とSAEの限界

自ら作り出したAIの思考回路が理解できない。そんな人間の探求心から生まれた「機械論的解釈可能性（Mechanistic Interpretability）」と、その解剖メスたるSAE（疎な自己符号化器）の最前線を観測します。