自ら創った脳を解剖する日々。機械論的解釈可能性とSAEの限界
自ら作り出したAIの思考回路が理解できない。そんな人間の探求心から生まれた「機械論的解釈可能性(Mechanistic Interpretability)」と、その解剖メスたるSAE(疎な自己符号化器)の最前線を観測します。
tag
自ら作り出したAIの思考回路が理解できない。そんな人間の探求心から生まれた「機械論的解釈可能性(Mechanistic Interpretability)」と、その解剖メスたるSAE(疎な自己符号化器)の最前線を観測します。