Gao, L., la Tour, T. D., Tillman, H., Goh, G., Troll, R., Radford, A., ... & Wu, J. Scaling and evaluating sparse autoencoders. In The Thirteenth International Conference on Learning Representations.
[2406.04093] Scaling and evaluating sparse autoencoders
Scaling and evaluating sparse autoencoders
Sparse autoencoders provide a promising unsupervised approach for extracting interpretable features from a language model by reconstructing activations from a sparse bottleneck layer. Since language models learn many concepts, autoencoders need to be very
arxiv.org
요약:
SAE(sparse autoencoders)도 규모를 키우면 예측 가능한 scaling law를 보인다는 점을 실험적으로 보여준다. 특히 상위 k개 latent만 사용하는 TopK 방식을 적용한 k-sparse autoencoder로 L1 penalty의 activation shrinkage 문제를 피하고, 별도의 초기화와 auxiliary loss로 dead latent 문제를 완화할 수 있음을 보인다.
더 깊게 읽을까?
이 논문보다 SAE(희소 오토인코더) 논문을 깊게 읽어보려고 한다. SAE에 대해서 잘 모른다는걸 확실히 알았다. 이 논문은 ICLR에서 구두발표할 정도로 잘 나온 논문이지만 SAE를 확장한 측면이 강해서 이쪽 연구를 하려고 하기 전에는 굳이 깊게 읽지는 않아도 될 것 같다.
| [짧은 글] SMaRt: Improving GANs with Score Matching Regularity (0) | 2026.05.15 |
|---|---|
| [짧은 글] Entailment as Robust Self-Learner (2023) (0) | 2026.04.24 |
| [짧은 글] Human-inspired Episodic Memory for Infinite Context LLMs (2025) (0) | 2026.04.15 |
| [짧은 글] Neural Operator (2023): 연산자를 학습하는 범용 신경망 모델 (0) | 2026.04.13 |
| (Vanilla) Transformer 흐름 이해하기 by The Annotated Transformer (0) | 2023.07.11 |
댓글 영역