[짧은 글] Human-inspired Episodic Memory for Infinite Context LLMs (2025)

학술/인공지능 논문 읽기

by 엘빌스 2026. 4. 15. 15:18

Fountas, Z., Benfeghoul, M., Oomerjee, A., Christopoulou, F., Lampouras, G., Ammar, H. B., & Wang, J. Human-inspired Episodic Memory for Infinite Context LLMs. In The Thirteenth International Conference on Learning Representations.

[2407.09450] Human-inspired Episodic Memory for Infinite Context LLMs

Human-inspired Episodic Memory for Infinite Context LLMs

Large language models (LLMs) have shown remarkable capabilities, but still struggle with processing extensive contexts, limiting their ability to maintain coherence and accuracy over long sequences. In contrast, the human brain excels at organising and ret

arxiv.org

요약:

사람의 기억 특성을 모방한 episodic memory 체계를 도입해서 LLM이 초장기 문맥도 잘 처리할 수 있도록 보조하는 방법을 제안했다. 여기서 활용한 기억 특성은 사람은 사건 단위로 기억하고, 현재와 관련된 기억을 불러올 수 있고, 그 기억과 인접한 다른 기억도 함께 활성화된다는 것이다.

이를 모사하기 위하여

1) 입력 토큰들을 사건(event)으로 나누어 묶고, 2) 현재 맥락(query)와 관련된 사건을 검색하고, 3) 검색된 사건과 그 주변 사건을 함께 LLM의 context에 불러오는 방법을 사용한다. 단, 이 방법은 단지 LLM의 입력 계층에서 일어나는 것이 아니라 layer 별로 수행된다는 것에 주의한다.

이때 사건으로 나누기 위해서 처음에는 negative log-likelihood 기반의 suprise를 사용하고,

사건의 경계를 잘 다듬기 위해서 토큰을 node로, 토큰의 key(attention의 key 개념) 간 similarity를 edge로 보고, 그래프 관점에서 경계를 다듬게 된다.

검색할 때 유사도 판단은 현재 입력과 각 event(episodic memory - 외부에 저장된 것 포함) 토큰의 key간 유사도를 사용한 k-NN을 통해서 한다.

이 방법은 초장기 문맥 벤치마크에서 기존 주요 방법들보다 우수한 성능을 보인다. 기존 LLM을 학습할 필요 없이 적용 가능하다는 특징이 있다. (하지만 KV Cahce를 이용하기 때문에 API에 활용 가능한 방법은 아님)

더 깊게 읽을까?

실험이나 discussion까지 자세히는 안 봤지만, 핵심 방법론은 자세히 읽어본 편이다. 어떻게 구현했는지 아이디어가 궁금했던 것이고, 탑티어 학회 검증 거쳐서 발표된 것이니 성능이 잘 나왔다는건 일단 신뢰하기 때문에 유사 연구를 직접 계획하지 않으면 더 깊게 안 읽어도 될 것 같다.

저작자표시 비영리 변경금지 (새창열림)

'학술 > 인공지능 논문 읽기' 카테고리의 다른 글

[짧은 글] Veriflow: Modeling distributions for neural network verification (0)	2026.06.23
[짧은 글] Sigmoid Loss for Language Image Pre-Training (0)	2026.06.11
[짧은 글] SMaRt: Improving GANs with Score Matching Regularity (0)	2026.05.15
[짧은 글] Scaling and evaluating sparse autoencoders (0)	2026.04.29
[짧은 글] Entailment as Robust Self-Learner (2023) (0)	2026.04.24
[짧은 글] Neural Operator (2023): 연산자를 학습하는 범용 신경망 모델 (0)	2026.04.13
(Vanilla) Transformer 흐름 이해하기 by The Annotated Transformer (0)	2023.07.11

Ideal Planet

고정 헤더 영역

메뉴 레이어

메뉴 리스트

검색 레이어

검색 영역

상세 컨텐츠

본문 제목

본문

'학술 > 인공지능 논문 읽기' 카테고리의 다른 글

관련글 더보기

댓글 영역

추가 정보

인기글

최신글

티스토리툴바