유작가님이 eigenvector라는 비유에 대한 조금 더 긴 글 (얼려야 겠죠?)
페이지 정보

본문
출근하자마자 다음과 같은 글을 보았습니다.
https://damoang.net/free/3229798#c_3229929
한 줄 요약 : 고윳값과 LLM: 본질을 꿰뚫는 통찰의 힘, 그 이름은 유시민
세줄 요약:
- LLM에서 고윳값은 핵심 정보를 추출 하고 효율성을 높이는 데 중요한 역할
- 고윳값 같은 지식인은 혼란 속에서도 본질과 진실을 꿰뚫는 통찰력 , 즉 유시민
- 변화무쌍한 시대 에도 흔들리지 않는 방향성 을 제시하는 시대의 어른, 즉 유시민
보자마자 정말 좋은 비유라고 생각하여서, 설명충인 제가 조금 설명을 덧붙여보겠습니다.
저는 인공지능을 전공했고 현재는 연구원으로 취직하여 생활하고 있는 사람이라서, 저의 관점과 전공에 빗대어 설명해보고자 합니다.
고윳값은 위의 글에서 설명이 되었으니 간단하게만 요약을 하겠습니다.
선형대수학에서 행렬 변환이 이루어질 때, 벡터의 방향을 바꾸지 않고 크기만 조정하는 스칼라 값 ; 차원 데이터에서 가장 중요한 방향성과 크기 를 나타내는 값; 이를 통해 방대한 데이터 속에서도 핵심적인 정보 를 추출하고, 본질을 유지하면서 차원을 축소가능
LLM에서 고윳값의 역할
LLM(Large Language Model)에서 고윳값은 다음의 중요한 역할을 합니다.
LLM이 가지고 있는 매개 변수는 쉽게 설명하면 모델 뒤의 숫자를 보시면 되는데 예를 들어
ex) Llama 3 - 8b 라마 3 80억개 매개변수를 가진 모델이라는 뜻입니다. 이것도 요새는 굉장히 적은 숫자에 속합니다. 요즘은 30b, 72b 모델도 많이 보입니다. --> 그래서 최상목이 2만개 gpu 사는 걸로는 최근 모델의 모든 매개변수를 처음부터 다 학습하기에는 턱없이 부족합니다.
GPU가 굉장히 많은 Openai, google, meta, alibaba 라면 이 엄청나게 큰 모델을 훈련시킬 수 있겠지만 일반 회사 혹은 연구소들은 이를 돌리기엔 gpu가 부족합니다.
이렇게 큰 LLM을 돌리기 위해서, LoRA(Low-Rank Adaptation)이라는 방법을 생각해내게 됩니다.
"이 수십 수백억개의 매개변수 중에서 모든 매개변수가 중요한 정보를 담고 있지 않을 것 같은데?" 라는 가정에서 출발합니다.
- LLM의 가중치 행렬에는 수백억 개의 매개변수가 존재하지만, 모든 매개변수가 중요한 정보를 담고 있지는 않습니다.
- 실제로는 소수의 고윳값이 대부분의 중요한 정보 를 담고 있으며, 나머지 고윳값은 거의 0에 가까워 노이즈나 불필요한 정보 를 나타냅니다.
- 이는 대규모 모델의 가중치가 저차원 구조 를 가지고 있으며, 정보가 일부 차원에 집중 되어 있다는 연구 결과와 일치합니다.
정보의 집중과 중요도 차이
- LLM의 가중치 행렬에는 수백억 개의 매개변수가 존재하지만, 모든 매개변수가 중요한 정보를 담고 있지는 않습니다.
- 실제로는 소수의 고윳값이 대부분의 중요한 정보 를 담고 있으며, 나머지 고윳값은 거의 0에 가까워 노이즈나 불필요한 정보 를 나타냅니다.
- 이는 대규모 모델의 가중치가 저차원 구조 를 가지고 있으며, 정보가 일부 차원에 집중 되어 있다는 연구 결과와 일치합니다.
저차원 근사와 LoRA
- LoRA(Low-Rank Adaptation) 는 바로 이 고윳값의 집중성 에서 출발합니다.
- LoRA는 가중치 행렬을 저차원 행렬로 근사 함으로써 모든 매개변수를 학습할 필요 없이 중요한 정보만 업데이트합니다.
즉 LoRa를 통해서 모든 매개변수를 학습해서 사용할 때보다 조금 성능을 잃을 순 있지만,
제한된 GPU로 더 빠르게 학습을 하고 실생활에서 사용할 수 있게 됩니다.
왜 고윳값이 중요한가?
- 고윳값은 고차원 데이터 속에서도 핵심적인 정보 만을 남기고, 불필요한 정보를 걸러내는 역할을 합니다.
- LLM에서는 고차원 언어 표현 공간 에서 중요한 의미와 패턴 을 찾아내어 모델의 일반화 성능 을 높입니다.
- 또한, 고윳값이 큰 축은 의미론적으로 중요한 정보 를 나타내므로, 해석 가능성(Interpretability) 도 높아집니다.
결론:
- LLM에서 고윳값은 핵심 정보 를 추출하고 효율성을 극대화 하는 중요한 역할을 합니다.
- 이를 통해 모델의 성능 뿐만 아니라 해석 가능성 과 일반화 능력 도 향상됩니다.
- 고윳값 같은 지식인은 정보 과부하 와 가짜뉴스 가 넘쳐나는 현대 사회에서 진실과 본질 을 꿰뚫는 통찰력과 영향력 을 발휘합니다.
- 결국, 고윳값과 같은 지식인 은 변화무쌍한 세상 속에서 변하지 않는 본질을 찾는 사람 이며,
고차원 정보의 혼란 속에서도 저차원 통찰 을 통해 방향성을 시대의 어른이라는 뜻이 됩니다
매우 좋은 비유라고 생각해서 이리저리 두서없이 작성해봤습니다.
자 이제 얼리러 가시죠.
zeno님의 댓글

고윳값, LLM, 선형대수학, 행렬 변환, 스칼라 값 등등...
개념적 단어들에 대한 이해가 안되어 있으니 저같은 디자이너는 그냥 흑백의 조화로만 보입니다.^^
메르시퓨탕님의 댓글의 댓글
수필님의 댓글

세상의 모든 저작물을 한군데 모아놓는다고 해봅시다. 일군의 책 컬렉션이 만들어질겁니다 (LLM). 이 저서들 중에서 어떤 책은 형편없고, 다른 책은 평범하지만, 소수의 책은 매우 뛰어나 인류사에 남을 저작물입니다. 핵심 정보는 이런 소수의 책에 집중되어 있습니다. 이런 컬렉션의 모든 책을 우리가 다 읽고 해석할 수는 없으니 문제입니다.
그럼 필요한 게 뭘까요. 지식소매상(유시민 작가의 표현)입니다. 인류사에 길이남을 "어려운" 저작물--철학이든 경제학이든 생물학이든--을 해석해서 어려운 용어 다 쳐내고 서민의 언어로 이해하기 쉽게 풀어써주는 사람들이 바로 지식소매상(LoRA)입니다. 그 지식소매상 중에서도 유시민 작가님은 최고봉입니다. 대중의 언어로 풀어서 설명해주시니 듣고 이해가 쏙쏙 되는 거죠.
그러니 속히 얼리고 전뇌화해야 하는 겁니다.
colashaker님의 댓글

산적통신님의 댓글
격하게 공감합니다.
응원하겠습니다.
함께 힘냅시다.