[262] 오픈소스 지식 관리 시스템 제텔가든(Zettelgarden) 관련 글 소개

Nick Savage와 Zettelgarden: 인간 사고를 증진시키는 지식 관리 시스템

Nick Savage는 캐나다 오타와에 거주하며, 개인 프로젝트로 시작된 오픈소스 지식 관리 시스템인Zettelgarden을 개발하고 있습니다. Zettelgarden은 독일 철학자 Niklas Luhmann의zettelkasten개념에서 영감을 받아, 아이디어 간의 연결성을 극대화하고 인간 사고를 보완하는 것을 목표로 합니다

Zettelgarden의 목표

Zettelgarden은 단순히 정보를 저장하는 도구가 아니라, 사용자가 정보를 처리하고 이해하며 자신의 통찰력을 추가할 수 있도록 설계되었습니다. Savage는 디지털 지식 관리 시스템이 물리적 카드 시스템이 제공했던 "예기치 않은 연결"을 놓칠 수 있다고 지적하며, 이를 디지털 환경에서 재현하려는 시도를 하고 있습니다. 핵심 철학은 인간 사고를 대체하기보다 증진시키는 데 있으며, AI 기능을 통합하더라도 학습과 창의적 사고 과정을 유지하는 데 중점을 둡니다

기술적 접근: 벡터 검색에서 엔티티 처리로

Savage는 Zettelgarden의 기술적 발전 과정을 다음과 같이 설명합니다:

1. 초기 벡터 검색

초기에는 노트 전체를 벡터로 변환하여 유사성을 기반으로 연결성을 찾는 방식을 사용했습니다.
그러나 긴 콘텐츠(예: 팟캐스트 전사본)에서는 중요한 내용을 놓치는 문제가 발생했습니다.
이를 해결하기 위해 노트를 약 300자 단위로 나누고 각 조각에 대해 벡터를 생성하는 "청킹(chunking)" 방식을 도입했습니다.
이후 LLM(대규모 언어 모델)을 사용한 재정렬(reranking)을 통해 더 의미 있는 결과를 제공하도록 개선했습니다.

2. 엔티티 처리

최근에는 "엔티티" (사람, 장소, 개념 등)를 추출하고 이를 중심으로 노트 간의 관계를 구축하는 방식으로 전환했습니다.
엔티티 감지, 중복 감지, 저장 및 연결이라는 세 가지 주요 단계를 거칩니다.
예를 들어, 두 노트가 "카이저 빌헬름 2세"를 언급하면 서로 다른 표현이라도 동일한 엔티티로 인식하여 연결합니다.
이 접근법은 저장 공간 효율성을 높이고 더 정교한 연결을 가능하게 합니다.

앞으로의 방향

Savage는 Zettelgarden을 통해 다음과 같은 기능을 구현하고자 합니다:

사용자가 작성 중인 노트에 미묘한 연결 제안을 제공
특정 엔티티가 여러 노트에서 언급되지만 심층적으로 다뤄지지 않은 경우 이를 연구 기회로 제안
AI 모델의 정확성과 처리 비용 간 균형을 찾기 위한 실험
대규모 데이터베이스에서도 효율적으로 작동하도록 확장성 문제 해결

Zettelgarden은 개인뿐만 아니라 조직 내부의 지식 베이스 관리에도 활용될 수 있는 잠재력을 가지고 있습니다. Savage는 이 프로젝트를 지속적으로 발전시키며, 인간 중심의 지식 관리 철학을 유지하면서 디지털 도구의 장점을 최대한 활용하려 하고 있습니다.Zettelgarden 프로젝트는 GitHub에서 확인할 수 있습니다

다음은 쉽게 이해할 수 있도록 벡터 검색, 엔티티 처리, 청킹(chunking), 재정렬(reranking)을 설명한 내용입니다.

1. 벡터 검색

벡터 검색은 컴퓨터가 단어, 문장 또는 그림의의미를 숫자로 바꿔 저장한 뒤, 비슷한 의미를 가진 것들을 찾아주는 기술입니다. 예를 들어, "강아지"라는 단어와 "개"라는 단어는 비슷한 뜻을 가지고 있어서 컴퓨터가 두 단어를 서로 가깝게 연결해줍니다. 이렇게 하면 우리가 원하는 정보를 더 쉽게 찾을 수 있습니다.

2. 엔티티 처리

엔티티 처리는 글 속에서 중요한 단어나 개념(사람, 장소, 사건 등)을 뽑아내고, 그것들이 서로 어떻게 연결되어 있는지 알아내는 방법입니다. 예를 들어, "토끼와 거북이 이야기"라는 글에서 "토끼"와 "거북이"라는 단어를 찾아내고, 이 둘이 경주를 했다는 관계를 기록하는 것입니다. 이렇게 하면 관련된 정보를 쉽게 연결할 수 있습니다.

3. 청킹(chunking)

청킹은 많은 정보를 작고 이해하기 쉬운 덩어리로 나누는 방법입니다. 예를 들어, 전화번호 "01012345678"을 외울 때 "010-1234-5678"처럼 나누면 더 기억하기 쉬운 것과 같습니다. 긴 내용을 작게 나누면 기억하거나 처리하기 훨씬 편리해집니다.

4. 재정렬(reranking)

재정렬은 컴퓨터가 찾아낸 여러 가지 결과 중에서 가장 중요한 것을 맨 위로 올려주는 과정입니다. 예를 들어, 인터넷에서 "맛있는 피자집"을 검색했을 때, 컴퓨터가 여러 피자집을 찾았다면 가장 평점이 높은 가게를 맨 위에 보여주는 것입니다. 이렇게 하면 우리가 원하는 정보를 더 빨리 찾을 수 있습니다.

이 네 가지 개념은 모두 정보를 더 잘 이해하고 빠르게 찾기 위해 사용되는 기술입니다!

인용:

[3] Building a Knowledge Management System That Enhances Rather ... https://app.daily.dev/posts/beyond-rag-building-a-knowledge-management-system-that-enhances-rather-than-replaces-thought-bo8xgigt5

[5] Nick Savage - Wix.com https://theauthornicksavag.wixsite.com/theauthornicksavage

[6] NickSavage/Zettelgarden - GitHub https://github.com/NickSavage/Zettelgarden

[7] 사고를 대체하기보다 향상시키는 지식 시스템 구축 - TILNOTE https://tilnote.io/news/67770c75b9d621d897447257

[8] Building a Knowledge Management System That Enhances Rather ... https://nsavage.substack.com/p/beyond-rag-building-a-knowledge-management

추가 메뉴

Zettelgarden의 목표

기술적 접근: 벡터 검색에서 엔티티 처리로

1. 초기 벡터 검색

2. 엔티티 처리

앞으로의 방향

1. 벡터 검색

2. 엔티티 처리

3. 청킹(chunking)

4. 재정렬(reranking)

댓글 (0)