Back to Blog
BlogApril 3, 20261

Andrej Karpathy가 LLM을 활용하여 Obsidian에서 동적 개인 지식 기반을 구축하는 방법

Andrej Karpathy가 LLM을 활용하여 Obsidian에서 동적 개인 지식 기반을 구축하는 방법

주요 요점

  • Andrej Karpathy의 시스템은 원본 문서(논문, 기사, 리포지토리, 이미지)를 raw/ 디렉터리에 수집한 후, LLM을 사용해 이를 요약, 역링크, 개념 문서 및 상호 연결을 포함한 구조화된 Markdown 위키로 점진적으로 컴파일합니다.
  • Obsidian은 원본 데이터, 컴파일된 위키 및 Marp 슬라이드나 Matplotlib 플롯과 같은 생성된 출력물을 보기 위한 경량 프론트엔드 역할을 하며, 거의 모든 작성과 유지보수는 LLM이 처리합니다.
  • 대규모(~100개 기사, ~400K 단어)에서 복잡한 Q&A는 RAG 의존을 최소화하며 수행됩니다. LLM은 효율적인 컨텍스트 검색을 위해 인덱스와 요약을 자동으로 유지합니다.
  • LLM 상태 점검을 통한 린팅은 불일치를 식별하고, 누락된 데이터를 입력하며, 연결을 제안하고, 새로운 문서를 제안하여 데이터 무결성을 보장합니다.
  • 출력은 텍스트를 넘어 렌더링된 Markdown, 슬라이드, 시각화 또는 동적 HTML로 확장되며, 종종 위키에 다시 저장되어 시간이 지남에 따라 지식이 증대됩니다.
  • 커뮤니티 도입에서는 오염 제어를 위한 에이전트 분리, 미세 조정을 위한 합성 데이터 생성, 쿼리별로 생성되는 임시 위키와 같은 확장 사례가 부각됩니다.

코드에서 지식 조작으로의 전환

분석 결과 최근 선두 LLM들은 순수 코드 생성보다 지식 합성에서 뛰어난 성과를 보이며, 토큰 할당에 근본적인 변화가 있음을 보여줍니다. Karpathy는 이제 자신의 토큰 처리량 중 상당 부분이 임시 터미널 출력보다는 Markdown 파일과 이미지로 저장된 구조화된 지식을 조작하는 데 사용된다고 보고합니다.

이 워크플로우는 수동적인 연구 소비를 능동적이고 자기 개선적인 지식 기반으로 전환합니다. 원본 소스는 전용 디렉터리에 축적되며, LLM은 이를 점진적으로 "컴파일"하여 요약을 생성하고, 콘텐츠를 개념으로 분류하며, 연결된 문서를 작성하고 역링크를 설정합니다.

유사한 개인 시스템들의 벤치마크에 따르면, 위키가 임계 질량에 도달하면 검색 오버헤드의 비례적 증가 없이 쿼리 복잡성이 극적으로 확장됩니다.

데이터 수집 및 컴파일 과정

파이프라인은 다음과 같은 타겟팅된 수집으로 시작합니다:

  • 소스 처리: 연구 논문, 기사, GitHub 리포지토리, 데이터셋, 이미지는 raw/에 저장됩니다. 웹 콘텐츠는 Obsidian Web Clipper를 통해 Markdown으로 변환되며, LLM이 직접 참조할 수 있도록 이미지는 로컬로 다운로드됩니다.
  • 점진적 컴파일: LLM은 처음에는 새 문서를 하나씩 처리한 후, 효율성을 위해 패턴 매칭을 사용합니다. "이 새 문서를 우리 위키에 파일로 저장하라"와 같은 지시는 분류, 요약 및 연결 작업을 트리거합니다.
  • 구조 생성: 결과 위키는 다음과 같은 특징을 갖습니다:
    • 문서별 요약
    • 개념 수준 문서
    • 양방향 역링크
    • 디렉터리 기반 구성

커뮤니티 피드백에 따르면 대규모 수집의 경우 배치 처리나 다단계 파이프라인이 디렉터리 결정을 개선하지만, Karpathy는 초기 단계의 품질을 위해 사람의 개입을 유지합니다.

Obsidian을 이상적인 프론트엔드로 활용하기

Obsidian은 시스템을 위한 최소한의 "통합 개발 환경(IDE)" 역할을 합니다:

  • 원본 소스, 컴파일된 위키, 시각화 자료를 동시에 볼 수 있습니다.
  • Marp와 같은 플러그인을 사용하면 LLM에서 생성된 마크다운에서 바로 슬라이드를 렌더링할 수 있습니다.
  • 그래프 뷰와 백링크 탐색은 자연스럽게 형성된 연결 관계를 보여줍니다.

전문가들은 Obsidian의 로컬 우선 마크다운 기반이 사용자 지정 도구를 지원하면서 벤더 종속성을 최소화한다고 지적합니다. VS Code와 마크다운 확장 기능 같은 대안도 있지만, Obsidian의 생태계는 시각적이고 상호작용적인 탐색을 가속화합니다.

커뮤니티 구현에는 분리 전략이 나타납니다: 생성된 콘텐츠로부터의 오염을 방지하기 위해, 고신호 개인 볼트와 에이전트용 "지저분한" 볼트를 함께 유지합니다.

고급 질의응답 및 출력 생성

규모가 확장되면 위키는 정교한 쿼리를 지원합니다:

  • LLM은 자체적으로 유지하는 색인과 요약을 활용하여 전체 코퍼스를 탐색합니다.
  • 약 40만 단어 수준에서는 컨텍스트 윈도우가 무거운 벡터 RAG 없이도 관련 클러스터를 효율적으로 처리합니다.
  • 출력은 필요에 따라 적응됩니다: 마크다운 보고서, Marp 슬라이드쇼, Matplotlib 그래프, 또는 심지어 인터랙티브 필터링 및 시각화를 위한 동적 HTML/JS까지.

생성된 아티팩트는 종종 위키로 다시 피드백되어, 탐색이 향후 쿼리를 향상시키는 복리 효과 루프를 만듭니다. Lex Fridman 등은 팟캐스트 연구나 임시 미니 위키를 통한 이동 중 음성 상호작용에 유사한 구성을 사용한다고 보고합니다.

LLM 기반 린팅 및 유지보수

주목할 만한 기능은 자동화된 "건강 검진"입니다:

  • 몇 주 간격으로 수집된 여러 소스 간의 일관되지 않은 주장을 감지합니다.
  • 웹 검색 도구를 사용하여 공백을 추정합니다.
  • 새로운 연결 관계와 후보 글을 식별합니다.
  • 커버리지를 심화시키기 위한 후속 질문을 제안합니다.

이는 위키를 정적 저장소에서 살아있는 연구 파트너로 전환합니다. 성장과 함께 부실 데이터의 위험이 증가하지만, 버전 관리 감사와 증분 업데이트는 일회성 수집보다 표류를 더 효과적으로 완화합니다.

떠오르는 도구와 미래 탐색

사용자들은 핵심 기능을 다음과 같은 방법으로 확장합니다:

  • LLM에 도구로 제공되는 맞춤형 CLI 또는 단순 검색 엔진.
  • 위키 지식을 모델 가중치에 임베딩하기 위해 합성 데이터 생성과 파인튜닝을 결합. : 단일 쿼리가 최종 보고 전에 완전한, 린팅된, 반복된 지식 기반을 생성하는 임시 위키 생성 - 단순 디코딩을 훨씬 뛰어넘음.

커뮤니티에서 공유되는 아키텍처 다이어그램은 수집부터 컴파일, 쿼리, 향상에 이르는 단계를 시각화합니다. 이를 개발자가 아닌 사람들을 위해 연결하는 제품은 명확한 기회를 나타내며, 모든 조직은 컴파일을 기다리는 비정형 "raw/" 데이터를 유지하고 있습니다.

기존 PKM(개인 지식 관리) 시스템과의 비교는 장점을 부각시킵니다: LLM 자동화는 활성 연구 분야에서 수작업 큐레이션을 80-90% 줄이는 반면, 백링크와 그래프는 인간이 놓칠 수 있는 통찰력을 표면화합니다.

도전 과제와 모범 사례

  • 규모 관리: 요약 내용이 오래될 수 있습니다; 최신 변경 사항과 감사를 우선시하세요.
  • 오염 제어: 에이전트 생성 콘텐츠는 검증 전까지 격리하세요.
  • 점진적 도입: 작게 시작하여 전체 자율성을 도입하기 전에 패턴이 나타나게 하세요.
  • 도구 단순성: AGENTS.md 스키마를 포함한 평면 Markdown 디렉터리로 충분합니다; 과도한 엔지니어링은 가치 실현을 지연시킵니다.

실행 가능한 통찰: 하나의 연구 주제로 시작하세요. 10-20개의 출처를 수집하고, LLM을 사용해 초기 위키를 컴파일하도록 요청한 후, 질의와 린팅을 반복하세요. 전통적인 검색/노트 작성 방식 대비 질의 깊이와 절약된 시간으로 가치를 측정하세요.

결론

안드레이 카파시의 LLM 기반 지식베이스 워크플로우는 연구자와 실무자가 정보와 상호작용하는 방식의 실용적인 진화를 나타냅니다. 컴파일, 유지보수, 통합을 능력 있는 모델에 위임하면서 Obsidian을 직관적인 상호작용을 위해 유지함으로써 사용자는 더 적은 마찰로 더 깊은 이해를 달성합니다.

이 접근법은 시간이 지남에 따라 누적됩니다: 모든 질의는 기반을 강화하고, 모든 린팅 과정은 무결성을 높입니다. 최첨단 모델이 발전함에 따라 자연어 질문에서 일시적인 위키 전체를 자동화하는 더 넓은 도구를 기대하세요.

오늘 최소 버전을 구현하세요—다음 연구 배치를 수집하고 LLM이 기반을 구축하게 하세요. 지식을 소비하는 것에서 적극적으로 육성하는 것으로의 전환은 에이전트 시대에 개인과 조직의 지능을 재정의할 수 있습니다.

작게 시작하고 끊임없이 반복하며, 당신의 개인 위키가 진정한 지적 승수로 진화하는 모습을 지켜보세요.

Share this article