AI4PKM FAQ
AI4PKM FAQ
질문 인덱스
기본 개념
- AI4PKM이 무엇인가요?
- PKM(Personal Knowledge Management)이란?
- 볼트(Vault)와 KB란?
- Gobi Desktop과 Orchestrator의 차이는?
- 소스 코드가 공개되어 있나요?
- 개발팀은 몇 명인가요?
CLI와 에이전트
- 어떤 CLI/에이전트를 지원하나요?
- 왜 여러 CLI를 지원하나요?
- 워커별로 다른 CLI를 지정할 수 있나요?
- Speech Conversation은 어떤 CLI가 필요한가요?
- Worker에서 Python/Bash 스크립트를 실행할 수 있나요?
- API 비용은 얼마나 드나요?
Gobi Desktop
- Gobi Desktop을 어디서 다운로드하나요?
- 어떤 버전을 사용해야 하나요?
- 기존 Obsidian 볼트에 적용할 수 있나요?
- 왼쪽 인디케이터(녹색/빨간색)가 뭔가요?
- New Vault 템플릿은 뭔가요?
Voice Mode
- Voice Mode의 Passive와 Active 차이는?
- Passive Mode만 쓰려면 API가 필요한가요?
- 한글 음성 인식 품질은 어떤가요?
- Claude 창에 음성으로 입력하는 방법은?
- 토큰 분리 구조는 어떻게 되나요?
- 퍼즈(일시정지) 기능이 있나요?
- 패시브 모드로 캔버스를 실시간 업데이트할 수 있나요?
- 보이스가 왜 중요한가요?
프롬프트와 워크플로우
- 주요 프롬프트는 무엇이 있나요?
- 프롬프트와 워크플로우의 차이는?
- orchestrator.yaml은 뭔가요?
- 스킬과 프롬프트의 차이는?
- 인덱싱은 어떻게 하나요?
- 컴파운딩 효과란?
- PDF 논문 처리 Worker는 어떻게 만드나요?
클리핑과 인제스트
- 웹 클리핑은 어떻게 하나요?
- 유튜브 영상을 요약할 수 있나요?
- EIC 프롬프트는 무엇을 하나요?
- 어떤 인제스트 소스를 지원하나요?
- 24시간 녹음은 어떻게 하나요?
- 트랜스크립션 품질이 안 좋아도 괜찮나요?
볼트 관리
모바일과 원격 접근
트러블슈팅
- 오케스트레이터가 실행되지 않아요
- 워커 스케줄링이 작동하지 않아요
- Windows에서 Obsidian 버튼이 안 눌려요
- 패시브 모드에서 업데이트가 안 돼요
- 에러 리포트는 어떻게 하나요?
기본 개념
AI4PKM이 무엇인가요?
AI4PKM은 AI for Personal Knowledge Management의 약자로, 개인 지식관리(PKM)를 AI로 자동화하는 오픈소스 프로젝트입니다. Obsidian을 기반으로 하며, Claude Code와 연동하여 컨텐츠 처리, 요약, 정리 등을 자동화합니다.
"제가 필요한 걸 그냥 만들 수 있는 프레임을 만드는 것이 목표입니다."
핵심 비전: AI를 서버가 아닌 내 워크스페이스로 불러오기 - ChatGPT처럼 AI 서버에 접속하는 것이 아니라, AI를 로컬 환경으로 가져와 개인 정보와 결합
PKM(Personal Knowledge Management)이란?
PKM은 개인 지식 관리의 약자로, 개인이 수집, 정리, 활용하는 모든 정보와 지식을 체계적으로 관리하는 실천입니다.
AI4PKM에서의 PKM 원칙:
- PKM은 사람과 AI 모두를 위한 것
- AI 생성 콘텐츠는 사람이 작성한 노트와 분리 보관
- 다양한 AI 도구로 처리 가능하도록 도구 중립적 접근
볼트(Vault)와 KB란?
- 볼트(Vault): Obsidian에서 사용하는 폴더 기반 지식 저장소
- KB (Knowledge Base): 개인 지식 베이스, 볼트와 동의어로 사용
AI4PKM 볼트 구조:
vault/
├── _Settings_/ # 설정 파일
│ ├── Prompts/ # AI 프롬프트
│ └── Templates/ # 마크다운 템플릿
├── AI/ # AI 생성 콘텐츠
├── Ingest/ # 입력 콘텐츠
├── Journal/ # 일일 저널
└── Projects/ # 프로젝트 노트
Gobi Desktop과 Orchestrator의 차이는?
- Orchestrator: 백엔드 자동화 엔진 (CLI 기반)
- Gobi Desktop: Orchestrator 위에 GUI를 입힌 프론트엔드 앱
| 구분 | Orchestrator | Gobi Desktop |
|---|---|---|
| 인터페이스 | CLI | GUI |
| 설치 | npm/pip | 앱 다운로드 |
| 용도 | 고급 사용자, 자동화 | 일반 사용자 |
| 개발자 | 진영님 | 민성님 |
소스 코드가 공개되어 있나요?
- Orchestrator: GitHub에 공개 (AI4PKM)
- Gobi Desktop: 오픈소스로 공개 예정
- Skills: GitHub에 공개 (claude-obsidian-skills)
개발팀은 몇 명인가요?
코어 개발자는 2명입니다:
- 진영님: Orchestrator 개발
- 민성님: Gobi Desktop 개발
생태계를 키우기 위해 오픈소스로 공개하고 커뮤니티 참여를 장려하고 있습니다.
CLI와 에이전트
어떤 CLI/에이전트를 지원하나요?
AI4PKM은 처음 설계부터 멀티 CLI를 지원합니다:
| CLI | 지원 상태 | 비고 |
|---|---|---|
| Claude Code | 완전 지원 | Speech Conversation 필수 |
| Gemini CLI | 지원 | EIC 등에 사용 가능 |
| Codex CLI | 지원 | - |
왜 여러 CLI를 지원하나요?
토큰 비용 분산과 용도별 최적화를 위해서입니다.
"많은 분들이 클로드 코드를 많이 쓰다 보면 부담일 수 있기 때문에 좀 분산할 수 있는 방법을 제공하려고 합니다."
역할 분담 예시:
- Gemini: 루틴한 작업 (EIC, 클리핑 처리)
- Claude: 창의적인 작업 (Speech Conversation, 분석)
워커별로 다른 CLI를 지정할 수 있나요?
네, orchestrator.yaml에서 워커별 executor를 설정할 수 있습니다.
agents:
EIC:
executor: gemini_cli
GDR:
executor: claude_code
Speech Conversation은 어떤 CLI가 필요한가요?
Claude Code만 지원됩니다. 음성 대화 기능은 Claude Code의 고급 기능을 활용하기 때문입니다.
Worker에서 Python/Bash 스크립트를 실행할 수 있나요?
네, 가능합니다.
방법 1: Worker 타입을 "Tool"로 설정
workers:
my_script:
type: tool
script: Tools/my_script.py
방법 2: 프롬프트 안에서 스크립트 호출
## Main Process
1. Run `python Tools/process.py`
2. ...
API 비용은 얼마나 드나요?
사용량에 따라 다르지만, 가성비 전략 예시:
"가성비 전략은 하나씩 다 20불짜리 그냥 하는 거예요. 20불짜리 기본 모드, 프로 모드 그냥 다 쓰고요."
5만원 이하 예산이라면:
- Claude 하나만 선택하고 나머지는 API로 사용
- Gemini CLI는 무료 티어 활용 가능
Gobi Desktop
Gobi Desktop을 어디서 다운로드하나요?
공식 다운로드 링크에서 받으실 수 있습니다:
- Mac ARM (Apple Silicon)
- Mac Intel
- Windows
어떤 버전을 사용해야 하나요?
| 버전 | 상태 | 권장 |
|---|---|---|
| 2.3 | 프로덕션 | 권장 |
| 3.0 | Experimental (Dev 모드) | 비권장 |
"3.0은 지금 민성님이 실험 중이신 거라서 현재 프로덕션은 2.3입니다."
기존 Obsidian 볼트에 적용할 수 있나요?
네, Gobi Desktop에서 기존 볼트를 열면 됩니다.
- 필요한 폴더(
_Settings_,Prompts등)가 자동 생성 - 기존 파일은 변경되지 않음
왼쪽 인디케이터(녹색/빨간색)가 뭔가요?
- 녹색: Orchestrator 실행 중
- 빨간색: Orchestrator 중지됨
싱크 이슈가 있을 수 있으며, 실제 상태와 다르게 표시되면 버그 리포트를 올려주세요.
New Vault 템플릿은 뭔가요?
Gobi Desktop에서 "New Vault" 생성 시 기본 템플릿이 적용됩니다:
- 기본 폴더 구조
- 필수 프롬프트
- 기본 설정 파일
향후 계획: 다양한 템플릿 추가 예정 (학생용, 2차 전직용, 어린이용)
Voice Mode
Voice Mode의 Passive와 Active 차이는?
| 모드 | 설명 | API 필요 |
|---|---|---|
| Passive Mode | AI가 듣기만 함. 녹음 → 자동 전사 → 히스토리 파일 생성 | 로컬만으로 가능 |
| Active Mode | AI와 양방향 대화. 음성 질문 → AI 음성 답변 | OpenAI API 필요 |
"패시브 모드는 그냥 듣는 거예요. 들으면 그걸 볼트에 저장할 거잖아요. 저장한 걸 가지고 뭔가 유용한 걸 할 수 있다는 거죠."
Passive Mode만 쓰려면 API가 필요한가요?
아니요, Passive Mode는 로컬 Whisper만으로 사용 가능합니다. 다만 한글 인식 품질이 다소 떨어질 수 있습니다.
한글 음성 인식 품질은 어떤가요?
- 로컬 Whisper: 한글 인식이 완벽하지 않음
- OpenAI API: 더 나은 품질
"패시브 모드에서는 완벽할 필요가 없다는 것이 진영님의 의견입니다 - 나중에 수정하면 되니까요."
Claude 창에 음성으로 입력하는 방법은?
Gobi Desktop의 Voice Mode가 아닌 Claude Code 입력창에 직접 음성으로 입력하고 싶다면 외부 딕테이션 앱을 사용합니다.
무료 옵션: Mac Whisper
- Mac 전용
- 로컬에서 Whisper 모델 실행
- Mac Whisper
유료 옵션: Super Whisper
- Mac + Windows 지원
- 더 빠른 처리와 추가 기능
- Super Whisper
시스템 딕테이션보다 Whisper 기반 앱이 한글 인식률이 더 높습니다.
토큰 분리 구조는 어떻게 되나요?
graph LR
A[사용자 음성] --> B[STT: 11Labs/로컬 Whisper]
B --> C[텍스트 녹취]
C --> D[처리: Claude Code 토큰]
D --> E[TTS: 11Labs]
E --> F[음성 응답]- STT (음성→텍스트): 11Labs API 또는 로컬 Whisper
- 처리/요약: Claude Code 토큰 소모
- TTS (텍스트→음성): 11Labs (한글 지원)
퍼즈(일시정지) 기능이 있나요?
별도 퍼즈 버튼은 없지만, 마이크를 끄면 퍼즈가 됩니다.
- 중간에 아이가 들어오거나 다른 대화를 해야 할 때 활용
- 컨텍스트 오염 방지
패시브 모드로 캔버스를 실시간 업데이트할 수 있나요?
네, 가능합니다. 패시브 모드를 켜고 클로드 코드에 "녹취록을 모니터링하면서 캔버스를 업데이트해줘"라고 요청하면 됩니다.
"혼자 AI로 브레인스토밍을 하고 있었어요. 패시브 모드를 켜놓으면 AI가 노트를 다 쌓잖아요. 제 생각을 다 아는 거예요. 그걸 가지고 클로드 코드한테 '이 생각을 바탕으로 캔버스를 만들어 줘'라고 하면 제 생각을 시각적으로 만들어줘요."
보이스가 왜 중요한가요?
뇌의 다른 부분이 활성화되어 더 창의적인 생각이 가능해집니다.
"보이스로 AI랑 대화할 때 채팅할 때랑 뇌의 다른 부분이 켜지는 느낌이 들어요. 훨씬 더 창의적인 생각을 많이 할 수 있게 됐고, 대역폭도 당연히 늘어났죠. AI를 기계처럼 대하는 게 아니라 동반자, 파트너처럼 대하기 시작했어요."
프롬프트와 워크플로우
주요 프롬프트는 무엇이 있나요?
| 프롬프트 | 약자 | 용도 |
|---|---|---|
| Enrich Ingested Content | EIC | 캡처한 콘텐츠 정리/요약 |
| Generate Daily Roundup | GDR | 일일 라운드업 생성 |
| Daily Ingestion and Roundup | DIR | 일일 인제스트 + 라운드업 |
| Passive Brainstorm Canvas | PBC | 패시브 모드 캔버스 |
| Real-time Voice Assistant | RVA | 실시간 음성 어시스턴트 |
| Topic Index Update | TIU | 토픽 인덱스 업데이트 |
프롬프트와 워크플로우의 차이는?
- 프롬프트: 개별 작업 단위 (구성 요소)
- 워크플로우: 프롬프트들의 조합
"개별 프롬프트들이 구성 요소이고, 이 구성 요소를 조합해서 돌리는 게 워크플로우예요. 다 자연어고 조합하는 것도 자연어니까, 자연어가 워크플로우 정의를 대체한 거죠."
orchestrator.yaml은 뭔가요?
에이전트 라우팅과 자동화 설정 파일입니다.
agents:
EIC:
input_path: Ingest/Clippings
input_type: new_file
output_path: AI/Articles
executor: gemini_cli
GDR:
input_path:
- AI/Articles
- Journal
input_type: daily_file
output_path: AI/Roundup
executor: claude_code
트리거 조건:
| input_type | 트리거 | 용도 |
|---|---|---|
| new_file | 파일 생성 시 | 클리핑 처리 |
| daily_file | 하루 단위 | 데일리 라운드업 |
| updated_file | 파일 수정 시 | 노트 업데이트 |
| manual | 수동 실행 | 애드혹 리서치 |
스킬과 프롬프트의 차이는?
- 프롬프트: 전체 워크플로우 정의
- 스킬: 재사용 가능한 작은 기능 모듈
"스킬의 장점은 컨텍스트 세이빙이죠. 매번 클로드 코드의 전체 설정을 로딩할 필요가 없으니까요."
스킬은 Claude Code 전용이고, 다른 AI에는 AGENTS.md를 활용합니다.
인덱싱은 어떻게 하나요?
두 가지 인덱싱을 활용합니다:
-
시간 기반 (에피소딕 메모리)
- Daily/Weekly Roundup
- 특정 기간의 정보 조회
-
토픽 기반 (시맨틱 인덱싱)
- Topic Index
- 매일 밤 AI가 토픽별로 경험/학습 내용 추가
"스마트 커넥션스 플러그인도 있는데 지금은 안 써요. 그거 안 써도 클로드 코드가 꽤 잘 찾거든요."
컴파운딩 효과란?
스킬과 프롬프트가 쌓이면 점점 덜 손대도 좋은 결과가 나오는 선순환입니다.
"AI를 더 많이 쓰면서 스킬도 더 쌓고, PKM에 모든 게 다 들어 있으니까 컨텍스트가 계속 늘어나요. 점점 덜 손대도 더 좋은 결과물을 낼 수 있는 선순환의 고리를 만들고 싶었는데, 지금 한 단계씩 다가가고 있어요."
PDF 논문 처리 Worker는 어떻게 만드나요?
PDF 파일을 자동으로 처리하는 Worker를 만들려면 Anthropic의 PDF Skill을 참고합니다.
구성 요소:
- Skill 파일: PDF 읽기/파싱 로직
- Worker 설정: orchestrator.yaml에 트리거 조건 정의
- 프롬프트: 논문 요약/분석 지시
참고 자료:
Worker를 만들면 Ingest/Papers/ 폴더에 PDF를 넣을 때마다 자동으로 요약이 생성됩니다.
클리핑과 인제스트
웹 클리핑은 어떻게 하나요?
Obsidian Web Clipper를 사용합니다.
- 브라우저에 Web Clipper 확장 설치
- 웹페이지에서 클리핑 버튼 클릭
Ingest/Clippings/폴더에 저장- EIC 워커가 자동으로 처리
유튜브 영상을 요약할 수 있나요?
두 가지 방법이 있습니다:
방법 1: Readwise 연동
- 유튜브 URL을 Readwise에 저장
- 트랜스크립트가 Obsidian으로 자동 동기화
- Readwise 공식 사이트
방법 2: YouTube Transcript Skill
- AI4PKM 스킬로 직접 트랜스크립트 다운로드
- 요약 프롬프트 실행
- YouTube Transcript Skill Gist
EIC 프롬프트는 무엇을 하나요?
Enrich Ingested Content - 캡처한 콘텐츠를 정리합니다:
- 문법 및 트랜스크립트 오류 수정
- 구조화된 헤딩 추가
- 공유용 요약 생성
- 관련 토픽 링크 추가
어떤 인제스트 소스를 지원하나요?
| 소스 | 방법 | 폴더 |
|---|---|---|
| 웹페이지 | Web Clipper | Ingest/Clippings |
| 유튜브 | Readwise/Skill | Ingest/Clippings |
| 녹음/대화 | Limitless/Omi | Ingest/Limitless |
| 사진 | 자동 가져오기 | Ingest/Photolog |
| 논문 | Paper Pile | Ingest/Papers |
24시간 녹음은 어떻게 하나요?
Limitless 또는 Omi를 사용합니다.
"올해 중반부터 리밋리스 핀을 차고 있어서 대화가 다 캡처됩니다. 대부분 쓸데없는 내용이지만요."
주의: Limitless는 미국에서만 사용 가능, 서비스 종료 예정. Omi는 한국에서 사용 가능.
트랜스크립션 품질이 안 좋아도 괜찮나요?
네, 원본 데이터의 품질은 크게 중요하지 않습니다.
"완벽하게 정리하려 하지 말고 일단 쌓아라. AI가 나중에 정리해준다."
"핵심 문장 몇 개면 되는 건데, 이 정도 레벨의 요약은 AI가 노이지한 트랜스크립트로 충분히 할 수 있어요."
볼트 관리
멀티 볼트를 어떻게 관리하나요?
VAULTS.md 파일을 활용합니다.
설정 방법:
- main-vault에
VAULTS.md파일 생성 - 사용하는 모든 볼트 경로 등록
- AGENTS.md에 "VAULTS.md를 참조하라" 명시
# VAULTS.md
## 볼트 목록
- OVM: /Users/me/Vaults/OVM (메인)
- OV2024: /Users/me/Vaults/OV2024 (아카이브)
- AI4PKM Team: /Users/me/Vaults/AI4PKM
- CV2601: /Users/me/Vaults/CV2601 (커뮤니티)
"저는 main-vault에 VAULTS.md를 만들어서 사용하는 모든 볼트를 등록해 놨어요."
참조 자료:
- VAULTS.md 템플릿 Repo
- 커뮤니티 볼트(CV2601) 연동을 통해 다른 사용자와 프롬프트/스킬 공유 가능
멀티 볼트 검색은 어떻게 하나요?
자연어로 요청합니다:
- "다른 볼트도 같이 뒤져줘"
- "OV2024 같이 뒤져줘"
아직 수동으로 지정이 필요하며, 자동화 개선 예정입니다.
커뮤니티 볼트와 개인 볼트를 어떻게 연동하나요?
커뮤니티 프롬프트 3종을 활용합니다:
| 프롬프트 | 방향 | 용도 |
|---|---|---|
| CPU | 개인→커뮤니티 | 공유할 업데이트 푸시 |
| Pull | 커뮤니티→개인 | 최신 업데이트 가져오기 |
| Community Question | 양방향 | 커뮤니티에 질문하기 |
클로드 코드로 볼트 검색이 편해지나요?
네, 클로드 코드를 사용하면 볼트 관리가 훨씬 편해집니다.
"볼트 관리가 어려울 거라고 생각했는데, 클로드 코드를 사용하니까 검색이 편해요. OVM에서 검색하면 볼트 리스트를 다 갖고 있기 때문에, 기본 볼트에서 찾거나 '익스텐드 서치 해달라'고 하면 다른 볼트까지 뒤지는 거죠."
모바일과 원격 접근
모바일에서 AI4PKM을 사용할 수 있나요?
직접 앱은 아직 없지만, VPN 설정을 통해 원격으로 접근할 수 있습니다.
"모바일은 로드맵에만 있습니다."
현재 가능한 방법:
- SSH로 집 컴퓨터에 접속
- 터미널 앱으로 Claude Code 조작
원격으로 집 컴퓨터에 접근하려면?
로컬 VPN을 설정합니다.
방법:
- 집 컴퓨터에 VPN 서버 설정
- 모바일에서 VPN 연결
- 터미널 앱으로 집 컴퓨터 SSH 접속
- Claude Code 명령 실행
"로컬 VPN으로 설정하면 그 장비에서만 돌아가니까 보안도 괜찮아요."
아이패드에서 집 맥스튜디오를 제어할 수 있나요?
네, 가능합니다.
구성 예시:
- 집 맥스튜디오에 Gobi Desktop 실행
- 아이패드에서 SSH 접속
- 음성 입력은 아이패드에서
- 처리는 맥스튜디오에서
"집에 있는 맥스튜디오에다가 고비를 켜 놓고 아이패드로 걔를 컨트롤해서 거기다가 보이스 인풋을 넣는 것들을 해 보려고 하거든요."
모바일 앱 출시 계획이 있나요?
로드맵에 있지만, 현재 개발자가 2명이라 우선순위가 낮습니다.
- 우선 데스크탑 안정화
- 모바일은 VPN 방식으로 대체
트러블슈팅
오케스트레이터가 실행되지 않아요
확인 사항:
- Gobi Desktop에서 녹색 인디케이터 확인
- 앱을 껐다 다시 켜보기
_Settings_/Logs/폴더에서 에러 로그 확인
워커 스케줄링이 작동하지 않아요
확인 사항:
- 오케스트레이터 실행 확인
- 로그 확인:
_Settings_/Logs/폴더 - 프롬프트 경로: 아웃풋 파일 경로가 하드코딩되어 있으면 제거
- 트리거 조건: input_path와 실제 파일 위치 일치 여부
Windows에서 Obsidian 버튼이 안 눌려요
알려진 이슈입니다.
- 임시 해결: Obsidian을 먼저 열어놓고 시도
- 영구 해결: GitHub 이슈 리포트 후 수정 대기
패시브 모드에서 업데이트가 안 돼요
확인 사항:
- fswatch 설치 확인 (Windows)
- 클로드 vs 고비: 어느 쪽 문제인지 파악 필요
- 로그 확인: 에러 메시지 확인
"모든 분들에게 다 된다고 보장할 수 있는 단계는 아직 아닙니다."
에러 리포트는 어떻게 하나요?
디스코드에 다음 정보와 함께 공유:
- 에러 발생 상황 설명
- 사용 환경 (OS, Gobi 버전)
- 에러 로그 스크린샷/텍스트
- 재현 방법
유용한 디버깅 팁:
- 로그 확인:
_Settings_/Logs/폴더 - 앱 재시작: 많은 문제가 재시작으로 해결
- 최신 버전 확인: 2.3 프로덕션 버전 사용
- 경로 확인: 한글/공백/특수문자 문제
참조
- README
- Settings/Guidelines/PKM Guidelines
- GitHub Issues
- 커맨드스페이스 디스코드