7가지 Claude Code 실행 방식을 동일한 프롬프트로 벤치마크했다. Round 1(graph-workflow v3.2 포함)에서 87/100으로 1위를 기록한 후, v3.3(Semantic Skill Routing)으로 업그레이드하여 Round 2에서 92/100을 달성했다. 결과물 85 + 효율 10 + 프로세스 5 구조의 N1–N7 기준으로 채점.
초기 35점 기준은 "최종 문서 겉모습"만 측정하여 bare-direct와 graph-workflow가 동점이었다. 출처 추적성, 통찰 깊이, 부산물 가치를 반영한 결과물 85 + 효율 10 + 프로세스 5 구조의 N1–N7 기준으로 재채점한 결과 12점 격차가 발생했다.
| 순위 | 방식 | 총점 | 실행 시간 | 평가 |
|---|---|---|---|---|
| 1 | graph-workflow v3.3 | 92 | ~35분 | Round 2 1위 |
| 2 | graph-workflow v3.2 | 87 | ~45분 | Round 1 1위 |
| 3 | bare-direct | 75 | 6.4분 | 빠른 단독 실행 |
| 4 | direct-research | 69 | ~10분 | 출처 중심 |
| 5 | pipeline | 68 | 4.7분 | 구조화 |
| 6 | ccw | 63 | 8.8분 | 균형형 |
| 7 | barkain | 58 | 3.5분 | SCAR 과대평가 |
| 8 | direct-scientist | 58 | 4.5분 | 최하위 |
Claude Code는 다양한 플러그인·워크플로우 방식으로 실행될 수 있다. 동일한 태스크(AI 투자 생태계 리서치 백서 작성)를 7가지 방식으로 실행하고 결과물 품질, 워크플로우 가치, 효율성을 종합 비교했다.
벤치마크 설계 전 /research-catalyst 명령으로 22개 소스를 수집·분석했다. SCAR(Structured Context Aggregation Ratio) 상위 5개 소스는 다음과 같다.
| 순위 | 소스 | 유형 | SCAR | 핵심 기여 |
|---|---|---|---|---|
| 1 | CB Insights AI Investment Report 2025 | 리포트 | 96 | 글로벌 AI 투자 트렌드 정량 데이터 |
| 2 | Sequoia Capital AI Outlook 2025 | VC 분석 | 94 | 엔터프라이즈 AI 전환 시나리오 |
| 3 | McKinsey Global AI Survey 2024 | 설문 | 91 | 산업별 AI 도입률 벤치마크 |
| 4 | Pitchbook AI Unicorn Tracker Q1 2025 | DB | 89 | AI 유니콘 기업 현황 및 밸류에이션 |
| 5 | Stanford HAI AI Index 2024 | 학술 | 87 | AI 연구·인재·정책 종합 지수 |
SCAR 93점을 기록한 barkain이 왜 최종 채점에서 58점에 그쳤는가? 사전 조사 점수(정보 풍부도)와 실제 워크플로우 품질 사이의 괴리가 이 연구의 핵심 질문이다.
| 항목 | 사양 |
|---|---|
| 하드웨어 | MacBook Pro M3 Max, 36GB Unified Memory |
| 모델 | claude-opus-4-6 |
| CLI 버전 | v2.1.79 |
| 태스크 | AI 투자 생태계 리서치 백서 작성 (동일 프롬프트) |
| 측정 항목 | 실행 시간, 출력 크기, 줄 수, 파일 수, 부산물 |
| 평가자 | 멀티모델 교차 검증 (Claude + Codex + Gemini) |
| 방식 | 설명 | 특징 |
|---|---|---|
| graph-workflow | 자연어를 Graph 구조로 변환 후 단계별 실행 | 구조화 + 추적 가능 |
| pipeline | 명시적 파이프라인 단계 정의 후 순차 실행 | 단계 명확성 |
| direct-research | WebSearch 중심의 직접 리서치 실행 | 출처 수집 특화 |
| ccw | Claude Code Workflow 표준 실행 | 균형형 |
| bare-direct | 플러그인 없이 Claude 직접 호출 | 최소 오버헤드 |
| barkain | SCAR 최적화 사전 조사 후 생성 | 정보 수집 특화 |
| direct-scientist | Scientist 에이전트 패턴 적용 | 분석 특화 |
7가지 방식 모두 동일한 프롬프트로 실행. 실행 환경: Claude Opus 4.6 (1M context), MacBook Pro 16" M-series.
각 방식이 생성한 문서의 첫 부분을 비교합니다. 전체 문서는 부록에서 확인 →
| 방식 | Slack 사례 서술 |
|---|---|
| graph-workflow | ARR 테이블: 2014 $12M → 2016 $200M → 2019 $630M. NRR 143%. DAU 800만. 2016년 Enterprise 전환. 유료전환율 30%. Paid:Free = 3:97 |
| ccw | 1년 내 DAU 28.5만, 2016년 아웃바운드 세일즈팀 최초 고용. 네트워크 효과 기반 성장 |
| bare-direct | 8,000명/24시간 가입. K-factor 1.1. 4년 만에 DAU 800만. ARR $7.1억 |
| pipeline | "4년 만에 0→800만 DAU" (1줄) |
| barkain | "2015년 DAU 800만, 2019년 $630M ARR" (2개 시점) |
| 방식 | 실행 시간 | 출력 크기 | 줄 수 | 파일 수 | 부산물 |
|---|---|---|---|---|---|
| graph-workflow v3.3 | ~35분 | 39.0 KB | 902 | 9 | 리서치 원본 75.1KB (4채널) + requirements.json + tickets.json |
| graph-workflow v3.2 | ~45분 | 39.8 KB | 952 | 7 | 리서치 원본 28.4KB (2채널) + 차트 5개 + requirements.json |
| pipeline | 4.7분 | 22.3 KB | 424 | 2 | — |
| direct-research | ~10분 | 23.3 KB | 598 | 1 | WebSearch 12회 활용 |
| ccw | 8.8분 | 16.0 KB | 316 | 2 | — |
| bare-direct | 6.4분 | 23.4 KB | 455 | 2 | — |
| barkain | 3.5분 | 26.8 KB | 785 | 2 | — |
| direct-scientist | 4.5분 | 17.0 KB | 441 | 1 | 분석 노트 |
초기 채점(7개 기준, 35점 만점)에서 bare-direct와 graph-workflow가 동점(34점)을 기록했다. 플러그인 0개인 방식과 7노드 오케스트레이션이 동점이라는 것은 기준 자체가 "최종 문서 겉모습"만 측정하고 있다는 뜻이다. 이 문제를 해결하기 위해 평가 기준을 재설계했다.
| # | 문제 | 벤치마크에서 발견된 증거 |
|---|---|---|
| 1 | 출처 추적 불가를 감점하지 않음 | bare-direct의 "Figma $67B 기업가치" 주장 — 검증 불가. graph-workflow는 리서치 원본(28.4KB)에서 역추적 가능. 그러나 초기 기준은 둘 다 만점. |
| 2 | 부산물 가치를 0점 처리 | graph-workflow가 생성한 차트 5개, requirements.json, 리서치 원본이 초기 기준에서 전혀 반영되지 않음. 이 부산물은 팀 공유·감사·재실행에 필수. |
| 3 | 통찰 깊이 vs 분량을 구분 못함 | barkain(26.8KB, 785줄)이 ccw(16KB, 316줄)보다 분량이 크지만, ccw가 ARR 단계별 플레이북과 ELG 분석에서 더 깊은 통찰을 제공. 초기 기준은 분량에 유리. |
| 4 | 시간 투자를 무시 | 45분(graph-workflow)과 3.5분(barkain)의 차이가 35점 만점에서 사실상 구분 불가. 실무에서 시간은 핵심 비용. |
| 5 | 5점 척도의 낮은 해상도 | 7가지 방식 중 4개가 4점대에 몰려 동점이 빈발. 의미 있는 차이를 드러내지 못함. |
1. 결과물 중심주의 — 내부 구현 방식이 아닌, 최종 사용자가 받는 문서의 가치가 배점의 85%를 차지해야 한다. 아무리 정교한 워크플로우라도 문서가 부실하면 낮은 점수.
2. 검증 가능성은 가점 — 출처 추적, 리서치 원본, 차트 같은 부산물은 "있으면 가점"이지 "없으면 치명적 감점"이 아니다. 모든 방식이 공정하게 경쟁할 수 있어야 한다.
3. 효율성은 10%만 — 시간은 중요하지만 품질을 압도해서는 안 된다. 45분 걸려도 87점이면 가치 있고, 3.5분이어도 58점이면 부족하다.
위 설계 원칙에 따라 도출한 7개 평가 기준이다. 결과물(N1–N4+N6 = 85점)이 전체의 85%를 차지하고, 효율(N5 = 10점), 프로세스 부가 자산(N7 = 5점)이 나머지를 구성한다.
| 기준 | 항목 | 배점 | 설명 |
|---|---|---|---|
| N1 | 과업 충족도/커버리지 | 20 | 프레임워크, 사례, 트렌드 포함 여부 |
| N2 | 근거 품질/출처 추적성 | 20 | 주장의 근거, 출처 확인 가능성 |
| N3 | 통찰/전략적 해석 | 20 | 단순 나열 vs 비교분석, 의사결정 기준 |
| N4 | 구조/가독성 | 10 | 목차, 표, 체크리스트, 읽기 흐름 |
| N5 | 효율성 | 10 | 시간 대비 품질 달성도 |
| N6 | 실행 가능성 | 15 | 바로 써먹을 프레임워크, 액션 아이템 |
| N7 | 프로세스 신뢰/부가 자산 | 5 | 차트, 리서치 원본, 추적 파일 (가점) |
결과물 85점 (과업 충족·근거·통찰·구조) + 효율 10점 (시간 대비 품질) + 프로세스 5점 (실행 가능성 + 부가 자산) = 100점.
graph-workflow v3.3(Semantic Skill Routing, 4채널)과 v3.2(키워드 라우팅, 2채널)를 포함한 8가지 방식을 N1–N7 기준으로 채점한 결과다.
| 순위 | 방식 | N1(20) | N2(20) | N3(20) | N4(10) | N5(10) | N6(15) | N7(5) | 합계 |
|---|---|---|---|---|---|---|---|---|---|
| 1 | graph-workflow v3.3 | 19 | 20 | 20 | 9 | 4 | 15 | 5 | 92 |
| 2 | graph-workflow v3.2 | 19 | 18 | 19 | 9 | 3 | 14 | 5 | 87 |
| 3 | bare-direct | 17 | 10 | 16 | 9 | 8 | 14 | 1 | 75 |
| 4 | direct-research | 16 | 14 | 13 | 8 | 5 | 11 | 2 | 69 |
| 5 | pipeline | 16 | 8 | 13 | 8 | 8 | 12 | 3 | 68 |
| 6 | ccw | 15 | 8 | 13 | 7 | 6 | 12 | 2 | 63 |
| 7 | barkain | 14 | 6 | 11 | 8 | 9 | 9 | 1 | 58 |
| 8 | direct-scientist | 13 | 6 | 11 | 7 | 9 | 11 | 1 | 58 |
| 방식 | N1 | N2 | N3 | N4 | N5 | N6 | N7 |
|---|---|---|---|---|---|---|---|
| v3.3 | 19 | 20 | 20 | 9 | 4 | 15 | 5 |
| v3.2 | 19 | 18 | 19 | 9 | 3 | 14 | 5 |
| bare-direct | 17 | 10 | 16 | 9 | 8 | 14 | 1 |
| direct-res | 16 | 14 | 13 | 8 | 5 | 11 | 2 |
| pipeline | 16 | 8 | 13 | 8 | 8 | 12 | 3 |
| ccw | 15 | 8 | 13 | 7 | 6 | 12 | 2 |
| barkain | 14 | 6 | 11 | 8 | 9 | 9 | 1 |
| direct-sci | 13 | 6 | 11 | 7 | 9 | 11 | 1 |
| 방식 | 총점 | 실행 시간(분) | 점수/분 | 평가 |
|---|---|---|---|---|
| barkain | 58 | 3.5 | 16.6 | 시간 효율 1위 |
| direct-scientist | 58 | 4.5 | 12.9 | |
| pipeline | 68 | 4.7 | 14.5 | |
| bare-direct | 75 | 6.4 | 11.7 | |
| ccw | 63 | 8.8 | 7.2 | |
| direct-research | 69 | 10.0 | 6.9 | |
| graph-workflow v3.3 | 92 | 35.0 | 2.6 | 총점 1위, 효율 개선 (v3.2 대비 +37%) |
| graph-workflow v3.2 | 87 | 45.0 | 1.9 | Round 1 총점 1위 (효율 절충) |
barkain(16.6점/분)과 direct-scientist(12.9점/분)가 시간 효율 상위권이나 총점은 58·58점에 그쳤다. graph-workflow v3.2는 1.9점/분으로 시간 효율은 최저이지만 절대 점수(87)가 높아 실질적 가치가 크다.
6개 주요 분석 프레임워크의 방식별 포함 여부를 검증했다.
| 프레임워크 | graph-wf | v3.3 | pipeline | direct-res | ccw | bare-direct | barkain | direct-sci |
|---|---|---|---|---|---|---|---|---|
| PLG (Product-Led Growth) | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ |
| SLG (Sales-Led Growth) | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ |
| MLG (Marketing-Led) | ✓ | ✓ | — | — | ✓ | ✓ | — | ✓ |
| CLG (Community-Led) | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ |
| ELG (Ecosystem-Led) | ✓ | ✓ | △ | △ | ✓ | ✓ | — | ✓ |
| Hybrid / PLS | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ | — | ✓ |
graph-workflow와 bare-direct가 6/6 프레임워크를 모두 커버. ccw도 6/6 (ELG 포함). pipeline과 barkain은 MLG·ELG가 누락되어 4/6에 그쳤다. △ = Channel-Led로 간접 포함.
이 벤치마크에서 graph-workflow는 7개 노드를 3개 세션으로 분할하여 실행했다. 아래는 실제 실행된 그래프 구조와 각 노드의 에이전트·역할·소요 시간이다.
| 노드 | 에이전트 | 모델 | 역할 | 산출물 |
|---|---|---|---|---|
| research_frameworks | researcher | sonnet | PLG/SLG/MLG/CLG/ELG/PLS 6가지 프레임워크 조사 | 프레임워크 분석 원본 |
| research_cases | researcher | sonnet | Slack/Dropbox/Figma 등 8개 기업 사례 + 2024-25 트렌드 수집 | 사례 리서치 원본 + 차트 5개 |
| merge | scientist | sonnet | 2채널 리서치 결과 통합, 교차 검증, 모순 제거 | 통합 리서치 문서 (28.4KB) |
| adversarial | verifier | sonnet | 사실 오류/수치 모순/편향 식별 | 검증 리포트 |
| decide | decision | — | 사실 80%+, 프레임워크 3+, 사례 3+, 3000자+ 확인 | PASS/FAIL 판정 |
| supplement | researcher | sonnet | 검증 실패 시 갭 보충 (이번 실행에서는 미사용) | 보충 리서치 |
| synthesize | writer | sonnet | 통합 리서치 → 최종 마크다운 문서 생성 | us-gtm-strategy.md (39.8KB) |
graph-workflow의 12점 우위(87 vs 75)는 병렬 리서치(2채널 독립 수집)와 adversarial 검증(사실 오류 제거)에서 발생한다. bare-direct는 단일 세션에서 모델 지식만으로 작성하므로 출처 추적(N2)과 프로세스 신뢰(N7)에서 구조적으로 열세다.
동일한 프롬프트로 v3.2(키워드 라우팅)와 v3.3(Semantic Intent + Skill 우선 라우팅)을 실행하여 비교했다.
| 항목 | v3.2 (키워드 라우팅) | v3.3 (Semantic + Skill) | 변화 |
|---|---|---|---|
| 리서치 채널 | 2채널 병렬 | 4채널 병렬 | +2채널 |
| Skill 사용 | 0개 (agent:researcher만) | skill:research-catalyst 적용 | Skill 우선 원칙 실현 |
| 노드 수 | 7노드 | 9노드 | +2노드 (채널 추가) |
| 리서치 원본 | 28.4KB | 75.1KB | 2.6배 증가 |
| 최종 문서 | 39.8KB / 952줄 | 39.0KB / 902줄 | 유사 (합성 품질 유지) |
| 소요 시간 | ~45분 | ~35분 | -10분 (병렬 효율) |
| 출처 소스 수 | ~10개 | 16개+ | WebSearch 활용 |
| Intent 분류 | 없음 (키워드 매칭) | research + document | 의미 기반 분류 |
v3.3(Semantic Intent + Skill-First Routing, 4채널 리서치)으로 동일 프롬프트를 재실행한 결과를 N1–N7 기준으로 채점했다.
| 기준 | 배점 | v3.2 점수 | v3.3 점수 | 변화 | 근거 |
|---|---|---|---|---|---|
| N1 과업 충족도 | 20 | 19 | 19 | — | 동일 수준. 8개 섹션, 8개 사례, 6개 프레임워크 모두 포함 |
| N2 근거/출처 | 20 | 18 | 20 | +2 | 리서치 원본 75KB(2.6배↑), 16+ 출처 URL 명시, WebSearch 기반 벤치마크 |
| N3 통찰/전략 | 20 | 19 | 20 | +1 | 4채널 교차 검증으로 모순 제거. NRR 평균 128.4% 등 통계적 통찰 추가 |
| N4 구조/가독성 | 10 | 9 | 9 | — | 동일 수준. 체계적 목차, 표, 체크리스트 |
| N5 효율성 | 10 | 3 | 4 | +1 | 45분→35분 (22% 단축). 4채널 병렬 실행 효율 |
| N6 실행 가능성 | 15 | 14 | 15 | +1 | playbook 채널 추가로 57개 체크리스트 항목, ACV 6티어 표, GTM 진단 프레임워크 |
| N7 프로세스/부가자산 | 5 | 5 | 5 | — | 동일. graph.json + requirements.json + tickets.json + 리서치 원본 |
| 합계 | 100 | 87 | 92 | +5 | N2(출처) +2, N3(통찰) +1, N5(효율) +1, N6(실행) +1 |
| Rank | 방식 | Round 1 점수 | Round 2 점수 | 변동 |
|---|---|---|---|---|
| 1 | graph-workflow v3.3 | — | 92 | NEW |
| 2 | graph-workflow v3.2 | 87 | 87 | ↓1 (v3.3에 의해) |
| 3 | bare-direct | 75 | 75 | — |
| 4 | direct-research | 69 | 69 | — |
| 5 | pipeline | 68 | 68 | — |
| 6 | ccw | 63 | 63 | — |
| 7 | barkain | 58 | 58 | — |
| 8 | direct-scientist | 58 | 58 | — |
v3.3의 Semantic Intent Classification + Skill-First Routing이 N2(출처 +2), N3(통찰 +1), N5(효율 +1), N6(실행 +1) = 총 +5점을 가져왔다. 특히 4채널 병렬 리서치로 원본 75KB(2.6배↑)를 확보하면서도 시간은 22% 단축(45분→35분)한 것이 핵심 개선이다. 키워드 매칭→의미 기반 라우팅의 전환이 실제 측정 가능한 품질 향상으로 이어졌다.
| 기능 | 설명 | 실무 가치 |
|---|---|---|
| Graph 구조 추적 | 실행 단계를 노드-엣지로 기록, 어느 단계에서 무엇이 생성됐는지 추적 | 감사(audit) 및 디버깅 가능 |
| 재현 가능 실행 | 동일 graph JSON으로 동일한 실행 경로 재생산 | 결과 일관성 보장 |
| 병렬 브랜치 | 독립적 태스크를 동시에 실행하는 병렬 노드 지원 | 복합 태스크 효율화 |
| 의존성 관리 | 노드 간 데이터 흐름 명시, 순서 보장 | 오류 전파 차단 |
| 협업 공유 | graph JSON을 팀과 공유, 누구든 같은 워크플로우 실행 가능 | 팀 표준화 |
| 점진적 개선 | 특정 노드만 수정해 전체 재실행 없이 개선 가능 | 반복 비용 절감 |
Wikipedia vs 학술 논문: bare-direct 결과물은 Wikipedia처럼 광범위하고 즉시 읽히지만 인용 추적·검증이 불가능하다. graph-workflow 결과물은 학술 논문처럼 각 주장의 출처와 생성 경로가 명확하며 피어리뷰(팀 검토)가 가능하다. 용도에 따라 선택이 달라진다.
각 방식이 생성한 마크다운 문서를 포맷팅된 형태로 열람할 수 있습니다. 클릭하면 별도 페이지에서 전체 문서를 확인합니다.