Technical Whitepaper · BRND Agency · 2026-03-20
Claude Code Graph Plugin 벤치마크
7가지 실행 방식의 품질·효율·신뢰성 실증 비교
92
graph-workflow v3.3
9노드 · Skill Routing · ~35분
75
bare-direct
순수 claude -p · 6.4분
68
pipeline
외부 플러그인 · 4.7분
69
direct-research
WebSearch · ~10분
63
ccw
37 skill · 8.8분
58
barkain · direct-sci
3.5분 · 4.5분
발행일 2026-03-20
작성기관 BRND Agency
평가 방식 수 7가지
평가 기준 N1–N7 · 100점
모델 claude-opus-4-6
Executive Summary

핵심 요약

7가지 Claude Code 실행 방식을 동일한 프롬프트로 벤치마크했다. Round 1(graph-workflow v3.2 포함)에서 87/100으로 1위를 기록한 후, v3.3(Semantic Skill Routing)으로 업그레이드하여 Round 2에서 92/100을 달성했다. 결과물 85 + 효율 10 + 프로세스 5 구조의 N1–N7 기준으로 채점.

92/100
graph-workflow v3.3
Round 2 최고점
87/100
graph-workflow v3.2
Round 1 최고점
5
v3.3 vs v3.2 격차
(Skill Routing 효과)
3 AI
멀티모델 검증
Claude · Codex · Gemini

초기 35점 기준은 "최종 문서 겉모습"만 측정하여 bare-direct와 graph-workflow가 동점이었다. 출처 추적성, 통찰 깊이, 부산물 가치를 반영한 결과물 85 + 효율 10 + 프로세스 5 구조의 N1–N7 기준으로 재채점한 결과 12점 격차가 발생했다.

순위 요약

순위 방식 총점 실행 시간 평가
1 graph-workflow v3.3 92 ~35분 Round 2 1위
2 graph-workflow v3.2 87 ~45분 Round 1 1위
3 bare-direct 75 6.4분 빠른 단독 실행
4 direct-research 69 ~10분 출처 중심
5 pipeline 68 4.7분 구조화
6 ccw 63 8.8분 균형형
7 barkain 58 3.5분 SCAR 과대평가
8 direct-scientist 58 4.5분 최하위
Section 01

연구 배경

Claude Code는 다양한 플러그인·워크플로우 방식으로 실행될 수 있다. 동일한 태스크(AI 투자 생태계 리서치 백서 작성)를 7가지 방식으로 실행하고 결과물 품질, 워크플로우 가치, 효율성을 종합 비교했다.

/research-catalyst 사전 조사

벤치마크 설계 전 /research-catalyst 명령으로 22개 소스를 수집·분석했다. SCAR(Structured Context Aggregation Ratio) 상위 5개 소스는 다음과 같다.

순위 소스 유형 SCAR 핵심 기여
1 CB Insights AI Investment Report 2025 리포트 96 글로벌 AI 투자 트렌드 정량 데이터
2 Sequoia Capital AI Outlook 2025 VC 분석 94 엔터프라이즈 AI 전환 시나리오
3 McKinsey Global AI Survey 2024 설문 91 산업별 AI 도입률 벤치마크
4 Pitchbook AI Unicorn Tracker Q1 2025 DB 89 AI 유니콘 기업 현황 및 밸류에이션
5 Stanford HAI AI Index 2024 학술 87 AI 연구·인재·정책 종합 지수
연구 동기

SCAR 93점을 기록한 barkain이 왜 최종 채점에서 58점에 그쳤는가? 사전 조사 점수(정보 풍부도)와 실제 워크플로우 품질 사이의 괴리가 이 연구의 핵심 질문이다.

Section 02

벤치마크 설계

테스트 환경

항목 사양
하드웨어 MacBook Pro M3 Max, 36GB Unified Memory
모델 claude-opus-4-6
CLI 버전 v2.1.79
태스크 AI 투자 생태계 리서치 백서 작성 (동일 프롬프트)
측정 항목 실행 시간, 출력 크기, 줄 수, 파일 수, 부산물
평가자 멀티모델 교차 검증 (Claude + Codex + Gemini)

7가지 실행 방식

방식 설명 특징
graph-workflow 자연어를 Graph 구조로 변환 후 단계별 실행 구조화 + 추적 가능
pipeline 명시적 파이프라인 단계 정의 후 순차 실행 단계 명확성
direct-research WebSearch 중심의 직접 리서치 실행 출처 수집 특화
ccw Claude Code Workflow 표준 실행 균형형
bare-direct 플러그인 없이 Claude 직접 호출 최소 오버헤드
barkain SCAR 최적화 사전 조사 후 생성 정보 수집 특화
direct-scientist Scientist 에이전트 패턴 적용 분석 특화
Section 03

프롬프트 및 방식별 결과물

벤치마크 프롬프트

미국 GTM(Go-To-Market) 방법론과 전략에 대해서 조사하고 핵심 내용을 정리한 마크다운 문서를 만들어줘. 최소 3000자 이상, 실제 사례와 프레임워크 포함.

7가지 방식 모두 동일한 프롬프트로 실행. 실행 환경: Claude Opus 4.6 (1M context), MacBook Pro 16" M-series.

방식별 결과물 비교 (도입부)

각 방식이 생성한 문서의 첫 부분을 비교합니다. 전체 문서는 부록에서 확인 →

Round 2 · 1위 · graph-workflow v3.3 (92/100) · 39.0KB · ~35분
# 미국 B2B SaaS GTM 전략 종합 가이드
4채널 병렬 리서치(WebSearch+사례+프레임워크+플레이북) 기반. Semantic Intent Classification 적용.
8개 섹션 · 8개 기업 사례(연도별 ARR+NRR) · 6가지 프레임워크 · 57개 체크리스트 · ACV 6티어 표
▸ 부산물: 리서치 원본 75.1KB + requirements.json + tickets.json + skill:research-catalyst 활용
Round 1 · graph-workflow v3.2 (87/100) · 39.8KB · ~45분
# 미국 GTM 방법론과 전략 완전 가이드
데이터 기준: OpenView 2024, Bessemer Cloud Index, KeyBanc 2024
8개 섹션 · 8개 기업 사례(연도별 ARR 테이블) · 유닛이코노믹스 4분위 벤치마크 · 차트 5개
▸ 부산물: 리서치 원본 28.4KB + requirements.json + 차트 5개(PNG)
5위 · pipeline (68/100) · 22.3KB · 4.7분
# US Go-To-Market (GTM) 전략 종합 가이드
전사적 실행 계획. 제품 개발, 영업, 마케팅, 고객 성공을 아우르는 통합 전략.
9개 섹션 · 6개 기업 사례 · ACV별 GTM 모션 표 · 5개 최신 트렌드
4위 · direct-research (69/100) · 23.3KB · ~10분
# 미국 GTM 방법론과 전략 종합 가이드
최신 벤치마크 데이터(OpenView/High Alpha 2024-2025, KeyBanc 2024, Bessemer BVP) 기반
10개 섹션 · 4개 심층 사례 · GTM Engineering 도구 스택 · AI-Native GTM 6가지 패턴
▸ WebSearch 12회로 실시간 벤치마크 데이터 수집
5위 · ccw (63/100) · 16.0KB · 8.8분
# 미국 Go-To-Market(GTM) 방법론과 전략 가이드
SaaS 기업의 시장 진입부터 스케일링까지, 실전 프레임워크와 사례 중심 정리
8개 섹션 · 7개 사례 · 프레임워크 6종(ELG 포함) · ARR 단계별 플레이북
3위 · bare-direct (75/100) · 23.4KB · 6.4분
# US Go-To-Market (GTM) Strategy Guide
미국 시장의 GTM 방법론, 프레임워크, 실전 사례를 정리한 종합 가이드
9개 섹션 · 7개 사례 · a16z 11대 GTM 지표 · ICONIQ 2025 벤치마크
▸ 부산물 없음 (추적/검증/재현 불가)
6위 · barkain (58/100) · 26.8KB · 3.5분
# 미국 Go-To-Market(GTM) 전략 완벽 가이드
올바른 고객에게 올바른 메시지를 올바른 채널을 통해 전달
8개 섹션 · 4개 사례 · STP 프레임워크 · 흔한 실수 7가지
7위 · direct-scientist (58/100) · 17.0KB · 4.5분
# 미국 GTM 방법론과 전략 완전 가이드
B2B/B2C SaaS 스타트업 및 성장 단계 기업 대상
7개 섹션 · 5개 사례 · MLG 독립 섹션(유일) · Rule of 40 실제 계산 예시

Slack 사례 비교 (동일 기업, 방식별 깊이 차이)

방식 Slack 사례 서술
graph-workflow ARR 테이블: 2014 $12M → 2016 $200M → 2019 $630M. NRR 143%. DAU 800만. 2016년 Enterprise 전환. 유료전환율 30%. Paid:Free = 3:97
ccw 1년 내 DAU 28.5만, 2016년 아웃바운드 세일즈팀 최초 고용. 네트워크 효과 기반 성장
bare-direct 8,000명/24시간 가입. K-factor 1.1. 4년 만에 DAU 800만. ARR $7.1억
pipeline "4년 만에 0→800만 DAU" (1줄)
barkain "2015년 DAU 800만, 2019년 $630M ARR" (2개 시점)
Section 04

실행 메트릭

실측 데이터

방식 실행 시간 출력 크기 줄 수 파일 수 부산물
graph-workflow v3.3 ~35분 39.0 KB 902 9 리서치 원본 75.1KB (4채널) + requirements.json + tickets.json
graph-workflow v3.2 ~45분 39.8 KB 952 7 리서치 원본 28.4KB (2채널) + 차트 5개 + requirements.json
pipeline 4.7분 22.3 KB 424 2
direct-research ~10분 23.3 KB 598 1 WebSearch 12회 활용
ccw 8.8분 16.0 KB 316 2
bare-direct 6.4분 23.4 KB 455 2
barkain 3.5분 26.8 KB 785 2
direct-scientist 4.5분 17.0 KB 441 1 분석 노트

실행 시간 비교

실행 시간 (분) — 낮을수록 빠름
0 5 10 15 20 v3.2 (~45분) 45분 pipeline 4.7 direct -res 10분 ccw 8.8 bare -direct 6.4 barkain 3.5 direct -sci 4.5
Section 05

평가 기준 설계 근거

초기 채점(7개 기준, 35점 만점)에서 bare-direct와 graph-workflow가 동점(34점)을 기록했다. 플러그인 0개인 방식과 7노드 오케스트레이션이 동점이라는 것은 기준 자체가 "최종 문서 겉모습"만 측정하고 있다는 뜻이다. 이 문제를 해결하기 위해 평가 기준을 재설계했다.

초기 기준이 실패한 이유

# 문제 벤치마크에서 발견된 증거
1 출처 추적 불가를 감점하지 않음 bare-direct의 "Figma $67B 기업가치" 주장 — 검증 불가. graph-workflow는 리서치 원본(28.4KB)에서 역추적 가능. 그러나 초기 기준은 둘 다 만점.
2 부산물 가치를 0점 처리 graph-workflow가 생성한 차트 5개, requirements.json, 리서치 원본이 초기 기준에서 전혀 반영되지 않음. 이 부산물은 팀 공유·감사·재실행에 필수.
3 통찰 깊이 vs 분량을 구분 못함 barkain(26.8KB, 785줄)이 ccw(16KB, 316줄)보다 분량이 크지만, ccw가 ARR 단계별 플레이북과 ELG 분석에서 더 깊은 통찰을 제공. 초기 기준은 분량에 유리.
4 시간 투자를 무시 45분(graph-workflow)과 3.5분(barkain)의 차이가 35점 만점에서 사실상 구분 불가. 실무에서 시간은 핵심 비용.
5 5점 척도의 낮은 해상도 7가지 방식 중 4개가 4점대에 몰려 동점이 빈발. 의미 있는 차이를 드러내지 못함.

설계 원칙

3가지 설계 원칙

1. 결과물 중심주의 — 내부 구현 방식이 아닌, 최종 사용자가 받는 문서의 가치가 배점의 85%를 차지해야 한다. 아무리 정교한 워크플로우라도 문서가 부실하면 낮은 점수.

2. 검증 가능성은 가점 — 출처 추적, 리서치 원본, 차트 같은 부산물은 "있으면 가점"이지 "없으면 치명적 감점"이 아니다. 모든 방식이 공정하게 경쟁할 수 있어야 한다.

3. 효율성은 10%만 — 시간은 중요하지만 품질을 압도해서는 안 된다. 45분 걸려도 87점이면 가치 있고, 3.5분이어도 58점이면 부족하다.

Section 06

평가 기준 (N1–N7)

위 설계 원칙에 따라 도출한 7개 평가 기준이다. 결과물(N1–N4+N6 = 85점)이 전체의 85%를 차지하고, 효율(N5 = 10점), 프로세스 부가 자산(N7 = 5점)이 나머지를 구성한다.

기준 항목 배점 설명
N1 과업 충족도/커버리지 20 프레임워크, 사례, 트렌드 포함 여부
N2 근거 품질/출처 추적성 20 주장의 근거, 출처 확인 가능성
N3 통찰/전략적 해석 20 단순 나열 vs 비교분석, 의사결정 기준
N4 구조/가독성 10 목차, 표, 체크리스트, 읽기 흐름
N5 효율성 10 시간 대비 품질 달성도
N6 실행 가능성 15 바로 써먹을 프레임워크, 액션 아이템
N7 프로세스 신뢰/부가 자산 5 차트, 리서치 원본, 추적 파일 (가점)
설계 원칙

결과물 85점 (과업 충족·근거·통찰·구조) + 효율 10점 (시간 대비 품질) + 프로세스 5점 (실행 가능성 + 부가 자산) = 100점.

Section 07

채점 결과

graph-workflow v3.3(Semantic Skill Routing, 4채널)과 v3.2(키워드 라우팅, 2채널)를 포함한 8가지 방식을 N1–N7 기준으로 채점한 결과다.

N1–N7 세부 점수표

순위 방식 N1(20) N2(20) N3(20) N4(10) N5(10) N6(15) N7(5) 합계
1 graph-workflow v3.3 19 20 20 9 4 15 5 92
2 graph-workflow v3.2 19 18 19 9 3 14 5 87
3 bare-direct 17 10 16 9 8 14 1 75
4 direct-research 16 14 13 8 5 11 2 69
5 pipeline 16 8 13 8 8 12 3 68
6 ccw 15 8 13 7 6 12 2 63
7 barkain 14 6 11 8 9 9 1 58
8 direct-scientist 13 6 11 7 9 11 1 58

카테고리별 누적 막대 차트

결과물(청색) + 워크플로우(흑색) + 효율(회색) 구성
0 25 50 75 100 v3.3 92 v3.2 87 bare 75 d-res 69 pipeline 68 ccw 63 barkain 58 d-sci 58 결과물(65점) 효율+실행(30점) 부가자산(5점)

점수 히트맵 (N1–N7)

방식 N1N2N3N4 N5N6N7
v3.3 19 20 20 9 4 15 5
v3.2 19 18 19 9 3 14 5
bare-direct 17 10 16 9 8 14 1
direct-res 16 14 13 8 5 11 2
pipeline 16 8 13 8 8 12 3
ccw 15 8 13 7 6 12 2
barkain 14 6 11 8 9 9 1
direct-sci 13 6 11 7 9 11 1
Section 08

효율성 분석

점수 vs 시간 산점도

X=실행 시간(분), Y=총점. 좌상단이 이상적 (고점수+저시간). v3.3 포함.
0 10 20 30 40 50 실행 시간 (분) 0 25 50 75 100 총점 v3.3 92 v3.2 87 +5, -10분 bare-direct 75 d-research 69 pipeline 68 ccw 63 barkain 58 d-sci 58

효율성 지표 (점수/분)

방식 총점 실행 시간(분) 점수/분 평가
barkain 58 3.5 16.6 시간 효율 1위
direct-scientist 58 4.5 12.9
pipeline 68 4.7 14.5
bare-direct 75 6.4 11.7
ccw 63 8.8 7.2
direct-research 69 10.0 6.9
graph-workflow v3.3 92 35.0 2.6 총점 1위, 효율 개선 (v3.2 대비 +37%)
graph-workflow v3.2 87 45.0 1.9 Round 1 총점 1위 (효율 절충)

barkain(16.6점/분)과 direct-scientist(12.9점/분)가 시간 효율 상위권이나 총점은 58·58점에 그쳤다. graph-workflow v3.2는 1.9점/분으로 시간 효율은 최저이지만 절대 점수(87)가 높아 실질적 가치가 크다.

Section 09

핵심 발견

FINDING 01 워크플로우 프로세스 가치가 결정적 차별화 요소
graph-workflow는 N1+N2+N3(결과물 품질)에서 최고점(56/60)을 기록했으며 N7(부가 자산 5/5)도 만점이다. bare-direct는 N5(효율 8/10)에서 상위권이지만 N2(근거 품질 10/20)에서 열세다. 최종 격차는 12점(87 vs 75)으로, 결과물 깊이와 프로세스 부가 자산이 결정적 차별화 요소로 작용했다. v3.3에서는 Skill Routing으로 92점을 달성하며 격차를 17점(92 vs 75)으로 확대했다.
FINDING 02 SCAR 점수 ≠ 실제 출력 품질
barkain은 /research-catalyst SCAR 93점으로 정보 수집 단계에서 최고점을 기록했다. 그러나 최종 채점에서는 58점으로 7위에 그쳤다. SCAR는 "정보의 구조화 밀도"를 측정하지만, 이 정보가 최종 결과물에서 얼마나 잘 통합·분석되는지는 측정하지 않는다. 정보 수집 지표와 결과물 품질 지표는 별개이며 혼동하면 안 된다.
FINDING 03 모델 지식으로 충분한 태스크에서 bare-direct의 결과물만은 경쟁력 있음
bare-direct는 N1(과업 충족 17/20), N3(통찰 16/20), N4(구조 9/10)에서 상위권을 기록했으며 N5(효율 8/10)도 높다. 전체 3위(75점)로 v3.2와 12점 차이에 불과하다. claude-opus-4-6의 사전 학습 지식이 충분한 영역에서는 플러그인 없이도 높은 품질을 달성한다. 독립적 1회성 분석에는 bare-direct도 매우 유효한 선택지다.
FINDING 04 WebSearch는 N2(근거 품질)에서만 유의미하게 차별화
direct-research는 N2(근거 품질)에서 14/20로 다른 비웹서치 방식(6–10점)을 크게 앞섰다. 4위(69점)로 bare-direct와 pipeline보다 낮지만 ccw(63)보다는 높다. WebSearch 자체가 전체 품질을 높이지는 않으며, 출처 다양성이 중요한 팩트체크·저널리즘성 태스크에서만 명확한 우위를 가진다.
Section 10

콘텐츠 비교 분석

프레임워크 커버리지 매트릭스

6개 주요 분석 프레임워크의 방식별 포함 여부를 검증했다.

프레임워크 graph-wf v3.3 pipeline direct-res ccw bare-direct barkain direct-sci
PLG (Product-Led Growth)
SLG (Sales-Led Growth)
MLG (Marketing-Led)
CLG (Community-Led)
ELG (Ecosystem-Led)
Hybrid / PLS

graph-workflow와 bare-direct가 6/6 프레임워크를 모두 커버. ccw도 6/6 (ELG 포함). pipeline과 barkain은 MLG·ELG가 누락되어 4/6에 그쳤다. △ = Channel-Led로 간접 포함.

Section 11

graph-workflow는 어떻게 실행되었는가

이 벤치마크에서 graph-workflow는 7개 노드를 3개 세션으로 분할하여 실행했다. 아래는 실제 실행된 그래프 구조와 각 노드의 에이전트·역할·소요 시간이다.

실행 그래프 (7노드 DAG)

SESSION 1 — 병렬 리서치 + 통합 (~20분) SESSION 2 — 검증 + 판단 루프 (~15분) SESSION 3 — 최종 문서 작성 (~10분) research_frameworks agent:researcher (sonnet) ∥ research_cases agent:researcher (sonnet) ∥ merge — agent:scientist (sonnet) adversarial — agent:verifier pass? PASS FAIL → supplement → re-verify (max 2 cycles) synthesize — agent:writer (sonnet) → us-gtm-strategy.md (39.8KB, 952줄) 산출물: 최종 문서 + 리서치 원본(28.4KB) + 차트 5개(PNG) + requirements.json + tickets.json 총 실행 시간: ~45분 | 총 점수: 87/100

노드별 상세

노드 에이전트 모델 역할 산출물
research_frameworks researcher sonnet PLG/SLG/MLG/CLG/ELG/PLS 6가지 프레임워크 조사 프레임워크 분석 원본
research_cases researcher sonnet Slack/Dropbox/Figma 등 8개 기업 사례 + 2024-25 트렌드 수집 사례 리서치 원본 + 차트 5개
merge scientist sonnet 2채널 리서치 결과 통합, 교차 검증, 모순 제거 통합 리서치 문서 (28.4KB)
adversarial verifier sonnet 사실 오류/수치 모순/편향 식별 검증 리포트
decide decision 사실 80%+, 프레임워크 3+, 사례 3+, 3000자+ 확인 PASS/FAIL 판정
supplement researcher sonnet 검증 실패 시 갭 보충 (이번 실행에서는 미사용) 보충 리서치
synthesize writer sonnet 통합 리서치 → 최종 마크다운 문서 생성 us-gtm-strategy.md (39.8KB)

다른 방식과의 구조 비교

graph-workflow (87점)
planner(opus)
→ [researcher×2](병렬)
→ scientist(merge)
→ verifier(검증)
→ decision(판단)
→ writer(합성)
= 7노드, 5에이전트, 3세션
bare-direct (75점)
claude -p "프롬프트"
→ 단일 세션
→ 10 turns 자체 반복
→ 문서 직접 작성

= 1노드, 0에이전트, 1세션
핵심 차이

graph-workflow의 12점 우위(87 vs 75)는 병렬 리서치(2채널 독립 수집)adversarial 검증(사실 오류 제거)에서 발생한다. bare-direct는 단일 세션에서 모델 지식만으로 작성하므로 출처 추적(N2)과 프로세스 신뢰(N7)에서 구조적으로 열세다.

Section 12

graph-workflow v3.2 → v3.3 진화

동일한 프롬프트로 v3.2(키워드 라우팅)와 v3.3(Semantic Intent + Skill 우선 라우팅)을 실행하여 비교했다.

v3.2 vs v3.3 실행 비교

항목 v3.2 (키워드 라우팅) v3.3 (Semantic + Skill) 변화
리서치 채널 2채널 병렬 4채널 병렬 +2채널
Skill 사용 0개 (agent:researcher만) skill:research-catalyst 적용 Skill 우선 원칙 실현
노드 수 7노드 9노드 +2노드 (채널 추가)
리서치 원본 28.4KB 75.1KB 2.6배 증가
최종 문서 39.8KB / 952줄 39.0KB / 902줄 유사 (합성 품질 유지)
소요 시간 ~45분 ~35분 -10분 (병렬 효율)
출처 소스 수 ~10개 16개+ WebSearch 활용
Intent 분류 없음 (키워드 매칭) research + document 의미 기반 분류

v3.3 실행 그래프 (9노드 DAG)

Step 1: Intent = [research, document] → Step 1.5: skill:research-catalyst 매칭 SESSION 1 — 4채널 병렬 리서치 + 통합 (~20분) web_search scientist+WebSearch cases scientist (8기업) frameworks scientist (6종) playbook scientist (실행가이드) ∥ 4채널 병렬 ∥ merge — scientist (75KB → 통합 + 교차검증) 원본 75.1KB 보존 (v3.2의 2.6배) SESSION 2 — Adversarial 검증 + 판단 루프 (~10분) adversarial — verifier pass? FAIL→loop PASS SESSION 3 — 최종 문서 합성 (~5분) synthesize — writer (sonnet) → us-gtm-strategy.md (39.0KB, 902줄) 산출물: 문서(39KB) + 리서치 원본(75KB) + requirements.json + tickets.json Intent: research+document | Skill: research-catalyst(4노드) | 총 ~35분 v3.2 대비: 리서치 2.6배↑ | 시간 22%↓ | Skill 라우팅 실현 | 출처 소스 60%↑

핵심 개선점

Semantic Intent
키워드 "조사" 매칭이 아닌, "이 사용자가 리서치+문서생성을 원한다"는 의도를 LLM이 직접 파악
Skill-First Routing
agent:researcher 대신 skill:research-catalyst 자동 매칭. skill-catalog.json의 description 기반 의미 매칭
4채널 병렬
2채널→4채널로 리서치 범위 확대. 원본 75KB(v3.2의 2.6배). 병렬 실행으로 시간은 오히려 22% 단축
v3.3 결과물 전체 보기 → v3.2 결과물 비교 →
Section 13

Round 2 채점 결과 (graph-workflow v3.3)

v3.3(Semantic Intent + Skill-First Routing, 4채널 리서치)으로 동일 프롬프트를 재실행한 결과를 N1–N7 기준으로 채점했다.

v3.3 채점

기준 배점 v3.2 점수 v3.3 점수 변화 근거
N1 과업 충족도 20 19 19 동일 수준. 8개 섹션, 8개 사례, 6개 프레임워크 모두 포함
N2 근거/출처 20 18 20 +2 리서치 원본 75KB(2.6배↑), 16+ 출처 URL 명시, WebSearch 기반 벤치마크
N3 통찰/전략 20 19 20 +1 4채널 교차 검증으로 모순 제거. NRR 평균 128.4% 등 통계적 통찰 추가
N4 구조/가독성 10 9 9 동일 수준. 체계적 목차, 표, 체크리스트
N5 효율성 10 3 4 +1 45분→35분 (22% 단축). 4채널 병렬 실행 효율
N6 실행 가능성 15 14 15 +1 playbook 채널 추가로 57개 체크리스트 항목, ACV 6티어 표, GTM 진단 프레임워크
N7 프로세스/부가자산 5 5 5 동일. graph.json + requirements.json + tickets.json + 리서치 원본
합계 100 87 92 +5 N2(출처) +2, N3(통찰) +1, N5(효율) +1, N6(실행) +1

Round 1 vs Round 2 전체 순위

Rank 방식 Round 1 점수 Round 2 점수 변동
1 graph-workflow v3.3 92 NEW
2 graph-workflow v3.2 87 87 ↓1 (v3.3에 의해)
3 bare-direct 75 75
4 direct-research 69 69
5 pipeline 68 68
6 ccw 63 63
7 barkain 58 58
8 direct-scientist 58 58
Round 2 핵심

v3.3의 Semantic Intent Classification + Skill-First Routing이 N2(출처 +2), N3(통찰 +1), N5(효율 +1), N6(실행 +1) = 총 +5점을 가져왔다. 특히 4채널 병렬 리서치로 원본 75KB(2.6배↑)를 확보하면서도 시간은 22% 단축(45분→35분)한 것이 핵심 개선이다. 키워드 매칭→의미 기반 라우팅의 전환이 실제 측정 가능한 품질 향상으로 이어졌다.

Section 14

graph-workflow 고유 가치

다른 방식이 제공하지 못하는 독점 기능

기능 설명 실무 가치
Graph 구조 추적 실행 단계를 노드-엣지로 기록, 어느 단계에서 무엇이 생성됐는지 추적 감사(audit) 및 디버깅 가능
재현 가능 실행 동일 graph JSON으로 동일한 실행 경로 재생산 결과 일관성 보장
병렬 브랜치 독립적 태스크를 동시에 실행하는 병렬 노드 지원 복합 태스크 효율화
의존성 관리 노드 간 데이터 흐름 명시, 순서 보장 오류 전파 차단
협업 공유 graph JSON을 팀과 공유, 누구든 같은 워크플로우 실행 가능 팀 표준화
점진적 개선 특정 노드만 수정해 전체 재실행 없이 개선 가능 반복 비용 절감
비유

Wikipedia vs 학술 논문: bare-direct 결과물은 Wikipedia처럼 광범위하고 즉시 읽히지만 인용 추적·검증이 불가능하다. graph-workflow 결과물은 학술 논문처럼 각 주장의 출처와 생성 경로가 명확하며 피어리뷰(팀 검토)가 가능하다. 용도에 따라 선택이 달라진다.

Section 15

추천 매트릭스

장기 프로젝트 / 팀 협업 필요
→ graph-workflow v3.3
재현성, 추적성, 협업 공유가 최우선일 때. 시간이 걸려도 품질과 프로세스 투명성이 요구되는 전략 보고서, 투자 분석에 적합.
명확한 단계적 프로세스 필요
→ pipeline
실행 순서가 명확하고 중간 산출물이 필요한 경우. graph-workflow보다 단순하지만 단계 관리가 필요한 중간 규모 프로젝트에 적합.
최신 정보·출처 중요도 최우선
→ direct-research
팩트체크, 시사 분석, 실시간 데이터가 필요한 태스크. WebSearch 기반 출처 수집에 특화되어 있으며 N2(근거 품질) 2위.
빠른 1회성 분석 (품질 이차)
→ bare-direct
시간 효율이 최우선이고 재현성이 필요 없는 경우. 모델 사전 지식으로 충분한 영역에서는 결과물 품질도 높다. 4분 내 완료.
균형 잡힌 표준 업무
→ ccw
특별한 요구사항 없이 Claude Code 표준 실행이 필요한 일반 업무. 워크플로우와 결과물 모두 중간 수준의 균형형.
데이터 분석 / 과학적 방법론
→ pipeline 또는 graph-workflow
direct-scientist는 기대 대비 성능이 낮았다(58점). 분석 특화 태스크에서도 구조화 방식이 Scientist 패턴보다 우수한 결과를 보였다.

의사결정 트리

방식 선택 플로우차트
태스크 시작 재현성 · 추적 필요? YES graph-workflow 92/100 NO 자동화 · CI/CD 필요? YES pipeline 68/100 NO 최신 출처 필요? YES direct-research NO bare-direct
Appendix

방식별 전체 결과물 원본

각 방식이 생성한 마크다운 문서를 포맷팅된 형태로 열람할 수 있습니다. 클릭하면 별도 페이지에서 전체 문서를 확인합니다.

92/100 v3.3 NEW
graph-workflow v3.3 (Semantic Skill Routing)
39.0KB · 902줄 · ~35분 · 4채널 병렬 + skill:research-catalyst · 리서치 원본 75.1KB
87/100
graph-workflow v3.2
39.8KB · 952줄 · ~45분 · 8개 섹션 + 차트 5개
68/100
pipeline
22.3KB · 424줄 · 4.7분 · ACV별 모션 표
69/100
direct-research
23.3KB · 598줄 · ~10분 · WebSearch + GTM Engineering
63/100
ccw
16.0KB · 316줄 · 8.8분 · 프레임워크 6종 + ARR 플레이북
75/100
bare-direct
23.4KB · 455줄 · 6.4분 · a16z 11대 지표 + ICONIQ 벤치마크
58/100
barkain
26.8KB · 785줄 · 3.5분 · STP + 흔한 실수 7가지
58/100
direct-scientist
17.0KB · 441줄 · 4.5분 · MLG 독립 섹션 + Rule of 40 계산