Executive Summary

핵심 요약

7가지 Claude Code 실행 방식을 동일한 프롬프트로 벤치마크했다. Round 1(graph-workflow v3.2 포함)에서 87/100으로 1위를 기록한 후, v3.3(Semantic Skill Routing)으로 업그레이드하여 Round 2에서 92/100을 달성했다. 결과물 85 + 효율 10 + 프로세스 5 구조의 N1–N7 기준으로 채점.

92/100

graph-workflow v3.3
Round 2 최고점

87/100

graph-workflow v3.2
Round 1 최고점

5점

v3.3 vs v3.2 격차
(Skill Routing 효과)

3 AI

멀티모델 검증
Claude · Codex · Gemini

초기 35점 기준은 "최종 문서 겉모습"만 측정하여 bare-direct와 graph-workflow가 동점이었다. 출처 추적성, 통찰 깊이, 부산물 가치를 반영한 결과물 85 + 효율 10 + 프로세스 5 구조의 N1–N7 기준으로 재채점한 결과 12점 격차가 발생했다.

순위 요약

순위	방식	총점	실행 시간	평가
1	graph-workflow v3.3	92	~35분	Round 2 1위
2	graph-workflow v3.2	87	~45분	Round 1 1위
3	bare-direct	75	6.4분	빠른 단독 실행
4	direct-research	69	~10분	출처 중심
5	pipeline	68	4.7분	구조화
6	ccw	63	8.8분	균형형
7	barkain	58	3.5분	SCAR 과대평가
8	direct-scientist	58	4.5분	최하위

Section 01

연구 배경

Claude Code는 다양한 플러그인·워크플로우 방식으로 실행될 수 있다. 동일한 태스크(AI 투자 생태계 리서치 백서 작성)를 7가지 방식으로 실행하고 결과물 품질, 워크플로우 가치, 효율성을 종합 비교했다.

/research-catalyst 사전 조사

벤치마크 설계 전 /research-catalyst 명령으로 22개 소스를 수집·분석했다. SCAR(Structured Context Aggregation Ratio) 상위 5개 소스는 다음과 같다.

순위	소스	유형	SCAR	핵심 기여
1	CB Insights AI Investment Report 2025	리포트	96	글로벌 AI 투자 트렌드 정량 데이터
2	Sequoia Capital AI Outlook 2025	VC 분석	94	엔터프라이즈 AI 전환 시나리오
3	McKinsey Global AI Survey 2024	설문	91	산업별 AI 도입률 벤치마크
4	Pitchbook AI Unicorn Tracker Q1 2025	DB	89	AI 유니콘 기업 현황 및 밸류에이션
5	Stanford HAI AI Index 2024	학술	87	AI 연구·인재·정책 종합 지수

연구 동기

SCAR 93점을 기록한 barkain이 왜 최종 채점에서 58점에 그쳤는가? 사전 조사 점수(정보 풍부도)와 실제 워크플로우 품질 사이의 괴리가 이 연구의 핵심 질문이다.

Section 02

벤치마크 설계

테스트 환경

항목	사양
하드웨어	MacBook Pro M3 Max, 36GB Unified Memory
모델	claude-opus-4-6
CLI 버전	v2.1.79
태스크	AI 투자 생태계 리서치 백서 작성 (동일 프롬프트)
측정 항목	실행 시간, 출력 크기, 줄 수, 파일 수, 부산물
평가자	멀티모델 교차 검증 (Claude + Codex + Gemini)

7가지 실행 방식

방식	설명	특징
graph-workflow	자연어를 Graph 구조로 변환 후 단계별 실행	구조화 + 추적 가능
pipeline	명시적 파이프라인 단계 정의 후 순차 실행	단계 명확성
direct-research	WebSearch 중심의 직접 리서치 실행	출처 수집 특화
ccw	Claude Code Workflow 표준 실행	균형형
bare-direct	플러그인 없이 Claude 직접 호출	최소 오버헤드
barkain	SCAR 최적화 사전 조사 후 생성	정보 수집 특화
direct-scientist	Scientist 에이전트 패턴 적용	분석 특화

Section 03

프롬프트 및 방식별 결과물

벤치마크 프롬프트

    미국 GTM(Go-To-Market) 방법론과 전략에 대해서 조사하고 핵심 내용을 정리한 마크다운 문서를 만들어줘. 최소 3000자 이상, 실제 사례와 프레임워크 포함.
  

7가지 방식 모두 동일한 프롬프트로 실행. 실행 환경: Claude Opus 4.6 (1M context), MacBook Pro 16" M-series.

방식별 결과물 비교 (도입부)

각 방식이 생성한 문서의 첫 부분을 비교합니다. 전체 문서는 부록에서 확인 →

Round 2 · 1위 · graph-workflow v3.3 (92/100) · 39.0KB · ~35분

# 미국 B2B SaaS GTM 전략 종합 가이드
4채널 병렬 리서치(WebSearch+사례+프레임워크+플레이북) 기반. Semantic Intent Classification 적용.
8개 섹션 · 8개 기업 사례(연도별 ARR+NRR) · 6가지 프레임워크 · 57개 체크리스트 · ACV 6티어 표
▸ 부산물: 리서치 원본 75.1KB + requirements.json + tickets.json + skill:research-catalyst 활용

Round 1 · graph-workflow v3.2 (87/100) · 39.8KB · ~45분

# 미국 GTM 방법론과 전략 완전 가이드
데이터 기준: OpenView 2024, Bessemer Cloud Index, KeyBanc 2024
8개 섹션 · 8개 기업 사례(연도별 ARR 테이블) · 유닛이코노믹스 4분위 벤치마크 · 차트 5개
▸ 부산물: 리서치 원본 28.4KB + requirements.json + 차트 5개(PNG)

5위 · pipeline (68/100) · 22.3KB · 4.7분

# US Go-To-Market (GTM) 전략 종합 가이드
전사적 실행 계획. 제품 개발, 영업, 마케팅, 고객 성공을 아우르는 통합 전략.
9개 섹션 · 6개 기업 사례 · ACV별 GTM 모션 표 · 5개 최신 트렌드

4위 · direct-research (69/100) · 23.3KB · ~10분

# 미국 GTM 방법론과 전략 종합 가이드
최신 벤치마크 데이터(OpenView/High Alpha 2024-2025, KeyBanc 2024, Bessemer BVP) 기반
10개 섹션 · 4개 심층 사례 · GTM Engineering 도구 스택 · AI-Native GTM 6가지 패턴
▸ WebSearch 12회로 실시간 벤치마크 데이터 수집

5위 · ccw (63/100) · 16.0KB · 8.8분

# 미국 Go-To-Market(GTM) 방법론과 전략 가이드
SaaS 기업의 시장 진입부터 스케일링까지, 실전 프레임워크와 사례 중심 정리
8개 섹션 · 7개 사례 · 프레임워크 6종(ELG 포함) · ARR 단계별 플레이북

3위 · bare-direct (75/100) · 23.4KB · 6.4분

# US Go-To-Market (GTM) Strategy Guide
미국 시장의 GTM 방법론, 프레임워크, 실전 사례를 정리한 종합 가이드
9개 섹션 · 7개 사례 · a16z 11대 GTM 지표 · ICONIQ 2025 벤치마크
▸ 부산물 없음 (추적/검증/재현 불가)

6위 · barkain (58/100) · 26.8KB · 3.5분

# 미국 Go-To-Market(GTM) 전략 완벽 가이드
올바른 고객에게 올바른 메시지를 올바른 채널을 통해 전달
8개 섹션 · 4개 사례 · STP 프레임워크 · 흔한 실수 7가지

7위 · direct-scientist (58/100) · 17.0KB · 4.5분

# 미국 GTM 방법론과 전략 완전 가이드
B2B/B2C SaaS 스타트업 및 성장 단계 기업 대상
7개 섹션 · 5개 사례 · MLG 독립 섹션(유일) · Rule of 40 실제 계산 예시

Slack 사례 비교 (동일 기업, 방식별 깊이 차이)

방식	Slack 사례 서술
graph-workflow	ARR 테이블: 2014 $12M → 2016 $200M → 2019 $630M. NRR 143%. DAU 800만. 2016년 Enterprise 전환. 유료전환율 30%. Paid:Free = 3:97
ccw	1년 내 DAU 28.5만, 2016년 아웃바운드 세일즈팀 최초 고용. 네트워크 효과 기반 성장
bare-direct	8,000명/24시간 가입. K-factor 1.1. 4년 만에 DAU 800만. ARR $7.1억
pipeline	"4년 만에 0→800만 DAU" (1줄)
barkain	"2015년 DAU 800만, 2019년 $630M ARR" (2개 시점)

Section 04

실행 메트릭

실측 데이터

방식	실행 시간	출력 크기	줄 수	파일 수	부산물
graph-workflow v3.3	~35분	39.0 KB	902	9	리서치 원본 75.1KB (4채널) + requirements.json + tickets.json
graph-workflow v3.2	~45분	39.8 KB	952	7	리서치 원본 28.4KB (2채널) + 차트 5개 + requirements.json
pipeline	4.7분	22.3 KB	424	2	—
direct-research	~10분	23.3 KB	598	1	WebSearch 12회 활용
ccw	8.8분	16.0 KB	316	2	—
bare-direct	6.4분	23.4 KB	455	2	—
barkain	3.5분	26.8 KB	785	2	—
direct-scientist	4.5분	17.0 KB	441	1	분석 노트

실행 시간 비교

실행 시간 (분) — 낮을수록 빠름

Section 05

평가 기준 설계 근거

초기 채점(7개 기준, 35점 만점)에서 bare-direct와 graph-workflow가 동점(34점)을 기록했다. 플러그인 0개인 방식과 7노드 오케스트레이션이 동점이라는 것은 기준 자체가 "최종 문서 겉모습"만 측정하고 있다는 뜻이다. 이 문제를 해결하기 위해 평가 기준을 재설계했다.

초기 기준이 실패한 이유

#	문제	벤치마크에서 발견된 증거
1	출처 추적 불가를 감점하지 않음	bare-direct의 "Figma $67B 기업가치" 주장 — 검증 불가. graph-workflow는 리서치 원본(28.4KB)에서 역추적 가능. 그러나 초기 기준은 둘 다 만점.
2	부산물 가치를 0점 처리	graph-workflow가 생성한 차트 5개, requirements.json, 리서치 원본이 초기 기준에서 전혀 반영되지 않음. 이 부산물은 팀 공유·감사·재실행에 필수.
3	통찰 깊이 vs 분량을 구분 못함	barkain(26.8KB, 785줄)이 ccw(16KB, 316줄)보다 분량이 크지만, ccw가 ARR 단계별 플레이북과 ELG 분석에서 더 깊은 통찰을 제공. 초기 기준은 분량에 유리.
4	시간 투자를 무시	45분(graph-workflow)과 3.5분(barkain)의 차이가 35점 만점에서 사실상 구분 불가. 실무에서 시간은 핵심 비용.
5	5점 척도의 낮은 해상도	7가지 방식 중 4개가 4점대에 몰려 동점이 빈발. 의미 있는 차이를 드러내지 못함.

설계 원칙

3가지 설계 원칙

1. 결과물 중심주의 — 내부 구현 방식이 아닌, 최종 사용자가 받는 문서의 가치가 배점의 85%를 차지해야 한다. 아무리 정교한 워크플로우라도 문서가 부실하면 낮은 점수.

2. 검증 가능성은 가점 — 출처 추적, 리서치 원본, 차트 같은 부산물은 "있으면 가점"이지 "없으면 치명적 감점"이 아니다. 모든 방식이 공정하게 경쟁할 수 있어야 한다.

3. 효율성은 10%만 — 시간은 중요하지만 품질을 압도해서는 안 된다. 45분 걸려도 87점이면 가치 있고, 3.5분이어도 58점이면 부족하다.

Section 06

평가 기준 (N1–N7)

위 설계 원칙에 따라 도출한 7개 평가 기준이다. 결과물(N1–N4+N6 = 85점)이 전체의 85%를 차지하고, 효율(N5 = 10점), 프로세스 부가 자산(N7 = 5점)이 나머지를 구성한다.

기준	항목	배점	설명
N1	과업 충족도/커버리지	20	프레임워크, 사례, 트렌드 포함 여부
N2	근거 품질/출처 추적성	20	주장의 근거, 출처 확인 가능성
N3	통찰/전략적 해석	20	단순 나열 vs 비교분석, 의사결정 기준
N4	구조/가독성	10	목차, 표, 체크리스트, 읽기 흐름
N5	효율성	10	시간 대비 품질 달성도
N6	실행 가능성	15	바로 써먹을 프레임워크, 액션 아이템
N7	프로세스 신뢰/부가 자산	5	차트, 리서치 원본, 추적 파일 (가점)

설계 원칙

결과물 85점 (과업 충족·근거·통찰·구조) + 효율 10점 (시간 대비 품질) + 프로세스 5점 (실행 가능성 + 부가 자산) = 100점.

Section 07

채점 결과

graph-workflow v3.3(Semantic Skill Routing, 4채널)과 v3.2(키워드 라우팅, 2채널)를 포함한 8가지 방식을 N1–N7 기준으로 채점한 결과다.

N1–N7 세부 점수표

순위	방식	N1(20)	N2(20)	N3(20)	N4(10)	N5(10)	N6(15)	N7(5)	합계
1	graph-workflow v3.3	19	20	20	9	4	15	5	92
2	graph-workflow v3.2	19	18	19	9	3	14	5	87
3	bare-direct	17	10	16	9	8	14	1	75
4	direct-research	16	14	13	8	5	11	2	69
5	pipeline	16	8	13	8	8	12	3	68
6	ccw	15	8	13	7	6	12	2	63
7	barkain	14	6	11	8	9	9	1	58
8	direct-scientist	13	6	11	7	9	11	1	58

카테고리별 누적 막대 차트

결과물(청색) + 워크플로우(흑색) + 효율(회색) 구성

점수 히트맵 (N1–N7)

방식	N1	N2	N3	N4	N5	N6	N7
v3.3	19	20	20	9	4	15	5
v3.2	19	18	19	9	3	14	5
bare-direct	17	10	16	9	8	14	1
direct-res	16	14	13	8	5	11	2
pipeline	16	8	13	8	8	12	3
ccw	15	8	13	7	6	12	2
barkain	14	6	11	8	9	9	1
direct-sci	13	6	11	7	9	11	1

Section 08

효율성 분석

점수 vs 시간 산점도

X=실행 시간(분), Y=총점. 좌상단이 이상적 (고점수+저시간). v3.3 포함.

효율성 지표 (점수/분)

방식	총점	실행 시간(분)	점수/분	평가
barkain	58	3.5	16.6	시간 효율 1위
direct-scientist	58	4.5	12.9
pipeline	68	4.7	14.5
bare-direct	75	6.4	11.7
ccw	63	8.8	7.2
direct-research	69	10.0	6.9
graph-workflow v3.3	92	35.0	2.6	총점 1위, 효율 개선 (v3.2 대비 +37%)
graph-workflow v3.2	87	45.0	1.9	Round 1 총점 1위 (효율 절충)

barkain(16.6점/분)과 direct-scientist(12.9점/분)가 시간 효율 상위권이나 총점은 58·58점에 그쳤다. graph-workflow v3.2는 1.9점/분으로 시간 효율은 최저이지만 절대 점수(87)가 높아 실질적 가치가 크다.

Section 09

핵심 발견

FINDING 01 워크플로우 프로세스 가치가 결정적 차별화 요소

graph-workflow는 N1+N2+N3(결과물 품질)에서 최고점(56/60)을 기록했으며 N7(부가 자산 5/5)도 만점이다. bare-direct는 N5(효율 8/10)에서 상위권이지만 N2(근거 품질 10/20)에서 열세다. 최종 격차는 12점(87 vs 75)으로, 결과물 깊이와 프로세스 부가 자산이 결정적 차별화 요소로 작용했다. v3.3에서는 Skill Routing으로 92점을 달성하며 격차를 17점(92 vs 75)으로 확대했다.

FINDING 02 SCAR 점수 ≠ 실제 출력 품질

barkain은 /research-catalyst SCAR 93점으로 정보 수집 단계에서 최고점을 기록했다. 그러나 최종 채점에서는 58점으로 7위에 그쳤다. SCAR는 "정보의 구조화 밀도"를 측정하지만, 이 정보가 최종 결과물에서 얼마나 잘 통합·분석되는지는 측정하지 않는다. 정보 수집 지표와 결과물 품질 지표는 별개이며 혼동하면 안 된다.

FINDING 03 모델 지식으로 충분한 태스크에서 bare-direct의 결과물만은 경쟁력 있음

bare-direct는 N1(과업 충족 17/20), N3(통찰 16/20), N4(구조 9/10)에서 상위권을 기록했으며 N5(효율 8/10)도 높다. 전체 3위(75점)로 v3.2와 12점 차이에 불과하다. claude-opus-4-6의 사전 학습 지식이 충분한 영역에서는 플러그인 없이도 높은 품질을 달성한다. 독립적 1회성 분석에는 bare-direct도 매우 유효한 선택지다.

FINDING 04 WebSearch는 N2(근거 품질)에서만 유의미하게 차별화

direct-research는 N2(근거 품질)에서 14/20로 다른 비웹서치 방식(6–10점)을 크게 앞섰다. 4위(69점)로 bare-direct와 pipeline보다 낮지만 ccw(63)보다는 높다. WebSearch 자체가 전체 품질을 높이지는 않으며, 출처 다양성이 중요한 팩트체크·저널리즘성 태스크에서만 명확한 우위를 가진다.

Section 10

콘텐츠 비교 분석

프레임워크 커버리지 매트릭스

6개 주요 분석 프레임워크의 방식별 포함 여부를 검증했다.

프레임워크	graph-wf	v3.3	pipeline	direct-res	ccw	bare-direct	barkain	direct-sci
PLG (Product-Led Growth)	✓	✓	✓	✓	✓	✓	✓	✓
SLG (Sales-Led Growth)	✓	✓	✓	✓	✓	✓	✓	✓
MLG (Marketing-Led)	✓	✓	—	—	✓	✓	—	✓
CLG (Community-Led)	✓	✓	✓	✓	✓	✓	✓	✓
ELG (Ecosystem-Led)	✓	✓	△	△	✓	✓	—	✓
Hybrid / PLS	✓	✓	✓	✓	✓	✓	—	✓

graph-workflow와 bare-direct가 6/6 프레임워크를 모두 커버. ccw도 6/6 (ELG 포함). pipeline과 barkain은 MLG·ELG가 누락되어 4/6에 그쳤다. △ = Channel-Led로 간접 포함.

Section 11

graph-workflow는 어떻게 실행되었는가

이 벤치마크에서 graph-workflow는 7개 노드를 3개 세션으로 분할하여 실행했다. 아래는 실제 실행된 그래프 구조와 각 노드의 에이전트·역할·소요 시간이다.

실행 그래프 (7노드 DAG)

노드별 상세

노드	에이전트	모델	역할	산출물
research_frameworks	researcher	sonnet	PLG/SLG/MLG/CLG/ELG/PLS 6가지 프레임워크 조사	프레임워크 분석 원본
research_cases	researcher	sonnet	Slack/Dropbox/Figma 등 8개 기업 사례 + 2024-25 트렌드 수집	사례 리서치 원본 + 차트 5개
merge	scientist	sonnet	2채널 리서치 결과 통합, 교차 검증, 모순 제거	통합 리서치 문서 (28.4KB)
adversarial	verifier	sonnet	사실 오류/수치 모순/편향 식별	검증 리포트
decide	decision	—	사실 80%+, 프레임워크 3+, 사례 3+, 3000자+ 확인	PASS/FAIL 판정
supplement	researcher	sonnet	검증 실패 시 갭 보충 (이번 실행에서는 미사용)	보충 리서치
synthesize	writer	sonnet	통합 리서치 → 최종 마크다운 문서 생성	us-gtm-strategy.md (39.8KB)

다른 방식과의 구조 비교

graph-workflow (87점)

        planner(opus)

        → [researcher×2](병렬)

        → scientist(merge)

        → verifier(검증)

        → decision(판단)

        → writer(합성)

        = 7노드, 5에이전트, 3세션

bare-direct (75점)

        claude -p "프롬프트"

        → 단일 세션

        → 10 turns 자체 반복

        → 문서 직접 작성

        = 1노드, 0에이전트, 1세션

핵심 차이

graph-workflow의 12점 우위(87 vs 75)는 병렬 리서치(2채널 독립 수집)와 adversarial 검증(사실 오류 제거)에서 발생한다. bare-direct는 단일 세션에서 모델 지식만으로 작성하므로 출처 추적(N2)과 프로세스 신뢰(N7)에서 구조적으로 열세다.

Section 12

graph-workflow v3.2 → v3.3 진화

동일한 프롬프트로 v3.2(키워드 라우팅)와 v3.3(Semantic Intent + Skill 우선 라우팅)을 실행하여 비교했다.

v3.2 vs v3.3 실행 비교

항목	v3.2 (키워드 라우팅)	v3.3 (Semantic + Skill)	변화
리서치 채널	2채널 병렬	4채널 병렬	+2채널
Skill 사용	0개 (agent:researcher만)	skill:research-catalyst 적용	Skill 우선 원칙 실현
노드 수	7노드	9노드	+2노드 (채널 추가)
리서치 원본	28.4KB	75.1KB	2.6배 증가
최종 문서	39.8KB / 952줄	39.0KB / 902줄	유사 (합성 품질 유지)
소요 시간	~45분	~35분	-10분 (병렬 효율)
출처 소스 수	~10개	16개+	WebSearch 활용
Intent 분류	없음 (키워드 매칭)	research + document	의미 기반 분류

v3.3 실행 그래프 (9노드 DAG)

핵심 개선점

Semantic Intent

키워드 "조사" 매칭이 아닌, "이 사용자가 리서치+문서생성을 원한다"는 의도를 LLM이 직접 파악

Skill-First Routing

agent:researcher 대신 skill:research-catalyst 자동 매칭. skill-catalog.json의 description 기반 의미 매칭

4채널 병렬

2채널→4채널로 리서치 범위 확대. 원본 75KB(v3.2의 2.6배). 병렬 실행으로 시간은 오히려 22% 단축

v3.3 결과물 전체 보기 → v3.2 결과물 비교 →

Section 13

Round 2 채점 결과 (graph-workflow v3.3)

v3.3(Semantic Intent + Skill-First Routing, 4채널 리서치)으로 동일 프롬프트를 재실행한 결과를 N1–N7 기준으로 채점했다.

v3.3 채점

기준	배점	v3.2 점수	v3.3 점수	변화	근거
N1 과업 충족도	20	19	19	—	동일 수준. 8개 섹션, 8개 사례, 6개 프레임워크 모두 포함
N2 근거/출처	20	18	20	+2	리서치 원본 75KB(2.6배↑), 16+ 출처 URL 명시, WebSearch 기반 벤치마크
N3 통찰/전략	20	19	20	+1	4채널 교차 검증으로 모순 제거. NRR 평균 128.4% 등 통계적 통찰 추가
N4 구조/가독성	10	9	9	—	동일 수준. 체계적 목차, 표, 체크리스트
N5 효율성	10	3	4	+1	45분→35분 (22% 단축). 4채널 병렬 실행 효율
N6 실행 가능성	15	14	15	+1	playbook 채널 추가로 57개 체크리스트 항목, ACV 6티어 표, GTM 진단 프레임워크
N7 프로세스/부가자산	5	5	5	—	동일. graph.json + requirements.json + tickets.json + 리서치 원본
합계	100	87	92	+5	N2(출처) +2, N3(통찰) +1, N5(효율) +1, N6(실행) +1

Round 1 vs Round 2 전체 순위

Rank	방식	Round 1 점수	Round 2 점수	변동
1	graph-workflow v3.3	—	92	NEW
2	graph-workflow v3.2	87	87	↓1 (v3.3에 의해)
3	bare-direct	75	75	—
4	direct-research	69	69	—
5	pipeline	68	68	—
6	ccw	63	63	—
7	barkain	58	58	—
8	direct-scientist	58	58	—

Round 2 핵심

v3.3의 Semantic Intent Classification + Skill-First Routing이 N2(출처 +2), N3(통찰 +1), N5(효율 +1), N6(실행 +1) = 총 +5점을 가져왔다. 특히 4채널 병렬 리서치로 원본 75KB(2.6배↑)를 확보하면서도 시간은 22% 단축(45분→35분)한 것이 핵심 개선이다. 키워드 매칭→의미 기반 라우팅의 전환이 실제 측정 가능한 품질 향상으로 이어졌다.

Section 14

graph-workflow 고유 가치

다른 방식이 제공하지 못하는 독점 기능

기능	설명	실무 가치
Graph 구조 추적	실행 단계를 노드-엣지로 기록, 어느 단계에서 무엇이 생성됐는지 추적	감사(audit) 및 디버깅 가능
재현 가능 실행	동일 graph JSON으로 동일한 실행 경로 재생산	결과 일관성 보장
병렬 브랜치	독립적 태스크를 동시에 실행하는 병렬 노드 지원	복합 태스크 효율화
의존성 관리	노드 간 데이터 흐름 명시, 순서 보장	오류 전파 차단
협업 공유	graph JSON을 팀과 공유, 누구든 같은 워크플로우 실행 가능	팀 표준화
점진적 개선	특정 노드만 수정해 전체 재실행 없이 개선 가능	반복 비용 절감

비유

Wikipedia vs 학술 논문: bare-direct 결과물은 Wikipedia처럼 광범위하고 즉시 읽히지만 인용 추적·검증이 불가능하다. graph-workflow 결과물은 학술 논문처럼 각 주장의 출처와 생성 경로가 명확하며 피어리뷰(팀 검토)가 가능하다. 용도에 따라 선택이 달라진다.

Section 15