토큰 한 개의 가격이 바꾸는 것들 · 제69호

들어가며

구독자님, 오픈 모델이라고 들어보셨어요? 로컬 모델, 온프레미스 모델 뭐… 등등 으로 불리지만 쉽게 말해서 인터넷 없이 내 컴퓨터(혹은 서버)에 설치해서 쓸 수 있는 인공지능 모델이라고 생각하시면 되어요.

지난주 구글이 Gemma 4를 발표했어요. Apache 2.0 라이선스, 31B 파라미터, 에이전트 도구 사용 벤치마크(τ2-bench) 86.4%. 불과 한 세대 전 Gemma 3가 같은 테스트에서 6.6%였다는 걸 감안하면, 이건 점진적 개선이 아니에요. 엄청난 발전이죠.

비슷한 시기에 AI 에이전트 프레임워크 Deep Agents 팀은 자체 평가 결과를 공개했어요. GLM-5, MiniMax M2.7 같은 오픈 모델이 Claude Opus 4.6, GPT-5.4 같은 폐쇄형 프론티어 모델과 파일 조작, 도구 호출, 지시 이행 같은 핵심 에이전트 태스크에서 비슷한 정확도를 보여줬거든요.

그런데 제가 주목하는 건 벤치마크 점수가 아니에요.(여러번 말했지만 전 벤치마크 불신론자에요.) 가격표예요.같은 일을 하는데 비용이 10배에서 20배 차이가 난다면, 이건 기술 뉴스가 아니라 산업 구조가 바뀌는 신호거든요.

🔢 숫자가 말해주는 것: 비용 격차의 실체

Deep Agents 팀의 평가 데이터를 가격과 함께 놓고 보면 풍경이 달라져요.

에이전트 태스크 정확도(Correctness)부터 볼게요. Claude Opus 4.6이 0.68로 1위, GLM-5가 0.64로 바로 뒤를 쫓고 있어요. GPT-5.4(0.61)보다 오히려 높아요. MiniMax M2.7도 0.57로 Gemini 3.1 Pro(0.65)와 격차가 크지 않고요.

이제 가격을 붙여볼게요. 출력 토큰 기준으로, Opus 4.6은 백만 토큰당 25달러예요. GLM-5는 3.15달러, MiniMax M2.7은 1.2달러. 같은 일을 하는데 비용이 8배에서 20배 차이가 나는 거예요.

이걸 실무 규모로 환산하면 더 선명해져요. 하루 천만 토큰을 출력하는 에이전트 시스템을 운영한다고 가정하면, Opus 4.6은 하루 250달러, MiniMax M2.7은 12달러예요. 연간으로 따지면 약 8,700만 원 차이가 나요. 이 정도 차이는 “비용 절감”이 아니라 “할 수 있느냐 없느냐”의 문제예요.

🧩 Gemma 4가 보여주는 새로운 방정식

구글이 4월 2일에 공개한 Gemma 4는 이 비용 방정식에 또 하나의 변수를 추가해요. 바로 “어디서 돌리느냐”라는 변수예요.

Gemma 4의 라인업을 보면 의도가 분명해요. E2B(2B), E4B(4B)는 스마트폰과 브라우저용이에요. 26B MoE¹는 추론 시 3.8B 파라미터만 활성화하면서도 LMArena 텍스트 점수 1,441을 기록했어요. 31B Dense는 소비자용 GPU 한 장에 올라가는 크기면서 오픈 모델 세계 3위예요.

특히 눈에 띄는 건 에이전트 관련 성능이에요. τ2-bench(에이전트 도구 사용 벤치마크)에서 Gemma 3 27B가 6.6%였는데, Gemma 4 31B는 86.4%를 찍었어요. 한 세대 만에 13배 뛴 거예요. 네이티브 함수 호출², 구조화된 JSON 출력, 멀티스텝 계획 수립까지 내장되어 있어서 별도의 프레임워크 없이도 에이전트 워크플로우를 구성할 수 있어요.

그리고 이 모델들은 Apache 2.0 라이선스예요. 상업적 사용에 제한이 없고, 월간 활성 사용자 제한도 없어요. Gemma 4 31B를 자사 서버에 올려서 내부 에이전트를 돌린다면? API 호출 비용이 아니라 GPU 전기료가 비용의 전부예요.

Artificial Analysis의 데이터를 보면, Gemma 4 31B의 API 호출 비용은 Lightning AI 기준으로 백만 토큰당 0.20달러예요. Opus 4.6의 25달러와 비교하면 125배 차이나요. 물론 성능 격차가 있지만, 에이전트의 반복적 도구 호출처럼 “충분히 잘하면 되는” 태스크에서는 이 가격 차이가 결정적이에요.

🤖 에이전트 시대의 진짜 문제: 토큰을 많이 쓴다는 것

여기서 한 발 더 들어가 볼게요. 오픈 모델이 저렴한 건 좋은데, 왜 지금 이게 중요해졌을까요?

답은 에이전트 워크플로우의 토큰 소비 구조에 있어요.

일반 챗봇은 사용자 질문 하나에 LLM 호출 한 번이에요. 하지만 에이전트는 다르거든요. 하나의 사용자 요청을 처리하기 위해 계획 수립 → 도구 선택 → 실행 → 검증 → 자기 수정까지 10~20번의 LLM 호출을 반복해요. Gartner의 2026년 3월 분석에 따르면, 에이전트 모델은 일반 챗봇 대비 5~30배 더 많은 토큰을 소비해요.

한 건의 소프트웨어 엔지니어링 태스크를 에이전트에게 맡기면 재시도와 자기 수정 루프를 포함해 100만~350만 토큰이 소모돼요. 이걸 프론티어 모델로 돌리면 태스크 하나에 5~8달러가 날아가요. 하루에 수천 건을 처리하는 프로덕션 환경에서는 월 수억 원이 될 수 있어요.

FinOps Foundation의 2026년 보고서에 따르면, 기업의 평균 AI 예산은 2024년 연 120만 달러에서 2026년 700만 달러로 뛰었어요. 그런데 단위 토큰 가격은 계속 떨어지고 있거든요. 2024~2026년 사이 토큰 가격 중위값은 연 200배 속도로 하락했어요.

이게 바로 역설이에요. 토큰 단가는 떨어지는데, 총 비용은 올라가요. 에이전트가 쓰는 토큰의 양이 가격 하락 속도를 앞지르고 있기 때문이에요. 이 상황에서 오픈 모델의 가격 우위는 단순 절감이 아니라, 에이전트를 프로덕션에 올릴 수 있느냐의 분기점이 되는 거예요.

🏗️ 가치는 어디로 이동하는가

이 흐름을 한 걸음 뒤에서 보면, 더 큰 그림이 보여요. 오픈 모델이 에이전트 태스크에서 통하기 시작했다는 건, AI 산업의 가치 중심이 이동하고 있다는 뜻이에요. “누가 더 똑똑한 모델을 만드느냐”에서 “누가 모델을 더 잘 엮느냐”로요.

Deep Agents의 접근 방식이 이걸 잘 보여줘요. 이 프레임워크는 모델을 한 줄 코드로 교체할 수 있게 설계되어 있어요. 프론티어 모델로 계획을 세우고, 오픈 모델로 실행하는 멀티 모델 패턴도 지원해요. 모델의 컨텍스트 윈도우 크기에 따라 압축 전략을 자동으로 조절하고, 시스템 프롬프트에 모델의 이름과 능력을 주입해서 에이전트가 자신이 뭘 할 수 있는지 알게 해요.

여기서 핵심은 하네스(harness)예요. 모델 자체가 아니라, 모델을 감싸서 실제 업무에 쓸 수 있게 만드는 오케스트레이션 레이어³가 가치의 중심이 되고 있어요. 그렇다고 이 하네스가 무슨 엄청난 자산이냐? 그건 또 아니에요. 하네스도 결국 JSON과 Markdown을 엮은 다음 권한과 개별 지식을 탑재한 마개조 도구랄까… 그런 형태에요. 하네스가 결국은 skill.md를 고도화 한 형태거든요. 마치 스마트폰 산업에서 반도체 자체보다 iOS와 안드로이드 생태계가 더 큰 가치를 만들어낸 것과 비슷한 구조예요. 앞으로 비슷한 것은 계속 나올거에요.

Deloitte는 2026년 1월 보고서에서 이걸 “토크노믹스(Tokenomics)“라는 프레임으로 정리했어요. 기업 AI 비용이 더 이상 구독료나 가상 머신으로 측정되지 않고, 토큰이라는 변동 단위로 움직이는 새로운 경제 체제가 열리고 있다는 거예요. 이 체제에서 경쟁력은 “비싼 모델을 쓸 수 있는 자본”이 아니라 “토큰 한 개당 더 많은 가치를 뽑아내는 아키텍처”에서 나와요.

오스왈드의 시선

일단 아이폰 유저라면 [iOS]를 클릭해주시고 안드로이드 계열이라면 [AOS]를 클릭해 구글이 출시한 Google AI Edge Gallery를 설치하시고 위에서 말한 Gemma4 모델을 다운 받아서 사용해보세요.용량은 3.2GB 정도 되고 성능은 체감상 GPT-4o 정도 되어요. 한국어는 당연히 지원하고 이미지/음성 인식도 되는 멀티모달이에요. 이게 무엇을 의미할까요?

지금까지 AI 시장의 구도는 명확했어요. OpenAI, Anthropic, Google이 모델을 만들고, 기업들은 API를 사서 쓰는 구조. 이건 SaaS 시장의 초기와 비슷해요. 플랫폼을 가진 쪽이 가격 결정권을 쥐고, 고객은 종속되는 거죠. 저는 이 변화가 GTM 전략의 관점에서 가장 흥미로워요. 그런데 이제 오픈 모델들이 일정 수준을 넘어서 최적화까지 되어 버린거에요.

오픈 모델이 “쓸 만한” 수준을 넘어 “프로덕션에 올릴 만한” 수준에 도달하면, 이 구도가 흔들려요. 기업은 핵심 워크플로우를 자체 인프라로 가져올 선택지를 갖게 되거든요. Gemma 4 E2B가 스마트폰에서 돌아가고, 31B가 소비자 GPU 한 장에 올라간다는 건, AI 추론의 탈중앙화가 기술적으로 가능해졌다는 뜻이에요.

데이터 관점에서 한 가지 더 짚고 싶은 건, 이런 벤치마크를 볼 때 주의해야 할 점이에요. Deep Agents의 평가는 138개 테스트 케이스 기준이에요. Gemma 4의 τ2-bench 점수는 특정 시나리오(Retail)에서의 결과고요. 이 수치들이 실제 프로덕션 환경의 모든 복잡성을 반영하지는 않아요. 오픈 모델이 “프론티어와 같다”가 아니라 “특정 태스크에서 충분히 경쟁 가능하다”가 정확한 해석이에요.

하지만 방향은 분명해요. 토큰 단가의 하락, 에이전트의 토큰 소비량 증가, 오픈 모델의 성능 상향. 이 세 가지 축이 만나는 지점에서, AI를 ‘보유’할 수 있는 조직의 범위가 근본적으로 넓어지고 있어요.

마치며

오픈 모델(GLM-5, MiniMax M2.7, Gemma 4)이 에이전트 핵심 태스크에서 폐쇄형 프론티어 모델과 경쟁 가능한 수준에 도달했어요. 비용은 8배에서 125배까지 저렴하고요.
에이전트 워크플로우는 챗봇 대비 5~30배 많은 토큰을 소비해요. 이 환경에서 토큰 단가의 차이는 “절감”이 아니라 “실행 가능 여부”를 결정해요.
AI 산업의 가치 중심이 “모델을 만드는 자”에서 “모델을 잘 엮는 자”로 이동하고 있어요. 모델은 교체 가능한 부품이 되고, 오케스트레이션이 경쟁력이 되는 구조예요. 다음에 AI 도구의 비용을 검토할 일이 있다면, 모델의 이름이 아니라 토큰 한 개당 뽑아내는 가치를 기준으로 비교해 보세요. 풍경이 달라 보일 거예요.

오늘도 읽어주셔서 고마워요. 이 뉴스레터는 구독자 전용 뉴스레터에요.

주변에 알려주시고 구독자를 늘려주시면 제가 글을 쓰는 좋은 동기 부여가 되어요!

참고자료 & 더 읽기

Langchain, “Open Models have crossed a threshold”, 2026.4.2. : 오늘 뉴스레터의 핵심 데이터인 오픈 모델 vs 프론티어 모델 에이전트 벤치마크 결과가 담겨 있어요.
Google DeepMind, “Gemma 4: Byte for byte, the most capable open models”, 2026.4.2. : Gemma 4 공식 발표 블로그. 벤치마크 수치와 아키텍처 설명이 포함되어 있어요.
Google AI for Developers, “Gemma 4 model overview”, 2026.4.2. : 모델 크기별 메모리 요구 사항, 양자화 옵션, 배포 가이드가 정리되어 있어요.
Oplexa, “AI Inference Cost Crisis 2026: Why Your AI Bill Is Exploding”, 2026. : 추론 비용이 기업 AI 예산의 85%를 차지하게 된 배경과 에이전트 토큰 소비의 구조를 다뤄요.
Deloitte Insights, “AI tokens: How to navigate AI’s new spend dynamics”, 2026.1. : 토큰 기반 경제 체제에서 기업이 AI 비용을 어떻게 관리해야 하는지를 분석한 보고서예요.
Zylos Research, “AI Agent Cost Optimization: Token Economics and FinOps in Production”, 2026.2. : 에이전트 워크플로우의 토큰 소비 구조와 모델 라우팅 전략을 실무 관점에서 정리했어요.
Hugging Face, “Welcome Gemma 4: Frontier multimodal intelligence on device”, 2026.4. : Gemma 4의 아키텍처와 오픈소스 생태계 통합에 대한 기술적 분석이에요.

필자 안광섭은 세종대학교 경영학과 교수이자 OBF(Oswarld Boutique Consulting Firm) 리드 컨설턴트이다. 대학에서 경영데이터 관리, 비즈니스 애널리틱스 등 통계 및 데이터 분석을 가르치는 한편, 현장에서는 GTM 전략과 인공지능 전략 컨설팅을 이끌며 기술과 비즈니스의 접점을 설계하고 있다. AI 대화 시스템의 기억 아키텍처(HEMA) 연구로 학술 논문을 발표했으며, 매일 글로벌 AI 논문을 큐레이션하는 Daily Arxiv 프로젝트를 운영하고 있다. 고려대학교 기술경영전문대 석사과정와 KMBA을 졸업했다. 지은 책으로 《생각을 맡기는 사람들: 호모 브레인리스》가 있다.

각주

MoE (Mixture of Experts): AI 모델 안에 여러 “전문가” 네트워크를 두고, 입력에 따라 일부만 활성화하는 구조예요. 26B 파라미터 모델이지만 실제 추론 시에는 3.8B만 사용하니까, 작은 모델처럼 빠르면서도 큰 모델의 성능을 유지할 수 있어요. 뷔페에서 전체 요리를 차려놓되, 손님이 먹는 건 일부인 것과 비슷해요. ↩
네이티브 함수 호출 (Native Function Calling): AI 모델이 외부 도구(API, 데이터베이스, 검색 엔진 등)를 직접 호출할 수 있는 내장 기능이에요. 예전에는 별도 프레임워크가 필요했는데, 모델 자체에 이 기능이 탑재되면서 에이전트 구축이 훨씬 간단해졌어요. ↩
오케스트레이션 레이어 (Orchestration Layer): 여러 AI 모델, 도구, 데이터 소스를 연결하고 조율하는 중간 소프트웨어 층이에요. 오케스트라의 지휘자가 각 악기를 조율하듯, 어떤 모델에게 어떤 태스크를 맡길지, 결과를 어떻게 조합할지를 관리해요. Deep Agents 같은 프레임워크가 이 역할을 해요. ↩