2026년 6월 9일 08:16

ChatGPT·Claude의 토큰이란 무엇일까? AI 비용을 움직이는 진짜 단위

ChatGPT와 Claude의 AI 토큰 개념, 입력 토큰과 출력 토큰, 토큰 비용, AI 데이터센터 토큰 공장을 추상적으로 표현한 대표 이미지

ChatGPT나 Claude를 쓰다 보면 “토큰”이라는 단어를 자주 보게 됩니다. API 요금표에는 입력 토큰, 출력 토큰, 캐시 토큰이 나뉘어 있고, 고급 추론 모델을 설명할 때는 reasoning tokens, 즉 추론 토큰이라는 표현도 등장합니다. 개발자가 아니어도 AI 서비스를 쓰다 보면 결국 토큰이라는 단위와 만나게 됩니다.

토큰은 쉽게 말해 AI가 문장을 읽고 쓰기 위해 사용하는 최소 처리 단위입니다. 사람은 “오늘 날씨 어때?”를 하나의 자연스러운 문장으로 이해하지만, 대규모 언어모델은 이 문장을 내부 규칙에 따라 여러 조각으로 나눈 뒤 숫자로 바꿔 처리합니다. 이 조각이 토큰입니다.

OpenAI 문서에서는 텍스트가 토큰으로 쪼개지고, 모델이 이 토큰을 처리한 뒤, 다시 토큰의 연속으로 응답을 생성한다고 설명합니다. Anthropic도 Claude API에서 메시지를 보내기 전 토큰 수를 세어 비용과 사용량을 관리할 수 있다고 안내합니다. 결국 ChatGPT, Claude, Gemini 같은 LLM 서비스에서 토큰은 “AI가 읽고 생각하고 말하는 데 쓰는 회계 단위”입니다.

1. 토큰은 단어와 다릅니다

토큰을 단어라고 이해하면 절반만 맞습니다. 영어 단어 하나가 하나의 토큰이 될 때도 있지만, 긴 단어는 여러 토큰으로 쪼개질 수 있고, 공백이나 문장부호가 토큰에 포함되기도 합니다. 한국어는 조사, 어미, 띄어쓰기, 한글 음절 구조 때문에 단어 수와 토큰 수가 더 다르게 나올 수 있습니다.

예를 들어 “AI 토큰이란 무엇일까?”라는 문장은 사람에게는 짧은 한 문장이지만, 모델 내부에서는 “AI”, “토”, “큰”, “이란”, “무엇”, “일까”, 물음표 같은 여러 조각으로 나뉠 수 있습니다. 실제 분해 방식은 모델이 쓰는 토크나이저에 따라 달라집니다.

이 차이가 중요한 이유는 비용과 성능이 단어 수가 아니라 토큰 수로 계산되기 때문입니다. 같은 의미라도 장황하게 쓰면 입력 토큰이 늘고, AI가 긴 답변을 만들면 출력 토큰이 늘어납니다. 그래서 AI를 업무에 많이 쓰는 조직은 “질문을 잘 쓰는 법”만큼 “불필요한 토큰을 줄이는 법”도 중요하게 봅니다.

Token Flow

AI가 토큰을 처리하는 흐름

사용자가 보는 것은 문장이지만, 모델 내부에서는 토큰 단위의 입력·처리·출력이 반복됩니다.

1. 입력 문장

사용자가 질문, 문서, 코드, 이미지 설명 등을 보냅니다.

2. 토큰화

문장을 모델이 처리할 수 있는 작은 조각과 숫자 배열로 바꿉니다.

3. 추론

모델이 다음에 올 토큰을 예측하며 답변을 구성합니다.

4. 출력

생성된 토큰이 다시 사람이 읽는 문장으로 변환됩니다.

2. 입력 토큰, 출력 토큰, 캐시 토큰, 추론 토큰

AI 토큰을 이해하려면 네 가지 구분이 필요합니다.

구분비용에 미치는 영향
입력 토큰사용자가 보낸 질문, 문서, 코드, 시스템 지시문프롬프트가 길수록 증가합니다.
출력 토큰모델이 생성한 답변보통 입력 토큰보다 단가가 비싼 경우가 많습니다.
캐시 토큰반복되는 프롬프트 일부를 재사용한 토큰지연시간과 비용을 줄이는 데 중요합니다.
추론 토큰일부 모델이 답변 전 내부 사고 과정에 쓰는 토큰보이지 않아도 비용과 컨텍스트에 영향을 줄 수 있습니다.

OpenAI 문서에는 토큰 사용량이 입력, 출력, 캐시, 추론 토큰 같은 범주로 추적된다고 설명돼 있습니다. Claude 문서도 토큰 수를 미리 계산하면 비용과 rate limit을 관리하고, 모델 라우팅과 프롬프트 최적화에 도움이 된다고 안내합니다.

여기서 특히 중요한 것은 출력 토큰입니다. AI가 긴 답변을 만들수록 비용이 늘고, 추론 모델은 답변 전 내부적으로 더 많은 계산을 할 수 있습니다. 사용자는 짧은 질문을 보냈다고 생각해도, AI가 복잡한 계획을 세우고 여러 도구를 호출하면 실제 토큰 소비는 크게 늘어날 수 있습니다.

3. 왜 AI 기업은 토큰을 팔게 되는가?

AI 기업의 비즈니스는 결국 “지능을 얼마나 싸고 빠르게 생산하느냐”의 문제로 이동하고 있습니다. 사용자가 챗봇에 돈을 내든, 기업이 API를 쓰든, 내부에서는 대부분 토큰 단위로 비용이 계산됩니다. 그래서 LLM 기업의 매출은 구독료처럼 보여도 실제 원가는 입력·출력·캐시·추론 토큰의 합으로 구성됩니다.

이 구조에서는 세 가지 지표가 중요해집니다.

  • 100만 토큰당 가격
  • 첫 토큰이 나오기까지 걸리는 시간, TTFT
  • 초당 생성 토큰 수, tokens per second

질문을 보냈는데 첫 답변이 늦게 나오면 사용자는 답답함을 느낍니다. 첫 토큰이 빨리 나오고, 이후 토큰이 빠르게 이어져야 실제 서비스 품질이 좋아집니다. 그래서 AI 인프라 기업들은 이제 단순히 GPU 개수나 FLOPS만 말하지 않습니다. “같은 전력으로 몇 개의 토큰을 생산하는가?”, “100만 토큰당 비용을 얼마나 낮출 수 있는가?”를 강조합니다.

NVIDIA는 AI 데이터센터를 “AI factory”라고 부릅니다. 전기와 데이터를 넣으면 지능의 단위인 토큰이 나오는 공장이라는 관점입니다. NVIDIA는 Hopper와 Blackwell 같은 세대가 바뀌면서 같은 전력에서 더 많은 토큰을 생산하고, 토큰당 비용을 낮추는 것이 AI 인프라 경제학의 핵심이라고 설명합니다.

4. 토큰 비용을 낮추는 하드웨어 경쟁

AI 모델을 돌리는 비용은 대부분 추론에서 발생합니다. 학습은 모델을 만드는 과정이고, 추론은 사용자가 질문할 때마다 답변을 생성하는 과정입니다. ChatGPT나 Claude를 수억 명이 매일 쓰면 추론 비용은 폭발적으로 커집니다.

그래서 하드웨어 경쟁의 방향도 바뀌었습니다. 예전에는 더 큰 모델을 더 빨리 학습시키는 것이 중요했다면, 이제는 운영 중인 모델이 토큰을 얼마나 싸고 빠르게 뽑아내는지가 중요합니다. NVIDIA는 Blackwell과 Vera Rubin 같은 플랫폼에서 tokens per watt, cost per token, throughput per megawatt를 핵심 지표로 설명합니다.

Groq 같은 추론 특화 기업도 토큰 생성 속도와 지연시간을 강조합니다. 특히 사용자와 대화하는 서비스에서는 평균 처리량뿐 아니라 첫 토큰 지연시간과 응답의 일관성이 중요합니다. 즉 AI 인프라 시장은 “더 큰 연산”에서 “더 싼 토큰, 더 빠른 토큰”으로 기준이 옮겨가고 있습니다.

5. 소프트웨어도 토큰을 아낍니다

토큰 경제학은 하드웨어만의 문제가 아닙니다. 모델 구조와 소프트웨어 최적화도 중요합니다.

Mixture of Experts, 줄여서 MoE는 질문마다 전체 모델을 모두 쓰지 않고 필요한 전문가 부분만 활성화하는 방식입니다. 수학 문제에는 수학에 강한 부분을, 코드 문제에는 코드에 강한 부분을 더 쓰는 식입니다. 전체 모델 크기는 크지만 실제 계산량을 줄일 수 있어 토큰당 비용을 낮추는 데 도움이 됩니다.

양자화도 중요합니다. 모델이 계산에 쓰는 숫자의 정밀도를 낮춰 메모리 사용량과 연산량을 줄이는 기술입니다. 정확도를 크게 잃지 않으면서 더 가볍게 계산할 수 있다면 같은 GPU에서 더 많은 토큰을 생산할 수 있습니다.

프롬프트 캐싱도 실무에서 매우 중요합니다. 반복되는 시스템 프롬프트, 긴 문서, 공통 지시문을 매번 새로 처리하지 않고 재사용하면 비용과 지연시간이 줄어듭니다. OpenAI의 prompt caching 문서는 반복되는 프롬프트 구조에서 캐시를 통해 지연시간과 입력 토큰 비용을 줄일 수 있다고 설명합니다. Claude 가격 문서도 cache write, cache hit, output token을 별도 가격 범주로 나눕니다.

6. 제본스의 역설: 싸지면 더 많이 쓴다

토큰당 비용이 내려가면 AI 비용은 줄어들까요? 직관적으로는 그렇습니다. 하지만 실제 산업에서는 반대 현상이 벌어질 수 있습니다. 이것이 제본스의 역설입니다. 어떤 자원의 사용 효율이 좋아지면 단위 비용은 내려가지만, 사용량이 폭발적으로 늘어 총소비는 오히려 증가할 수 있습니다.

AI에서도 비슷한 일이 벌어집니다. 과거에는 한 번 질문하고 한 번 답변을 받는 구조였습니다. 지금은 에이전트가 여러 단계로 계획을 세우고, 검색을 하고, 코드를 실행하고, 결과를 검증하고, 다시 수정합니다. 사용자는 버튼 한 번을 눌렀지만 내부에서는 수십 번의 모델 호출과 대량의 토큰이 오갈 수 있습니다.

그래서 “토큰 단가 하락”은 AI 기업의 비용 부담을 줄이는 동시에 더 많은 사용을 자극합니다. 기업은 더 복잡한 업무를 AI에게 맡기고, 개발자는 더 많은 에이전트를 병렬로 돌리며, 소비자는 더 긴 대화와 더 깊은 분석을 요구합니다. 토큰이 싸질수록 AI는 더 넓은 업무로 들어갑니다.

7. 투자자는 왜 토큰을 봐야 할까?

AI 투자 관점에서 토큰은 단순 기술 용어가 아닙니다. 토큰은 AI 산업의 매출 단위이자 원가 단위입니다. LLM 기업은 토큰을 팔고, 클라우드 기업은 토큰을 처리하는 인프라를 빌려주며, 반도체 기업은 더 많은 토큰을 만들 수 있는 장비를 팝니다.

따라서 AI 기업을 볼 때는 다음 질문을 던져야 합니다.

  • 이 회사는 토큰을 많이 팔수록 마진이 좋아지는가?
  • 출력 토큰과 추론 토큰 비용을 낮출 기술이 있는가?
  • 캐싱, 배치 처리, 모델 라우팅으로 비용을 줄이고 있는가?
  • AI 사용량 증가가 매출로 연결되는가, 아니면 비용만 키우는가?
  • 데이터센터 전력 제약 속에서 tokens per watt를 높일 수 있는가?

같은 AI 기업이라도 위치가 다릅니다. 모델 기업은 더 좋은 답변을 만들어 높은 토큰 가격을 받을 수 있어야 합니다. 인프라 기업은 토큰당 원가를 낮춰야 합니다. 애플리케이션 기업은 사용자가 지불하는 가치가 토큰 비용보다 커야 합니다.

결론: 토큰은 AI 시대의 전기요금표입니다

ChatGPT와 Claude에서 말하는 토큰은 단순한 글자 조각이 아닙니다. 토큰은 AI가 정보를 읽고, 추론하고, 답변을 만드는 기본 단위입니다. 동시에 AI 기업이 비용을 계산하고, 서비스를 과금하고, 인프라 효율을 비교하는 경제 단위입니다.

앞으로 AI가 더 많은 업무를 맡을수록 토큰은 더 중요해질 것입니다. 사용자는 토큰을 몰라도 AI를 쓸 수 있습니다. 하지만 AI 비용, 응답 속도, 모델 성능, 기업의 수익성을 이해하려면 토큰을 알아야 합니다.

토큰을 많이 쓴다고 항상 좋은 답변이 나오는 것은 아닙니다. 중요한 것은 “얼마나 많은 토큰을 썼는가?”가 아니라 “그 토큰이 실제 문제 해결에 얼마나 기여했는가?”입니다. AI 시대의 진짜 경쟁력은 더 많은 토큰을 쓰는 것이 아니라, 더 적은 비용으로 더 가치 있는 토큰을 만들어내는 데 있습니다.

참고 자료