GPT-5 출시 새 기능 4가지 완전 정리 — API 파라미터·마이그레이션 실전 가이드

목차

OpenAI가 공개한 GPT-5의 입력 토큰 가격은 GPT-4o의 절반 수준이다. 모델 변형은 gpt-5, gpt-5-mini, gpt-5-nano 세 가지로 나뉘고, GPT-5.1과 GPT-5.2까지 빠르게 후속 버전이 이어졌다. GPT-5 출시 새 기능 정리를 한 번도 안 해봤다면, 지금이 적기인 셈이다. Verbosity 파라미터, Freeform Function Calling, Context-Free Grammar, reasoning_effort 조절 같은 API 레벨 변경이 한꺼번에 쏟아졌고, 기존 GPT-4o는 이미 은퇴(retired) 처리됐다.

API 레벨에서 무엇이 달라지는지 Q&A 형태로 정리한다.

GPT-5 출시 새 기능 정리 — 전체 그림부터 보자

“GPT-5가 나왔다는데, 정확히 뭐가 몇 개 나온 건가?”라는 질문을 가장 많이 받는다.

GPT-5는 단일 모델이 아니라 시리즈다. API에서 사용 가능한 모델 변형은 다음과 같다.

모델 ID특성적합 용도
gpt-5범용, 최고 성능복잡한 추론, 긴 문서 분석
gpt-5-mini저비용·저지연실시간 채팅, 분류 작업
gpt-5-nano경량임베딩 전처리, 단순 변환

GPT-5.0에서 도입된 핵심 기능은 4가지로 정리된다.

  • Verbosity 파라미터: 응답 길이를 low/medium/high로 제어
  • Freeform Function Calling: JSON 래핑 없이 Python·SQL 등 원시 텍스트를 커스텀 툴에 직접 전달
  • Context-Free Grammar: Lark·Regex 기반으로 출력 구문을 구조적으로 제약
  • Minimal Reasoning: reasoning_effort="minimal"로 추론 토큰을 최소화

이후 GPT-5.1(2025-11)과 GPT-5.2가 순차 출시되면서 reasoning_effort 옵션이 확장되고, 에이전틱 워크플로 전용 기능이 추가됐다. Responses API 사용이 권장되며, 기존 Chat Completions API도 동작하지만 신규 파라미터 일부는 Responses API 전용이다.

GPT-5.0 → GPT-5.1(2025-11) → GPT-5.2 순서로 출시됐다. 각 버전은 reasoning_effort 옵션 확장과 도구(tool) 개선에 집중했다. GPT-5.3·5.4·5.5는 ChatGPT 인터페이스 전용으로 순차 적용 중이나, 공식 API 파라미터 변경 내역은 공식 문서에 명시되어 있지 않다.

Verbosity 파라미터와 Freeform Function Calling은 뭐가 다른가

“Verbosity랑 Function Calling이 같이 나왔다는데, 둘 다 출력 제어 아닌가?”라는 질문이 자주 온다. 목적이 다르다.

Verbosity — 응답 길이 조절

Verbosity는 모델의 응답 분량을 제어하는 파라미터다. low로 설정하면 핵심만 짧게 답하고, high로 설정하면 배경 설명과 예시까지 포함한 긴 응답을 생성한다. 코드로 보면 직관적이다:

response = client.responses.create(
    model="gpt-5-mini",
    input="Write a poem about a boy and his dog",
    text={"verbosity": "high"}
)

이 파라미터가 유용한 경우는 명확하다. 고객 대면 챗봇에서는 low로 짧게 답하고, 기술 문서 초안 생성에서는 high로 상세하게 뽑는 식이다. medium이 기본값이라 별도 설정 없이도 동작하는 구조다.

Freeform Function Calling — JSON 래핑 제거

기존 Function Calling은 모델 출력을 반드시 JSON 스키마로 래핑해야 했다. SQL 쿼리를 생성하려면 {"query": "SELECT * FROM users"} 형태로 감싸야 하고, Python 코드도 문자열로 이스케이프해야 하는 불편함이 있었다.

Freeform Function Calling은 이 제약을 제거한다. Python, SQL, Bash 등 원시 텍스트를 커스텀 툴에 직접 전달할 수 있게 된 것이다. 이 방식은 코드 생성 에이전트를 만들 때 JSON 파싱 오류를 구조적으로 없앨 수 있다는 점이 핵심이다.

Freeform Function Calling 활용 시나리오
데이터 분석 에이전트에서 SQL을 직접 생성·실행하거나, CI/CD 파이프라인 에이전트에서 셸 스크립트를 바로 실행하는 구조에 적합하다. JSON 래핑이 사라지면서 후처리 코드도 단순해진다.
### Context-Free Grammar — 출력 구문 강제

Context-Free Grammar(CFG)는 Lark 문법이나 Regex 패턴으로 모델 출력의 구문을 강제하는 기능이다. JSON Schema보다 유연한 출력 제어가 가능해진다. 예를 들어 “반드시 YAML 형식으로 출력하라”거나 “특정 DSL 문법을 따르라”는 제약을 문법 수준에서 걸 수 있다.

Verbosity가 “얼마나 길게”를 제어한다면, CFG는 “어떤 형식으로”를 제어한다. Freeform Function Calling이 “어디로 전달하느냐”를 바꾼다면, CFG는 “출력 자체의 문법”을 바꾸는 셈이다. 세 기능은 레이어가 다르므로 조합해서 사용하기도 한다.

GPT-5 신규 파라미터·도구 실습 노트북에서 Verbosity, Freeform Function Calling, CFG의 실행 예제를 직접 확인할 수 있다.

GPT-5 reasoning_effort 설정, 어떤 값을 써야 하는가

“reasoning_effort를 minimal로 쓰면 얼마나 빨라지는가? 품질은 괜찮은가?”가 두 번째로 많이 받는 질문이다.

GPT-5.0의 reasoning_effort 옵션

GPT-5.0은 reasoning_effort를 minimal, low, medium, high 네 단계로 지원한다. minimal로 설정하면 추론 토큰을 최소화해서 응답 속도가 빨라지고 비용도 줄어든다. 단, 복잡한 수학 문제나 다단계 논리 추론에서는 품질 저하가 발생할 수 있다.

시나리오별 권장값을 정리하면 이렇다:

시나리오권장 reasoning_effort이유
고객 문의 분류minimal단순 분류, 추론 불필요
코드 리뷰 요약low가벼운 분석
버그 원인 분석high다단계 추론 필요
아키텍처 설계 조언high트레이드오프 비교 필요

GPT-5.1에서 추가된 ‘none’ 모드

GPT-5.1(2025-11)은 reasoning_effort에 none 모드를 추가했다. 추론 토큰 자체를 사용하지 않아 저지연 응답이 가능한 구조다. 프롬프트 난이도에 맞춰 토큰 소비가 자동 보정되는 메커니즘도 함께 도입됐다.

noneminimal보다도 한 단계 아래다. 간단한 텍스트 변환, 포맷팅, 분류 같은 작업에서는 추론 토큰이 필요 없으므로 none이 비용 대비 효율이 가장 높다. 반면, 코드 생성이나 논리 추론이 필요한 작업에서 none을 쓰면 출력 품질이 급격히 떨어진다.

GPT-5.2에서 추가된 ‘xhigh’ 레벨

GPT-5.2는 반대 방향으로도 확장했다. xhigh 레벨이 추가되어, high보다 더 깊은 추론이 가능해졌다. GPT-5.1 대비 토큰 효율이 향상되고 불필요한 장황함이 줄었으며, 명령 준수(instruction adherence)와 구조적 추론이 강화된 것이 특징이다.

reasoning_effort 스펙트럼 (GPT-5.2 기준):

none → minimal → low → medium → high → xhigh
 ↑                                        ↑
저지연·저비용                        최고 추론 품질
(추론 토큰 0)                      (토큰 소비 최대)
reasoning_effort 선택 시 비용 주의
`xhigh`는 추론 토큰을 가장 많이 소비한다. 프로덕션에서 모든 요청에 `xhigh`를 적용하면 비용이 급증할 수 있다. 대부분의 요청은 `medium` 이하로 처리하고, 복잡한 추론이 확실히 필요한 경우에만 `high` 또는 `xhigh`를 사용하는 전략이 현실적이다.
## GPT-5.1에서 달라진 도구(Tool) 시스템은 무엇인가

“GPT-5.1에서 apply_patch가 바뀌었다고 하는데, 기존 코드 수정해야 하나?”라는 질문도 빈번하다.

apply_patch 도구의 변경

GPT-5.1에서 apply_patch 도구가 JSON 기반에서 named function call 방식으로 변경됐다. 이 변경으로 패치 실패율이 35% 감소했다는 것이 핵심이다. 기존에 JSON으로 패치 내용을 전달할 때 발생하던 이스케이프 오류, 들여쓰기 깨짐 같은 문제가 구조적으로 줄어든 셈이다.

response = client.responses.create(
    model="gpt-5.1",
    input=RESPONSE_INPUT,
    tools=[{"type": "apply_patch"}]
)

도구 타입으로 "apply_patch"를 지정하면 모델이 코드 수정 사항을 named function call 형태로 반환한다. 기존 Chat Completions API의 function calling과 달리, Responses API에서는 도구 정의가 간결해진다.

shell 도구 추가

GPT-5.1에서는 shell 도구도 새로 추가됐다. 타임아웃과 출력 길이 제한이 내장되어 있어, 에이전트가 셸 명령을 실행할 때 무한 루프나 과도한 출력으로 인한 문제를 방지할 수 있다.

이 두 도구의 조합이 의미하는 것은 명확하다. GPT-5.1부터 코드 수정(apply_patch)과 명령 실행(shell)을 모델이 직접 수행하는 에이전틱 워크플로가 API 레벨에서 지원되기 시작한 것이다.

인격·톤·출력 포맷 제어(Steerability) 개선

GPT-5.1은 steerability도 개선했다. 시스템 프롬프트에서 지정한 인격, 톤, 출력 포맷을 더 정확하게 따르도록 모델이 튜닝됐다. 이전 버전에서 시스템 프롬프트를 무시하는 경우가 간혹 있었다면, GPT-5.1에서는 그 빈도가 줄어든 것으로 보고되고 있다.

GPT-5.1 프롬프팅 가이드에서 apply_patch, shell 도구의 구체적인 사용 패턴을 확인할 수 있다.

GPT-5.1 도구 변경 요약
apply_patch는 JSON → named function call로 전환(패치 실패율 35% 감소). shell 도구가 신규 추가(타임아웃·출력 제한 내장). 두 도구 모두 Responses API 전용이다.
## GPT-5.2 Compact 엔드포인트는 언제 쓰는가

“에이전트를 오래 돌리면 컨텍스트가 넘치는데, GPT-5.2에서 해결책이 나왔다는 게 사실인가?”라는 질문에 대한 답이다.

/responses/compact 엔드포인트

GPT-5.2는 /responses/compact 엔드포인트를 도입했다. 장기 에이전틱 워크플로에서 누적된 컨텍스트를 손실 인지 압축(loss-aware compaction)하는 기능이다. 단순히 오래된 메시지를 잘라내는 것이 아니라, 중요도를 판단하여 핵심 정보를 유지하면서 컨텍스트 길이를 줄이는 방식이다.

에이전트가 수십 번의 도구 호출을 거치면서 컨텍스트 윈도우가 가득 차는 상황은 실무에서 흔하다. 기존에는 개발자가 직접 요약 로직을 구현하거나, 오래된 메시지를 잘라내는 방식으로 대응해야 했다. /responses/compact는 이 작업을 API 레벨에서 처리한다.

GPT-5.2의 토큰 효율 개선

GPT-5.2는 GPT-5.1 대비 토큰 효율이 향상됐다. 불필요한 장황함(verbosity와 별개의 개념)이 줄어서, 같은 품질의 응답을 더 적은 토큰으로 생성하는 경향이 있다. 명령 준수(instruction adherence)와 구조적 추론도 강화되어, 복잡한 시스템 프롬프트를 더 정확하게 따른다.

스타트업 관점에서 /responses/compact가 중요한 이유는 비용과 직결되기 때문이다. 에이전트가 장시간 동작할 때 컨텍스트 윈도우를 효율적으로 관리하면 입력 토큰 비용이 크게 줄어든다. 특히 고객 지원 에이전트나 코드 리뷰 에이전트처럼 긴 세션을 유지해야 하는 경우에 효과가 크다.

GPT-5.2 프롬프팅 가이드에서 compact 엔드포인트의 동작 방식과 권장 패턴을 확인할 수 있다.

에이전트 컨텍스트 관리 흐름:

[도구 호출 1] → [도구 호출 2] → ... → [도구 호출 N]
                                          ↓
                               컨텍스트 윈도우 포화
                                          ↓
                            /responses/compact 호출
                                          ↓
                          손실 인지 압축 (핵심 유지)
                                          ↓
                            [도구 호출 N+1] 계속

GPT-4o에서 GPT-5로 마이그레이션, 지금 해야 하는가

이 질문에 대한 답은 “이미 늦었을 수 있다”에 가깝다.

2026-02-13 기준으로 GPT-4o, GPT-4.1, GPT-5(Instant/Thinking)가 ChatGPT에서 은퇴(retired) 처리됐다. 기존 대화는 GPT-5.3 Instant, GPT-5.4 Thinking, GPT-5.4 Pro로 자동 전환된 상태다. 최신 GPT-5.5는 Plus, Pro, Business, Enterprise 사용자에게 순차 출시 중이다.

GPT-4o·GPT-4.1 은퇴 주의
API에서 GPT-4o·GPT-4.1 모델 ID를 사용 중이라면 마이그레이션 계획이 필요하다. ChatGPT 인터페이스에서는 이미 자동 전환이 완료됐지만, API 사용자는 직접 모델 ID를 변경해야 한다. 정확한 API 지원 종료 일정은 공식 문서에 명시되어 있지 않다.
### 마이그레이션 체크리스트

GPT-4o에서 GPT-5로 전환할 때 확인해야 할 항목을 정리하면 다음과 같다.

1단계 — 모델 ID 변경: gpt-4ogpt-5, gpt-5-mini, gpt-5-nano 중 적절한 것으로 교체한다. 비용과 성능 요구사항에 따라 선택이 달라진다.

2단계 — API 엔드포인트 전환: 신규 기능(Verbosity, Freeform Function Calling, CFG 등)을 사용하려면 Responses API로 전환하는 것이 권장된다. Chat Completions API에서도 기본 기능은 동작하지만, 일부 신규 파라미터는 Responses API 전용이다.

3단계 — reasoning_effort 설정: GPT-4o에는 없던 파라미터이므로, 각 요청 유형에 맞는 값을 설정해야 한다. 설정하지 않으면 기본값이 적용되지만, 비용 최적화를 위해 명시적으로 지정하는 것이 낫다.

4단계 — Function Calling 검토: 기존 JSON 기반 Function Calling은 그대로 동작한다. 다만 Freeform Function Calling을 도입하면 JSON 래핑을 제거할 수 있어 코드가 단순해지는 이점이 있다.

GPT-5 시리즈 버전 비교

GPT-5.0  → Verbosity, Freeform FC, CFG, reasoning_effort(4단계)
GPT-5.1  → reasoning_effort 'none', apply_patch 개선, shell 도구
GPT-5.2  → reasoning_effort 'xhigh', /responses/compact
GPT-5.3~ → ChatGPT 전용 (API 파라미터 변경 내역 미공개)

GPT-5.3, 5.4, 5.5의 공식 API 파라미터 변경 내역은 공식 문서에 명시되어 있지 않다. ChatGPT 인터페이스에서 사용 가능한 것과 API에서 사용 가능한 것은 별개이므로, API 개발자는 GPT-5.2까지의 스펙을 기준으로 개발하는 것이 안전하다.

GPT-5 모델 선택, 비용은 어떻게 계산하는가

“gpt-5, gpt-5-mini, gpt-5-nano 중에 뭘 써야 하나? 가격 차이는 얼마나 나는가?”도 빈번한 질문이다.

GPT-5 입력 토큰 가격은 GPT-4o의 절반이라는 점이 가장 먼저 눈에 들어온다. 성능은 올라갔는데 비용은 내려간 것이다. 다만 GPT-5 시리즈의 정확한 토큰당 비용 표는 공식 소스에서 직접 검증하지 못한 상태다.

모델 선택 기준은 작업 복잡도에 따라 세 가지로 나뉜다.

gpt-5 (범용): 복잡한 추론, 긴 문서 처리, 멀티스텝 에이전트에 적합하다. 가장 높은 성능을 제공하지만 비용도 세 모델 중 가장 높다.

gpt-5-mini (저비용·저지연): 실시간 채팅, 텍스트 분류, 간단한 코드 생성에 적합한 모델이다. 대부분의 프로덕션 워크로드에서 gpt-5-mini가 비용 대비 성능이 가장 좋은 경우가 많다.

gpt-5-nano (경량): 임베딩 전처리, 단순 텍스트 변환, 포맷 변경 같은 가벼운 작업에 쓴다. 성능보다 속도와 비용이 우선인 경우에 선택한다.

스타트업에서 흔한 패턴은 라우팅 방식이다. 요청의 복잡도를 판단하는 경량 분류기를 앞단에 두고, 간단한 요청은 gpt-5-nano로, 중간 복잡도는 gpt-5-mini로, 복잡한 요청만 gpt-5로 보내는 구조가 비용 효율적이다. reasoning_effort 설정과 모델 선택을 함께 조합하면 비용을 더 세밀하게 제어할 수 있다.

조합추론 품질비용지연
gpt-5 + xhigh최고최고높음
gpt-5 + medium높음중간중간
gpt-5-mini + low중간낮음낮음
gpt-5-nano + none최저최저최저

OpenAI GPT-5 모델 페이지에서 각 모델의 컨텍스트 윈도우 크기와 지원 기능을 확인할 수 있다.

모델 라우팅 전략
요청 복잡도를 사전 분류하여 gpt-5-nano → gpt-5-mini → gpt-5로 라우팅하면 전체 API 비용을 크게 줄일 수 있다. reasoning_effort도 요청별로 다르게 설정하는 것이 권장된다.
## GPT-5 출시 새 기능 정리 — 핵심 요약과 다음 단계

GPT-5 시리즈는 단순한 성능 향상이 아니라, API 사용 방식 자체를 바꾸는 변경이 핵심이다. reasoning_effort로 추론 깊이를 제어하고, Freeform Function Calling으로 JSON 래핑을 제거하며, Compact 엔드포인트로 장기 에이전트의 컨텍스트를 관리하는 구조가 GPT-5 시리즈의 설계 방향이다.

GPT-5 입력 토큰 가격이 GPT-4o의 절반이면서 기능은 크게 늘었다. GPT-4o·GPT-4.1은 이미 은퇴했다. 마이그레이션은 선택이 아니라 일정의 문제다.

다음 최적화 지점은 reasoning_effort를 요청 유형별로 세분화하는 것이다. Freeform Function Calling 기반 에이전트 아키텍처는 JSON 래핑 제거 이후 설계 패턴이 달라지는 영역이다. GPT-5.5 vs Claude 모델 간 비교는 기술 스택 선택에서 별도로 검토할 주제다.

관련 글

이 글 공유하기