GPT-5 API 사용법 완전 가이드 — Responses API 전환·파라미터 튜닝 7

GPT-5 API의 핵심 변경점과 배경
- GPT-4.1 대비 주요 변경 요약
Responses API와 Chat Completions API 비교 기준
GPT-5 API SDK 설치와 기본 호출 코드
- 데이터 파이프라인 통합 시 고려사항
verbosity 파라미터로 GPT-5 API 출력 길이 제어
- reasoning_effort와 verbosity 조합 전략
- max_tokens와의 관계
freeform function calling과 CFG 제약 활용
GPT-4.1에서 GPT-5로 마이그레이션 실전 가이드
GPT-5 API 성능 비교와 파라미터 튜닝 벤치마크
GPT-5 API 도입 전략과 다음 단계

Responses API가 Chat Completions 대비 점수 73.9%에서 78.2%로 향상되었다는 테스트 결과가 공개되면서, GPT-5 API 개발자 사용법의 핵심은 기존 Chat Completions에서 Responses API로의 전환이 되었다. 토큰 효율까지 개선된 수치를 보면, 단순한 인터페이스 변경이 아니라 모델 성능 자체에 영향을 주는 구조적 차이가 존재하는 셈이다.

이 글에서는 GPT-5에서 달라진 API 호출 방식, 새로 도입된 파라미터(verbosity, reasoning_effort), freeform function calling, 그리고 GPT-4.1에서의 마이그레이션 전략을 비교분석 관점에서 다룬다. 데이터 파이프라인에 LLM을 통합하는 백엔드 개발 시나리오를 기준으로, 어떤 API를 선택하고 어떤 파라미터를 조합해야 비용과 성능을 동시에 잡을 수 있는지 정리한다.

GPT-5 API의 핵심 변경점과 배경

GPT-5는 단순한 모델 업그레이드가 아니다. API 호출 구조 자체가 달라졌다는 점이 가장 큰 변화이며, 기존 GPT-4.1 기반 코드를 그대로 사용하면 최적 성능을 얻지 못하는 구조가 된 것이다.

OpenAI는 GPT-5에서 Chat Completions API 대신 Responses API 사용을 공식 권장한다. 테스트 결과 Responses API가 Chat Completions 대비 점수 73.9%에서 78.2%로 향상되었으며, 토큰 효율도 개선된 것으로 나타났다. 이는 Responses API의 previous_response_id 파라미터를 통해 도구 호출 간 추론 컨텍스트를 재사용할 수 있기 때문이다. 멀티턴 대화나 에이전트 워크플로에서 매번 전체 컨텍스트를 재전송하지 않아도 되므로, 토큰 소비량이 구조적으로 줄어드는 방식이다.

Chat Completions에서 Responses API로 전환 필요
GPT-5에서 Chat Completions API는 여전히 동작하지만, 성능 점수와 토큰 효율 모두 Responses API가 우위다. 신규 프로젝트는 Responses API로 시작하고, 기존 프로젝트는 마이그레이션 계획을 수립해야 한다.

또한 GPT-5는 verbosity 파라미터(low/medium/high)를 새로 지원하고, reasoning_effort를 low/medium/high 3단계로 조절할 수 있게 되었다. freeform function calling이라는 완전히 새로운 도구 호출 방식도 추가되었는데, 이 모든 변경이 동시에 적용되기 때문에 기존 프롬프트와 파라미터 설정을 전면 재검토해야 하는 상황이 된 것이다.

GPT-4.1 대비 주요 변경 요약

GPT-4.1에서 GPT-5로 마이그레이션할 때 반드시 확인해야 할 변경 사항이 있다. 파일 편집에는 apply_patch CLI를 사용하고, Responses API의 추론 지속성(reasoning persistence)을 활용해야 한다. 가장 주의할 점은, 기존에 사용하던 공격적인 ‘maximize context’ 지시를 제거해야 한다는 것이다. GPT-5는 맥락을 자체적으로 탐색하므로 과도한 도구 호출 독려 문구도 줄여야 효율적인 결과를 얻을 수 있다.

항목	GPT-4.1	GPT-5
권장 API	Chat Completions	Responses API
컨텍스트 관리	수동 메시지 배열 관리	previous_response_id로 자동
도구 호출	JSON 래핑 필수	freeform function calling 지원
출력 길이 제어	max_tokens만 사용	verbosity 파라미터 추가
추론 제어	없음	reasoning_effort (low/medium/high)
프롬프트 스타일	명시적 도구 사용 독려 필요	과도한 지시 제거 권장

이 비교표에서 확인할 수 있듯이, GPT-5는 모델이 자율적으로 판단하는 영역이 넓어진 대신, 개발자가 세밀하게 제어할 수 있는 파라미터도 함께 늘어난 구조다.

Responses API와 Chat Completions API 비교 기준

GPT-5 API 개발자 사용법에서 가장 먼저 결정해야 할 사항은 어떤 API를 쓸 것인가의 문제다. Responses API와 Chat Completions API를 비교할 때 실무적으로 중요한 기준은 네 가지로 압축된다.

호출 구조 차이

Chat Completions API는 messages 배열에 role과 content를 담아 보내는 기존 방식을 유지한다. 반면 Responses API는 instructions와 input을 분리하여 전달하는 구조로, 시스템 프롬프트와 사용자 입력이 명확하게 분리되는 형태다. 이 구조적 차이가 성능 차이의 원인 중 하나인 것으로 보인다.

컨텍스트 재사용 방식

Chat Completions API에서 멀티턴 대화를 구현하려면 이전 메시지를 전부 messages 배열에 포함시켜야 한다. 토큰 수가 턴마다 선형으로 증가하는 구조인 셈이다. Responses API는 previous_response_id 파라미터로 이전 응답을 참조하므로, 서버 측에서 컨텍스트를 관리하여 클라이언트가 보내는 토큰량을 줄일 수 있다.

성능 수치

GPT-5 프롬프팅 가이드에 따르면, 동일 태스크에서 Responses API가 73.9%에서 78.2%로 점수가 향상되었다. 약 4.3%p 차이는 단일 모델 내에서 API 선택만으로 발생하는 격차이므로, 프로덕션 환경에서는 무시할 수 없는 수준이다.

비용 구조

토큰 효율이 개선되었다는 것은 동일한 결과를 얻는 데 필요한 입력 토큰이 줄어든다는 의미다. 데이터 파이프라인처럼 대량 호출이 발생하는 시나리오에서는 Responses API의 컨텍스트 재사용이 비용 절감에 직접적으로 기여하게 된다. 다만, 모델별 정확한 가격($/MTok)은 platform.openai.com 공식 문서에서 직접 확인이 필요하며, 공식 문서에 명시되지 않은 부분이 있다.

비용 비교 시 유의사항
모델별 정확한 토큰 단가는 OpenAI 공식 pricing 페이지에서 직접 확인해야 한다. 본 글 작성 시점(2026-04 기준) 공식 가격표 직접 검증이 불가했으므로, 구체적 달러 수치는 생략한다.

## GPT-5 API SDK 설치와 기본 호출 코드

실제 코드로 두 API의 차이를 확인하는 것이 가장 빠른 이해 방법이다. openai-python SDK 설치부터 시작한다.

pip install openai

설치 후 아래 코드로 Responses API와 Chat Completions API를 각각 호출할 수 있다. openai-python SDK 저장소에서 최신 버전을 확인하는 것을 권장한다.

from openai import OpenAI

client = OpenAI()

# Responses API
response = client.responses.create(
    model="gpt-5.2",
    instructions="You are a coding assistant.",
    input="How do I check if a Python object is an instance of a class?",
)
print(response.output_text)

# Chat Completions API
completion = client.chat.completions.create(
    model="gpt-5.2",
    messages=[
        {"role": "developer", "content": "Talk like a pirate."},
        {"role": "user", "content": "How do I check if a Python object is an instance of a class?"},
    ],
)
print(completion.choices[0].message.content)

코드에서 확인할 수 있는 구조적 차이는 명확하다. Responses API는 instructions와 input이 별도 파라미터로 분리되어 있고, 응답은 response.output_text로 바로 접근 가능하다. Chat Completions API는 messages 배열에 role 기반으로 구성하며, completion.choices[0].message.content로 결과를 꺼내야 하는 기존 방식을 그대로 따른다.

데이터 파이프라인 통합 시 고려사항

ETL 파이프라인이나 배치 처리에서 GPT-5 API를 호출할 때, Responses API의 previous_response_id는 특히 유용하다. 예를 들어 문서 분류 → 요약 → 메타데이터 추출이라는 3단계 파이프라인이 있다면, 각 단계의 응답 ID를 다음 단계에 전달하여 컨텍스트를 유지할 수 있는 구조가 된다. Chat Completions API로 같은 작업을 하려면 이전 단계의 전체 메시지를 매번 재전송해야 하므로, 단계가 늘어날수록 토큰 비용 격차가 커지게 된다.

previous_response_id 활용 패턴
멀티스텝 에이전트나 데이터 파이프라인에서는 첫 번째 호출의 response.id를 저장한 뒤, 후속 호출의 previous_response_id에 전달하면 된다. 서버가 이전 컨텍스트를 유지하므로 클라이언트 측 토큰 관리 로직을 단순화할 수 있다.

## verbosity 파라미터로 GPT-5 API 출력 길이 제어

GPT-5에서 새로 도입된 verbosity 파라미터는 출력 길이를 3단계로 제어한다. 기존 max_tokens가 “최대 몇 토큰까지 생성할지”를 제한하는 하드 리밋이었다면, verbosity는 모델이 “얼마나 상세하게 답변할지”를 조절하는 소프트 가이드 역할을 하는 것이 차이점이다.

verbosity	평균 출력 토큰	용도
low	~560 토큰	분류, 라벨링, 짧은 응답
medium	~849 토큰	일반 질의응답, 요약
high	~1288 토큰	상세 분석, 코드 생성, 문서 작성

GPT-5 새 파라미터 및 도구 가이드에 따르면, low 설정 시 약 560토큰, medium 849토큰, high 1288토큰으로 출력 길이가 대략 선형 비례하는 것으로 확인된다. low에서 high로 갈수록 약 2.3배 차이가 나므로, 용도에 따라 비용을 상당히 조절할 수 있는 구조인 셈이다.

reasoning_effort와 verbosity 조합 전략

reasoning_effort를 minimal로 설정하면 추론 토큰을 최소화하여 지연 시간과 TTFT(Time-To-First-Token)를 줄일 수 있다. verbosity와 reasoning_effort는 독립적인 파라미터이므로 조합에 따라 네 가지 이상의 시나리오가 만들어진다.

시나리오	reasoning_effort	verbosity	적합 용도
최소 비용	low	low	대량 분류, 감성 분석 배치
빠른 응답	low	medium	챗봇 실시간 응답
균형	medium	medium	일반 API 서비스
최대 품질	high	high	코드 리뷰, 기술 문서 생성

데이터 파이프라인 관점에서 보면, 배치 처리 단계마다 파라미터 조합을 다르게 가져가는 것이 비용 최적화의 핵심이 된다. 예를 들어 첫 번째 분류 단계는 reasoning_effort=low, verbosity=low로 빠르게 처리하고, 이상 탐지된 건에 대해서만 reasoning_effort=high, verbosity=high로 상세 분석을 수행하는 2단계 전략이 가능하다.

max_tokens와의 관계

verbosity는 max_tokens를 대체하는 것이 아니다. max_tokens는 여전히 하드 리밋으로 작동하며, verbosity는 그 범위 내에서 모델이 얼마나 상세하게 응답할지를 결정하는 가이드라인에 해당한다. verbosity=high로 설정하더라도 max_tokens=500이면 500토큰에서 잘리게 되므로, 두 파라미터를 함께 고려해야 한다. verbosity=low인데 max_tokens를 매우 크게 설정하면 불필요한 버퍼가 생기는 것이므로, 용도에 맞게 양쪽을 정렬시키는 편이 합리적이다.

freeform function calling과 CFG 제약 활용

GPT-5의 freeform function calling은 기존 function calling의 근본적인 제약을 해소하는 기능이다. 기존에는 도구 호출 결과가 반드시 JSON 스키마로 래핑되어야 했지만, freeform function calling은 JSON 래핑 없이 Python 스크립트, SQL 쿼리, 셸 명령 등 원시 텍스트 페이로드를 커스텀 도구로 직접 전달하는 방식으로 동작한다.

기존 function calling과의 차이

항목	기존 function calling	freeform function calling
출력 형식	JSON 스키마 필수	원시 텍스트 (Python, SQL, Shell 등)
래핑 오버헤드	JSON 직렬화/역직렬화 필요	직접 전달, 파싱 불필요
SQL 생성	범용 SQL만 가능	방언별 생성 지원 (MS SQL, PostgreSQL 등)
출력 제약	JSON Schema	CFG (Lark/Regex 문법)

데이터 엔지니어링 관점에서 이 변화는 상당히 의미가 크다. 기존에는 모델이 SQL 쿼리를 생성하면 JSON으로 감싸진 문자열을 다시 파싱해서 실행해야 했다. freeform function calling은 SQL 쿼리를 그대로 출력하므로, 파이프라인 중간의 파싱 레이어를 제거할 수 있게 되는 것이다.

SQL 방언 지원

특히 주목할 점은 SQL 방언별 생성 지원이다. MS SQL의 SELECT TOP N과 PostgreSQL의 LIMIT N처럼, 동일한 의도를 데이터베이스 엔진에 따라 다른 문법으로 생성할 수 있다. 데이터 웨어하우스 환경에서 여러 데이터 소스를 다루는 경우, 타겟 데이터베이스에 맞는 SQL을 별도 변환 없이 직접 생성할 수 있어 파이프라인 복잡도가 줄어드는 효과가 있다.

CFG 제약으로 출력 형식 강제

Context-Free Grammar(CFG) 제약을 통해 Lark 또는 Regex 문법으로 출력 형식을 강제할 수 있다는 점도 중요하다. JSON Schema보다 유연한 제약 조건을 걸 수 있으므로, 예를 들어 “반드시 SELECT로 시작하고 세미콜론으로 끝나는 문자열”이라는 조건을 Regex로 정의하면, 모델이 유효하지 않은 SQL을 생성할 확률을 크게 줄일 수 있다.

CFG 제약의 실무 적용 범위
CFG 제약은 SQL뿐 아니라 YAML, TOML, 커스텀 DSL 등 정형화된 텍스트 포맷에 모두 적용 가능하다. 다만 복잡한 문법일수록 제약 정의 자체가 어려워지므로, 단순한 포맷부터 적용하는 것이 현실적인 접근이다.

## GPT-4.1에서 GPT-5로 마이그레이션 실전 가이드

기존 GPT-4.1 기반 서비스를 GPT-5로 마이그레이션할 때, 모델명만 바꾸면 되는 것이 아니다. 프롬프트 전략 자체를 수정해야 하며, 수정하지 않으면 오히려 성능이 떨어질 수 있다.

제거해야 할 프롬프트 패턴

GPT-4.1에서는 모델이 충분한 컨텍스트를 활용하도록 “모든 관련 정보를 최대한 활용하라”, “가능한 한 많은 도구를 호출하라” 같은 명시적 지시가 효과적이었다. GPT-5에서는 이런 공격적인 ‘maximize context’ 지시를 제거해야 한다. GPT-5는 맥락을 자체적으로 탐색하므로 과도한 도구 호출 독려 문구가 오히려 불필요한 토큰 소비를 유발하기 때문이다.

구체적으로 제거하거나 수정해야 할 패턴은 다음과 같다:

❌ 제거 대상 프롬프트 패턴 (GPT-4.1 스타일)
- "Use all available tools to gather maximum context"
- "Always search before answering"
- "Retrieve as much information as possible"

✅ GPT-5 권장 스타일
- 필요한 경우에만 도구를 사용하도록 자연스럽게 유도
- 구체적인 작업 목표만 명시, 방법론은 모델에 위임

추론 지속성(reasoning persistence) 활용

Responses API의 추론 지속성은 GPT-5 마이그레이션의 핵심 이점 중 하나다. 이전 응답의 추론 과정이 다음 호출에 전달되므로, 복잡한 멀티스텝 작업에서 “이전에 왜 이런 결론을 내렸는지”를 모델이 기억하는 효과가 있다. Chat Completions API에서는 이 기능을 사용할 수 없으므로, 추론 지속성이 필요한 워크플로에서는 Responses API로 전환해야 하는 것이다.

reasoning_effort 단계별 설정

reasoning_effort는 low/medium/high 3단계로 작업 복잡도에 따라 조절한다. 단순 분류 작업에 high를 사용하면 불필요한 추론 토큰이 소비되고, 복잡한 코드 리뷰에 low를 사용하면 품질이 떨어지게 된다.

마이그레이션 체크리스트
GPT-4.1 → GPT-5 전환 시 확인 항목: (1) Chat Completions를 Responses API로 변경, (2) ‘maximize context’ 류 프롬프트 제거, (3) apply_patch CLI 도입, (4) reasoning_effort를 작업 복잡도에 맞게 설정, (5) previous_response_id 기반 컨텍스트 재사용 구현.

## GPT-5 API 성능 비교와 파라미터 튜닝 벤치마크

앞서 다룬 파라미터들이 실제로 어떤 차이를 만드는지, 수치 기반으로 정리한다.

API별 성능 비교

가장 기본적인 비교는 같은 모델(gpt-5.2)에서 API만 다를 때의 성능 차이다.

비교 항목	Chat Completions API	Responses API	차이
태스크 점수	73.9%	78.2%	+4.3%p
토큰 효율	기준	개선	컨텍스트 재사용으로 감소
멀티턴 구현	messages 배열 수동 관리	previous_response_id	자동화

4.3%p 차이는 절대값으로 보면 작아 보일 수 있으나, 대량 배치 처리에서는 전체 정확도에 유의미한 영향을 미치게 된다. 특히 분류 정확도가 비즈니스 로직에 직결되는 파이프라인에서는 이 격차가 곧 오분류 건수의 차이로 이어지는 구조다.

verbosity별 토큰 소비 비교

verbosity 파라미터에 따른 출력 토큰 변화는 거의 선형적인 관계를 보인다.

verbosity	출력 토큰	low 대비 비율	비용 영향
low	~560	1.0x	최소
medium	~849	1.5x	중간
high	~1288	2.3x	최대

low에서 high로 전환하면 출력 토큰이 2.3배 증가한다. 일일 10만 건 호출 기준으로 환산하면, verbosity 선택만으로 출력 토큰 비용이 2배 이상 달라질 수 있는 셈이다. 배치 처리에서는 대부분의 건을 low로 처리하고, 상세 분석이 필요한 이상치에만 high를 적용하는 2단계 전략이 비용 효율적이다.

최적 파라미터 조합 시나리오

데이터 파이프라인에서 자주 등장하는 작업 유형별 권장 설정을 정리하면 다음과 같다.

작업 유형	API	reasoning_effort	verbosity	근거
로그 분류	Responses	low	low	단순 라벨링, 속도 우선
텍스트 요약	Responses	medium	medium	품질과 비용 균형
SQL 쿼리 생성	Responses	medium	low	freeform FC + CFG 제약 활용
코드 리뷰	Responses	high	high	정확도 최우선
문서 QA	Responses	medium	high	상세 답변 필요

모든 시나리오에서 Responses API를 권장하는 이유는 성능 점수와 토큰 효율 양쪽 모두에서 우위이기 때문이다. Chat Completions API가 적합한 경우는 기존 코드베이스의 마이그레이션 비용이 너무 클 때, 즉 기술 부채를 당장 해소할 수 없는 과도기에 한정되는 편이다.

GPT-5 API 도입 전략과 다음 단계

GPT-5 API 개발자 사용법의 핵심을 요약하면 세 가지로 압축된다. 첫째, Chat Completions에서 Responses API로 전환하여 4.3%p 성능 향상과 토큰 효율 개선을 확보하는 것이 최우선이다. 둘째, verbosity와 reasoning_effort 파라미터를 작업 유형별로 분리 적용하여 비용을 제어해야 한다. 셋째, freeform function calling과 CFG 제약을 활용하면 데이터 파이프라인의 중간 파싱 레이어를 제거할 수 있다.

GPT-5는 “모델만 바꾸면 되는” 업그레이드가 아니다. API 구조, 프롬프트 전략, 파라미터 조합 모두 재설계가 필요하며, 이 재설계의 완성도가 같은 모델을 쓰더라도 비용과 품질에서 차이를 만드는 핵심이다.

GPT-5 Responses API가 안정화되면, 다음으로 살펴볼 영역은 에이전트 프레임워크와의 통합이다. previous_response_id 기반의 추론 지속성은 LangChain이나 OpenAI Agents SDK 같은 프레임워크에서 멀티에이전트 워크플로를 구성할 때 핵심 빌딩 블록이 된다. 또한 freeform function calling을 활용한 text-to-SQL 파이프라인 구축도 데이터 엔지니어링 관점에서 탐색할 만한 주제이며, GPT-5 verbosity 파라미터를 A/B 테스트로 최적화하는 방법론도 실무에서 바로 적용 가능한 영역이다.

GPT-5 API 사용법 완전 가이드 — Responses API 전환·파라미터 튜닝 7단계

목차

GPT-5 API의 핵심 변경점과 배경

GPT-4.1 대비 주요 변경 요약

Responses API와 Chat Completions API 비교 기준

호출 구조 차이

컨텍스트 재사용 방식

성능 수치

비용 구조

데이터 파이프라인 통합 시 고려사항

reasoning_effort와 verbosity 조합 전략

max_tokens와의 관계

freeform function calling과 CFG 제약 활용

기존 function calling과의 차이

SQL 방언 지원

CFG 제약으로 출력 형식 강제

제거해야 할 프롬프트 패턴

추론 지속성(reasoning persistence) 활용

reasoning_effort 단계별 설정

API별 성능 비교

verbosity별 토큰 소비 비교

최적 파라미터 조합 시나리오

GPT-5 API 도입 전략과 다음 단계