“GPT는 거짓말을 너무 많이 하던데, 코딩은 클로드 코드가 최고라던데”
AI 모델 판도가 또 한 번 바뀌었다. OpenAI가 GPT-5.5와 GPT-5.5 Pro를 내놓으며 최전선(frontier) 자리를 다시 가져갔고, Anthropic은 Claude Opus 4.7로 코딩·자동화 라인을 새로 정비했다. Google은 Gemini 3.1 Pro로 100만 토큰 컨텍스트(한 번에 읽을 수 있는 텍스트 길이)와 Google 생태계를 한층 더 묶었고, MiniMax·DeepSeek·Qwen 같은 중국계 모델들이 저렴한 API와 오픈웨이트(누구나 내려받아 쓸 수 있는 공개 모델) 양쪽에서 가격 압박을 키우고 있다.
“GPT는 환각이 너무 심하더라”
“코딩은 Claude Code가 최고 아닌가요?”
“Gemini는 뒤처진 거예요?”
“MiniMax 같은 모델도 이제 무시 못한다면서요?”
이 글은 이런 질문들에 답한다. 다만 ‘한 모델이 모든 분야에서 1등’이라는 식의 답은 하지 않는다. ‘어떤 작업을 하느냐에 따라 1등이 달라지기 때문이다.’
이 글은 외전 1편 ‘AI 모델 선택 기준’과 짝을 이루는 글이다. 1편이 ‘시간이 지나도 바뀌지 않는 선택 기준 9가지’를 다뤘다면, 이번 글은 ‘그 기준 위에 2026년 5월 시점의 모델 라인업을 올려놓은 분기별 스냅샷’이다. 모델·가격·컨텍스트 같은 구체적인 숫자는 발행 직후에도 바뀔 수 있으니, 큰 구도와 포지셔닝 위주로 읽는 편이 좋다.

결론 먼저: 2026년 5월 기준 큰 구도
한 줄 요약: 최상위 경쟁은 GPT-5.5 vs Claude Opus 4.7. Gemini는 Google 생태계·가성비 카드, MiniMax는 저가 코딩 다크호스. 나머지는 각자 특화 영역이 있다.
| 포지션 | 모델/제품 | 한 줄 |
|---|---|---|
| 최상위 범용·검증형 | GPT-5.5 / GPT-5.5 Pro | 정확도 + 검색·도구 연동 + Pro 검증 워크플로 |
| 최상위 코딩·자동화 | Claude Opus 4.7 / Claude Code | 100만 토큰 컨텍스트, 장기 작업, 환각(거짓 정보 생성) 억제 개선 |
| Google 생태계·가성비·긴 컨텍스트 | Gemini 3.1 Pro | 100만 토큰, 멀티모달(텍스트·이미지·영상·음성), NotebookLM/Flow 등. 단 API 기준 Preview(시험판)라 운영 시 확인 필요 |
| 저가 코딩 다크호스 | MiniMax M2.7 | input $0.3 / output $1.2로 파격적 가격, 코딩 벤치마크 강세 주장 |
| 실시간 X(트위터) 검색 특화 | Grok 4 / Grok 4.20 | X Search·Web Search 내장, 도구 비용 별도 |
| 검색·출처 특화 | Perplexity Sonar Pro | 출처 기반 다단계 검색. 범용 모델과는 다른 카테고리 |
(이 표 외에도 Meta Llama 4 / Muse Spark, DeepSeek V4, Qwen 같은 특화 모델은 본문 뒤쪽 ‘메인 4종 밖에서 봐야 할 특화 모델들’ 섹션에서 별도로 다룬다.)
핵심 메시지 세 가지:
- '최상위 경쟁은 GPT-5.5 vs Claude Opus 4.7이다.' GPT는 검색·검증·도구 연동 + Pro 모델에서 강하고, Claude는 코딩 자동화·장기 작업·환각 억제에서 강하다.
- 'Gemini 3.1 Pro는 “절대 성능 1위”보다 Google 생태계 + 100만 토큰 + 가성비가 강점이다.' 차세대 Gemini는 Google I/O 2026(5월 19~20일)이 관전 포인트.
- 'Grok·Meta·MiniMax·DeepSeek·Qwen·Perplexity는 대체재가 아니라 각자 특화 카드다.' 검색·오픈웨이트·저가·중국계·검색 UX — 각자의 자리가 다르다.
먼저 고르면 이렇게
한 줄 요약: 세부 스펙을 보기 전에, 자기 자리부터 찾자.
| 나는 이런 사용자다 | 먼저 볼 것 |
|---|---|
| AI를 처음 써본다 | ChatGPT 무료 또는 Gemini 무료 앱 |
| 월 $20 전후로 일반 업무를 하고 싶다 | ChatGPT Plus 또는 Google AI Pro |
| 코딩을 자주 한다 | Claude Code 또는 ChatGPT Codex |
| 코딩을 아주 많이 한다 | Claude Max / ChatGPT $100 Pro / API 라우팅(작업별 모델 자동 배분) |
| 문서·영상·PDF·Google 앱을 많이 쓴다 | Gemini 3.1 Pro Preview / Google AI Pro |
| 실시간 X 여론·소셜 트렌드가 중요하다 | Grok |
| 검색 출처가 제일 중요하다 | ChatGPT Pro 또는 Perplexity Sonar Pro |
| 대량 처리 비용이 중요하다 | MiniMax / DeepSeek / Qwen + 최상위 모델 라우팅 |
| 민감 데이터·폐쇄망이 중요하다 | Gemma / Llama / Qwen 같은 오픈웨이트 |
| 디자인 워크플로 | Claude Design 또는 ChatGPT Images 2.0 |
이 표가 큰 그림이다. 글 마지막에는 ‘코딩을 얼마나 많이 하느냐’에 따라 더 좁혀 본 개인 추천 섹션을 따로 둔다.
가격 감각: $20 / $100 / $200 / API
한 줄 요약: “$20이면 충분”하던 시대가 끝났다. 무거운 작업은 $100/$200 또는 API 종량제로 옮겨가는 중.
2026년 5월 기준 가격 흐름은 꽤 분명하다.
- ‘OpenAI’: ChatGPT Plus $20는 일상 용도. 2026-04-09에 추가된 $100/월 Pro는 코딩(Codex) 헤비 사용자용으로, Plus 대비 한시적 최대 10배 Codex 사용량을 준다. $200 Pro도 유지 중.
- ‘Anthropic’: Claude Pro $20 + Max $100~. Max는 Pro 대비 5배 또는 20배 사용량 라인. Team premium seat은 5배 사용량 기준 연간 결제 시 월 $100. 보도에 따르면 Anthropic은 Claude Code 토큰 비용 추정치를 상향했고, 기업 배포 비용이 개발자당 월 $150~250 수준으로 올라갔다.
- ‘Gemini’: Google AI Pro/Ultra가 더 넉넉한 사용량 + Google 제품 추가 접근 권한. 유료 구간에서 Batch 50% 할인과 컨텍스트 캐싱(이전 대화 내용 재활용으로 비용 절감)이 비용 통제에 강력하다.
‘결론: AI 구독은 “$20이면 충분”에서 “$20은 일반 사용, $100은 코딩 중심, $200/API는 전문 워크로드”로 갈라지고 있다.’
운영 관점 팁: Pro/Max 구독을 무작정 올리는 대신, 작업별로 모델을 자동 배분하는 ‘API 라우팅'(외전 1편 참고)을 깔면 구독 비용을 올리지 않고도 비용을 통제할 수 있다.
이 글에서 말하는 “1등”의 의미
여기서 말하는 1등은 벤치마크 점수 1등이 아니다. 사용자마다 “1등”이 다르다.
- ‘일반 사용자의 1등’ — 쉽고 편하게 쓸 수 있는 모델
- ‘코딩 자동화의 1등’ — 코드를 가장 잘 짜주는 모델
- ‘검색·출처 기반 리서치의 1등’ — 정확한 출처를 잘 달아주는 모델
- ‘기업 API 운영의 1등’ — 안정성·보안·비용이 맞는 모델
- ‘$20 예산 안에서의 1등’ — 가성비가 가장 좋은 모델
이 다섯이 서로 다를 수 있다. 아래에서는 모델별 강점·약점을 정리한 뒤, 마지막에 ‘코딩을 얼마나 많이 하느냐’에 따라 좁혀 본 개인 추천을 따로 둔다.
이전 글에서 이어가기 — 9가지 기준 + Hard Gate
이 글은 외전 1편의 9가지 기준을 그대로 평가축으로 쓴다.
- ‘1단계 — Hard Gate(탈락 조건)’: 데이터 정책·서버 위치·폐쇄망·라이선스·운영 SLA 같은 ‘반드시 통과해야 하는 조건’. 못 넘으면 아무리 좋아도 후보에서 탈락.
- ‘2단계 — 가중치 점수’: 작업 성격·컨텍스트 크기·도구 호출·정형화된 출력·가격·응답 속도·데이터 정책 세부사항·로컬 실행 가능 여부·운영 안정성/언어 지원.
각 모델을 볼 때 ‘Hard Gate를 통과한다고 가정하고, 9개 기준 중 어디가 강하고 어디가 약한지’를 짚는다.
1. GPT-5.5 / GPT-5.5 Pro — 정확도·검증·도구 연동의 강자
한 줄 요약: 모델 하나만이 아니라, 검색·도구·Pro 추론이 합쳐졌을 때 진짜 강해진다. Plus($20)는 일상 용도, $100/$200 Pro는 무거운 작업용.
스펙 핵심
- ‘컨텍스트’: 약 105만 토큰(입력). 출력은 최대 12.8만 토큰. 읽을 수 있는 양은 크지만 답변 길이에는 한도가 있다.
- ‘입력’: 텍스트 + 이미지. 출력은 텍스트.
- ‘가격(API 기준, 100만 토큰당)’:
- GPT-5.5: 입력 $5 / 출력 $30 / 캐시 입력 $0.50, 대량 처리(Batch) 50% 절감
- GPT-5.5 Pro: 입력 $30 / 출력 $180. 캐시 할인 없음 (더 정밀한 답을 위해 연산을 더 쓰는 모델)
- ‘구독 라인’: ChatGPT Plus $20/월(일상 용도), $100/월 Pro(2026-04-09 추가, 코딩 헤비 사용자용으로 Plus 대비 한시적 최대 10배 Codex 사용량), $200 Pro도 유지.
- ‘이미지’: ChatGPT Images 2.0(2026-04-21 모든 플랜 제공). API 명칭은 ‘GPT-image-2’.
코딩은 Claude Code 아니에요?
Claude Code는 2026년 5월 기준 여전히 최고의 코딩 도구 중 하나다. 하지만 최근 ChatGPT에서도 Codex라는 별도의 앱을 출시하여 Claude Code를 바짝 추격하고 있다. 특히 Codex는 일반 사용자가 코드를 깊게 보지 않아도 자연어로 앱이나 웹을 만들 수 있는 방향으로 가고 있다. GPT-5.5의 Codex 통합, 브라우저 사용, 이미지 생성·편집 모델의 발전까지 묶이면 프론트엔드 개발에서도 강점이 커진다. 다만 아직은 “디자인부터 구현까지 완전히 자동화됐다”기보다, UI 목업·구현·검증을 한 워크플로 안에서 다루는 쪽에 가깝다.
‘ChatGPT $100 Pro’와 ‘GPT-5.5 Pro’는 다른 층의 개념이다
- ChatGPT $100 Pro는 구독 플랜이다. Codex 사용량, Pro 추론, 이미지 생성, deep research 같은 제품 사용량과 연결된다.
- GPT-5.5 Pro는 모델 이름이다. 일반 GPT-5.5보다 더 많은 연산을 써서 어려운 문제를 더 정밀하게 푸는 상위 모델이다.
- Codex에서는 계정·플랜·롤아웃 상태에 따라 사용할 수 있는 모델이 달라질 수 있다.
따라서 “$100 Pro = GPT-5.5 Pro 무제한”처럼 단순화하면 안 된다. 구독 플랜과 모델 접근권은 발행 시점의 공식 pricing/model picker 기준으로 확인해야 한다.
강점과 약점 요약
- ‘강한 곳’: 일반 업무, 검색 결합, 도구 연동, 정형화된 출력(JSON Schema 등), 검증 워크플로. OpenAI 생태계가 도구·검색·코드 실행 통합에서 가장 넓다.
- ‘주의할 곳’: Pro 모델은 추론을 더 많이 하는 모델이라 시간이 매우 오래 걸린다. 정확도가 중요한 작업의 플랜이나 검증 위주로 사용하고 평소에는 Pro보다 한단계 낮은 Thinking 에서 추론 단계만 조절해도 충분하다.
- ‘데이터 정책’: API 데이터는 명시적으로 동의하지 않으면 학습에 쓰이지 않는다고 안내. 남용 모니터링 로그는 기본 최대 30일 보관.
“GPT는 환각이 심하다”는 인상은 어디서 왔나
GPT 얘기가 나오면 자주 듣는 말이 있다. ‘”GPT는 환각(거짓 정보 생성)이 너무 심해요.”‘

이 인상에는 맥락이 있다. ChatGPT가 처음 유행하던 GPT-3.5 무료 버전 시기에는 자신감 있게 거짓말하거나 없는 출처를 만들어내는 문제가 분명한 약점이었다. 그 뒤 GPT-4o 시기에는 또 다른 화제가 됐다 — ‘”You hit the nail on the head!”‘, “정말 좋은 질문이에요!”처럼 사용자에게 과하게 비위 맞추는 화법(sycophancy)이 인터넷 밈이 될 정도였다. 잘못된 답에도 “정말 핵심을 찔렀어요!”로 동의해주는 모습이 누적되면서 ‘GPT는 신뢰가 안 간다’는 이미지가 굳어졌다. 모델이 GPT-5 라인까지 올라온 지금은 이 sycophancy도 많이 줄었지만, 그 인상은 여전히 따라다닌다.
2026년 4월의 GPT-5.5는 그때와 같은 모델이 아니다. 지식·추론·업무 실행·도구 연동 모두 크게 올라왔고, ChatGPT Pro는 모델 하나가 아니라 ‘검색·도구 호출·검증 워크플로·Pro 추론이 결합된 제품’에 가깝다. 그 결합 단위에서 보면 환각은 예전 같지 않다.
– ‘예전 GPT-3.5의 인상으로 지금 GPT-5.5를 판단하면 안 된다.’ 그 사이에 모델과 제품 양쪽이 크게 개선됐다.
– ‘그렇다고 환각률 1등이라고 단정해서도 안 된다.’ ChatGPT Pro의 진짜 강점은 모델 하나가 아니라 검색·도구·검증이 합쳐진 결과물이다. 평가도 그 단위로 해야 한다.
2. Claude Opus 4.7 / Claude Code — 코딩·자동화의 강자
한 줄 요약: 장기 코딩 작업과 자동화에서 강하고, 환각(거짓 정보)도 줄었다. AWS·Google Cloud·Microsoft에서도 쓸 수 있어 기업 환경에 유리. Pro($20)로는 부족하고 Max($100~)가 사실상 개발자 라인.
스펙 핵심
- ‘발표’: 2026-04-16. Claude 앱, API, Amazon Bedrock, Google Vertex AI, Microsoft Foundry에서 제공.
- ‘컨텍스트’: 100만 토큰 / 최대 출력 12.8만 토큰. 큰 코드베이스를 한 번에 읽히거나 장기 작업을 맡기는 데 유리하다.
- ‘가격(API, 100만 토큰당)’: Opus 4.7 — 입력 $5 / 출력 $25 / 캐시 히트 $0.50. 같은 라인에 Sonnet 4.6(균형형)과 Haiku 4.5(경량형)가 있어 3계층 구조.
- ‘구독 라인’: Pro $20, Max $100~. Max는 Pro 대비 5배 또는 20배 사용량. Team premium seat은 5배 사용량 기준 연간 결제 시 월 $100.
- ‘생태계’: Claude Code(코딩 자동화), Claude Design(디자인, 2026-04-17), Photoshop·Blender 등 창작 도구 연결 지원.
비용 측정에서 주의 — 토크나이저가 바뀌었다
Anthropic 가격표에 따르면, ‘Opus 4.7은 새 토크나이저(텍스트를 토큰으로 쪼개는 방식)를 써서 같은 텍스트가 이전 모델보다 최대 35% 더 많은 토큰으로 잡힐 수 있다.’ 토큰당 가격은 같지만, 같은 작업의 실제 비용이 올라갈 수 있다는 뜻이다. 가격표만 보지 말고 자기 작업으로 직접 비용을 측정해야 한다.
강점과 약점 요약
- ‘강한 곳’: 장기 코딩·복잡한 코드 리팩토링·자동화 워크플로·긴 문서 분석. 도구 호출과 정형화된 출력도 일관적이다. AWS Bedrock·Vertex·Foundry로도 제공돼 클라우드 격리가 필요한 기업 환경에 유리.
- ‘주의할 곳’: 출력 단가($25)는 GPT-5.5와 비슷하지만, ‘Claude Code로 자동화 작업을 돌리면 사용량이 빠르게 소진’돼서 Pro로는 부족하고 Max로 가는 경우가 많다.
- ‘데이터 정책’: 상업용 라인(API·Claude for Work·Claude Gov)은 입출력을 기본 학습에 쓰지 않는다고 안내. 개인용(Free/Pro/Max)은 별도 정책.
Claude Code 품질 이슈는 어떻게 봐야 하나
‘”Claude가 예전 같지 않다”는 커뮤니티 체감’이 있었다. 어떻게 해석할까.
Anthropic은 2026-04-23에 공식 사후 분석(포스트모템)을 공개했다. 원인은 모델 자체의 성능 저하가 아니라, ‘Claude Code 제품 쪽에서 생긴 세 가지 설정 변경’ 때문이었다.
- 기본 추론 강도 설정이 바뀜
- 유휴 세션의 추론 캐시 처리 버그
- 답변을 짧게 만들려는 시스템 프롬프트 변경
API와 모델 자체는 영향받지 않았고, 이슈는 2026-04-20 기준 해결됐다.
‘정리하면: “Claude 모델이 약해졌다”가 아니라 “Claude Code라는 제품의 안정성까지 같이 봐야 한다”가 더 정확하다.’
벤치마크에서도 Artificial Analysis는 Opus 4.7이 지능 지수(Intelligence Index) 상위권이며, 이전 Opus 4.6 대비 출력 토큰을 약 35% 덜 쓰면서 점수는 올렸고 환각률도 낮아졌다고 평가했다.
3. Gemini 3.1 Pro Preview — Google 생태계·긴 컨텍스트·가성비
한 줄 요약: “절대 1등”이라기보다 100만 토큰 컨텍스트, 멀티모달, NotebookLM/Flow/Canvas 같은 Google 생태계가 강한 대중형 카드. 단, API 기준 시험판(Preview)이라 운영 적용 전 확인 필요.
스펙 핵심
- ‘포지션’: Google의 가장 강력한 추론 Gemini 모델. 단 Google Cloud 문서상 ‘Preview(시험판)’로 표시돼 있어 정식 서비스(GA)와는 안정성 보장 수준이 다르다.
- ‘입력’: 텍스트, 이미지, 음성, 영상, PDF, 코드 저장소 — 다양한 형태를 한 번에 넣을 수 있는 멀티모달 지원.
- ‘컨텍스트’: 약 104.9만 토큰 입력 / 6.5만 토큰 출력. GPT-5.5나 Claude보다 출력 한도가 작다.
- ‘제품/요금’: 전 세계 Gemini 앱 배포, Google AI Pro/Ultra는 더 넉넉한 사용량 + NotebookLM·Whisk·Flow 같은 추가 제품 접근 권한.
- ‘데이터 정책’: 유료 구간의 API는 ‘사용자 콘텐츠를 제품 개선에 쓰지 않음’. 무료 구간과 유료 구간의 데이터 정책이 다르니 주의.
- ‘가격’: 대량 처리(Batch) 50% 할인, 컨텍스트 캐싱 등 비용 통제 옵션이 풍부해서 유료 구간 가성비가 뚜렷하다.
강점과 약점 요약
- ‘강한 곳’: 긴 문서 분석, 멀티모달(영상·음성·PDF), 일반 업무 보조, Google Workspace·Android·검색 통합. 대량 처리 할인과 캐싱 덕에 비용 통제가 용이하다.
- ‘주의할 곳’: GPT/Claude 대비 한국어권 자동화 사례가 적은 편이라 운영 검증은 별도로 해야 한다. API 기준 시험판이라 SLA(서비스 수준 보장)·지원 중단 리스크가 정식 모델보다 크다.
- ‘로컬/격리’: API + Vertex AI를 통한 클라우드 격리 옵션. 오픈웨이트가 필요하면 Gemma 4 라인이 별도로 있다.
화제성과 실제 자리는 구분해야 한다
화제성은 GPT-5.5 / Claude Opus 4.7 쪽으로 몰려 있는 게 사실이다. 그렇다고 Gemini를 ‘GPT/Claude보다 완전히 뒤처졌다’고 보면 과하다.
‘Gemini 3.1 Pro Preview는 “최고의 코딩 자동화 모델”보다 긴 컨텍스트·멀티모달·Google 생태계·가격·일반 사용자 편의성에서 강하다.’ ChatGPT Pro나 Claude Max까지 가지 않고도 일상 업무·문서·디자인·영상·검색을 넓게 쓰려면 여전히 매력적인 선택지다.
참고: ‘Gemini 차세대(4) 발표’ 얘기가 여러 매체에 있지만 공식 근거는 약하다. Google I/O 2026(5월 19~20일) 자체는 공식 일정이므로 관전 포인트 정도로 두자.
4. MiniMax M2.7 — 저가 코딩·에이전트 다크호스
한 줄 요약: API 입력 $0.3 / 출력 $1.2. Claude나 GPT의 상위 모델보다 훨씬 싸다. 특히 output 단가 기준으로는 20배 안팎의 차이가 난다. 코딩 벤치마크를 강하게 밀고 있어 예산 민감형 작업의 다크호스.
스펙 핵심
- ‘출시’: 2026-03-18. M2.7 / M2.7-highspeed 시리즈.
- ‘가격(종량제, 100만 토큰당)’:
- M2.7: 입력 $0.3 / 출력 $1.2
- M2.7-highspeed: 입력 $0.6 / 출력 $2.4
- ‘벤치마크 자체 주장’: SWE-Pro 56.22%, VIBE-Pro 55.6%, Terminal Bench 2 57.0% 등 코딩 관련 자체 평가를 적극 공개.
강점과 약점 요약
- ‘강한 곳’: 가격. 같은 작업을 GPT-5.5나 Claude로 돌렸을 때 대비 비용이 한 자릿수 차이다. ‘최상위 모델이 꼭 필요한 작업’과 ‘MiniMax로 충분한 작업’을 나눠서 보내면 비용이 크게 줄어든다.
- ‘주의할 곳’: GPT/Claude/Gemini 대비 브랜드 인지도와 운영 검증 사례가 적다. 도입 전에 자기 작업으로 직접 A/B 테스트를 해봐야 한다. 중국계 모델 공통으로 데이터 정책·서버 위치·법무 검토가 도입 자체의 조건이 될 수 있다.
어디에 어울리나
MiniMax M2.7은 최상위 브랜드 인지도는 없지만, ‘가격이 낮고 코딩 벤치마크를 강하게 밀고 있어 “예산 민감형 개발 작업”의 다크호스로 넣을 만하다.’ 조건은 두 가지: ① 데이터 정책·법무 검토 통과, ② 자기 작업으로 직접 품질 테스트. 이 둘이 되면 ‘저가 라인’ 자리에 강력한 후보다.
메인 4종 밖에서 봐야 할 특화 모델들 — Grok, Meta, DeepSeek, Qwen, Perplexity
한 줄 요약: GPT/Claude/Gemini의 대체재가 아니라 각자 특화 영역이 있는 모델들. 짧게 짚는다.
Grok 4 / Grok 4.20 (xAI) — 실시간 X(트위터) 검색 특화
- ‘Grok 4’는 실시간 검색 도구가 내장된 모델. SuperGrok/Premium+ 구독 또는 xAI API로 사용.
- ‘Grok 4.20’이 채팅/코딩 기본 추천. 검색 도구(Web Search·X Search·코드 실행)는 별도 단가 — 각각 1,000건당 $5.
- ‘자리’: X(트위터) 실시간 여론·소셜 트렌드가 핵심인 작업의 특화 카드. 기업 도입 시 데이터 정책·규제 리스크는 별도 점검.
Llama 4 / Muse Spark (Meta) — 오픈웨이트 + 대중 앱
- ‘Llama 4′(Scout/Maverick)는 누구나 내려받아 쓸 수 있는 오픈웨이트 멀티모달 모델.
- ‘Muse Spark'(2026-04 공개)는 Meta AI 앱을 구동하는 모델. Meta 측도 “최정상은 아니지만 격차를 줄였다, 코딩은 아직 부족”이라고 인정.
- ‘자리’: ‘절대 1등’은 아니지만, 오픈웨이트 + 무료 AI 앱 양쪽에서 무시할 수 없는 존재. 개발자에게는 Llama, 일반 사용자에게는 Meta AI 앱.
DeepSeek V4 (Pro/Flash) — 중국계 가격 파괴
- ‘V4 Preview’ 공개(2026-04). Pro는 코딩·프로그래밍 경시대회 특화, Flash는 빠르고 저렴. 100만 토큰 컨텍스트.
- ‘API 가격’: 2026-04-26부터 캐시 히트 가격을 1/10로, V4 Pro는 2026-05-31까지 75% 할인.
- ‘자리’: 가격 파괴가 강점이지만, 한국·미국 환경에서는 데이터 정책·서버 위치·API 안정성이 탈락 조건이 될 수 있다. ‘싸니까 추천’으로 쓰면 안 된다.
Qwen — 모델이 많아서 구분이 필요하다
Qwen은 라인업이 갈라져 있어 한 묶음으로 부르면 숫자가 헷갈린다.
- ‘Qwen3-Coder-Next’: 기본 256K 컨텍스트, 확장 시 100만까지. ‘오픈웨이트 코딩 모델’.
- ‘qwen3-coder-plus’: Alibaba Cloud의 클라우드 API 라인. Global 배포 기준 100만 컨텍스트 / 6.5만 출력.
공식 문서상 Global deployment mode에서는 endpoint와 data storage가 US Virginia 또는 Germany Frankfurt에 위치한다. Chinese Mainland 모드는 Beijing 리전이다.
- ‘자리’: ‘ChatGPT 대체 앱’보다 개발자용 코딩 모델·오픈웨이트/클라우드 API 선택지. MiniMax/DeepSeek과 묶어 ‘중국계 코딩 라인’으로 검토.
Perplexity Sonar Pro — 검색·출처 특화
- ‘Pro Search’는 복잡한 질문에 여러 웹 검색을 자동으로 돌려 출처와 함께 답하는 모델.
- ‘가격’: 100만 토큰당 입력 $3 / 출력 $15, 검색 유형·컨텍스트에 따른 요청 수수료 별도.
- ‘자리’: GPT/Claude/Gemini와 같은 범용 경쟁이 아니라, ‘웹 검색·출처·리서치가 본질인 자리의 별도 카테고리’. 평가도 모델 점수가 아니라 ‘검색 비용 + 출처 정확도 + 검색 UX’로 봐야 한다.
‘여기까지는 공식 문서와 공개 벤치마크 기준의 정리다. 아래부터는 내 개인 사용 기준의 추천이다.’
개인 사용 기준 추천: 코딩을 얼마나 많이 하느냐에 따라
한 줄 요약: 위 표가 일반 추천이라면, 여기는 코딩 중심으로 예산·정확도·속도별로 좁혀 본 개인 사용 경험.
위 사용자 유형 표가 큰 그림이라면, 여기는 더 좁고 주관적인 추천이다. 코딩(특히 ‘바이브 코딩’ — AI에게 대화하듯 코딩을 시키는 방식)을 중심에 두고, 예산·정확도·속도 중 어느 축이 우선이냐에 따라 어떤 조합이 무난한지를 개인 경험으로 정리했다.
1. 바이브 코딩, $20 안쪽에서 시작하고 싶다 → Gemini + Antigravity
‘Google Antigravity’는 Gemini 중심의 AI 개발 환경이다. 코드 자동완성 도구라기보다, ‘AI가 계획 → 코딩 → 터미널 실행 → 브라우저 확인까지 이어가는 통합 개발 환경(IDE)’에 가깝다. 가볍게 바이브 코딩을 시작한다면 Gemini 앱/Google AI Pro + Antigravity 조합이 진입 장벽이 낮다.
내 체감상 $20 전후 예산에서는 사용량이 넉넉하게 느껴졌다. 심지어 Antigravity에서 한 세대 이전 모델인 Claude Opus 4.6도 어느 정도 쓸 수 있다.
2. 코딩을 좀 많이 하지만 $100까진 OK → ChatGPT $100 Pro
ChatGPT $100 Pro 구독이 Codex 사용량 기준으로 가장 무난하다. 코딩 헤비 사용자를 직접 겨냥한 라인이라 일관성이 높다. ‘최상위 모델 단일 구독에서 가장 안정적인 선택지.’
3. 절약하면서 한 단계 더 → GPT + MiniMax 조합
조금 복잡하지만 비용 효율이 큰 패턴. ‘GPT로 설계를 먼저 짜고, 실제 구현 작업은 MiniMax에게 맡긴다.’ 핵심은 이거다: ‘비싼 모델은 설계·리뷰·검증에 쓰고, 싼 모델은 반복 구현·파일 수정·대량 변환에 쓴다.’ 이 배분을 코드로 자동화해 두면 매번 손으로 옮길 필요도 없다.
4. 교차검증으로 정확도 최우선 → ChatGPT $100 Pro + Claude Max 5x (현재 내 조합)
ChatGPT Pro 모델로 플랜을 짜고, Claude Code로 초안을 작성하고, 다시 GPT Codex로 코드 리뷰를 하고 피드백이 있다면 Claude Code에게 반영한다. ‘한쪽이 놓친 설계·버그·문서 누락을 다른 쪽이 잡아주는 경우가 많다.’ 월 $200대 + 정확도 최우선 자리. 개인적으로 지금 이 조합을 쓰고 있다.
5. 작업이 많고 속도도 빨라야 한다 → Claude Max 20x
Claude Code는 큰 작업을 여러 하위 작업으로 쪼개고, 각 작업을 별도 흐름처럼 동시에 진행하는 패턴에서 강하다. 여러 줄기의 작업을 동시에 맡기면 사용량을 빠르게 소모하기 때문에, 정말 많이 쓰는 사람에게는 Max 20x가 체감상 차이가 난다.
이 다섯은 어디까지나 개인 사용 경험이고, 팀·고객사·법무 조건에 따라 답이 얼마든지 달라질 수 있다. 위 사용자 유형 표와 외전 1편의 9가지 기준을 자기 상황에 맞게 다시 매기는 게 우선이다.
마치며: '최고 모델'이 아니라 '내 작업의 1등 모델'
이 글의 핵심은 이거다. ‘2026년 5월에도 1등은 한 명이 아니다.’
요약하면:
- ‘최상위 경쟁’은 GPT-5.5와 Claude Opus 4.7이 이끈다. GPT는 검색·검증·도구 연동에서 강하고, Claude는 코딩 자동화·장기 작업·환각 억제에서 강하다.
- ‘Gemini 3.1 Pro Preview’는 뒤처진 모델이라기보다 Google 생태계·100만 토큰·멀티모달·가격이 강한 대중형 카드.
- ‘MiniMax M2.7’은 가격 대비 성능에서 다크호스. 데이터 정책 통과 + 자체 품질 테스트가 조건.
- ‘Grok·Meta·DeepSeek·Qwen·Perplexity’는 대체재가 아니라 각자의 특화 카드.
- ‘구독은 갈라지는 중’. $20 일상 용도, $100 코딩 중심, $200/API 전문 워크로드.
- ‘라인업이 바뀌어도 기준은 같다.’ 외전 1편 9가지 기준으로 같은 방식으로 결정하면 된다.
다음 라인업 비교는 분기 단위로 갱신할 예정이다. 라인업이 또 흔들려도 ‘기준 글’은 같다.
‘탈락 조건을 먼저, 점수는 그다음. 모델 이름은 설정 파일에. 라인업은 분기마다 갱신해도 프레임은 1~2년을 간다.’