こんにちは、CINC 開発本部です。今回は Codex に追加された GPT-5 系モデルを CLI 環境で試し、その体験をまとめました。公式説明では「長時間駆動」や「大規模タスク処理」が強調されていますが、実際の開発ワークフローにどう組み込めるのかを検証しました。
1. Codex について
Codex は、単なるコード生成 AI ではなく「エージェント型の開発支援環境」として進化しています。CLI、IDE、クラウド、GitHub といった複数の環境で利用でき、コードレビューや依存関係解決、サンドボックスでの検証までサポートする点が特徴です。さらに、ネットワーク制御や承認モードなど安全設計が標準で備わっており、開発現場で安心して利用できる基盤が整っています。
モデル一覧

2. 各モデルを使ってみた感想
GPT-5 minimal
- 速い。CLI で「修正 → 実行 → 検証」を回すサイクルに適している。
- 関数レベルの精度は十分。小さなタスクは安定してこなせる。
- 曖昧な指示からのマクロ生成は精度が揺らぐが、細分化すれば解決可能。
GPT-5 medium
- 考察を必要とするタスクに強み。要件定義や設計判断、UI/UX 整理に活躍。
- minimal より遅いが、設計や意思決定の精度を担保できる。
- 背景や理由付けを整理する工程に適している。
GPT-5 Codex(medium / high)
- 処理が遅い。マクロ実装を任せると 40〜60 分かかることも。
- 精度は悪くないが、ローカル CLI で権限制限があると“考えすぎ”で止まりやすい。
- 長時間稼働 + 広い権限のあるサンドボックス/クラウド環境向き。
- プロトタイプをgithub側から1発で作る等の用途には優れているのかもしれないですがエンジニアと会話しながらの実装には向いてないかも。
3. 感想を前提にした「個人的に良さそうな進め方」

- 要件・仕様作成:GPT-5 medium で自然言語の仕様書を作成(マクロ的なタスク)。
- 実装:GPT-5 minimal に落とし込み、コードを具体化(ミクロ的なタスク)。
- エラー対応:まず GPT-5 minimal で修正。構造的に問題がある場合のみ GPT-5 medium に戻す。
- UI/UX 調整:GPT-5 medium にユーザー体験まで考察させてデザインや体験を整える。
この進め方によって、minimal のスピードと medium の思考補助を両立でき、CLI 前提の開発で効率的に回せると感じました。
4. 実際に todo アプリを作ってみた
開発ステップ
- 仕様作成(medium):API/データモデル/画面設計をドキュメント化。
- 実装(minimal):Flask + React + Nginx を docker-compose で構築。
- トラブル対応(minimal → medium):502、ポート競合、依存不足を minimal で修正。構造的に怪しい場合のみ medium に戻す。
- UI/UX 改良(medium):ペルソナ定義、情報設計を経て UI をブラッシュアップ。
🖼 アプリ画面イメージ

手応え
- 20分くらいで全部できた
- minimal が高速で実装の回転を支えてくれた。
- medium が設計・改善の精度を担保してくれた。
- デザインはわりと指示適当でやりましたが悪くはないんじゃないでしょうか。
まとめ
今回はCodexの新モデルをCLI環境で触ってみた所感についてまとめました。
新しく発表されたgpt5-codexについて、精度は高いのかもしれないですがその推論の長さから、ペアプロ的開発には向かなそうでした。
逆に追加されたgpt-5系のモデルは個性があり、使い分けを上手くしていくことでこれまで以上の精度で開発を進められそうな予感がしました。
まだまだ使えてない設定等あると思うので、効率的な運用方法など発見したら発信できればと思います。