料金プラン 問い合わせ ブログ ログイン

Gemini 3 Flash(2025/12/18時点): “軽量版”の常識を壊しに来た、爆速フロンティア推論モデル

公開日: 2025-12-18 12:52:48

   

カテゴリ: AI

318 PV

Gemini 3 Flash(2025/12/18時点): “軽量版”の常識を壊しに来た、爆速フロンティア推論モデル

2025年12月17日(米国時間)、Googleは Gemini 3 Flash を正式に発表・提供開始しました。従来の「Flash=速いけど軽い」ではなく、Pro級の推論をFlash級のレイテンシとコストで回す、かなり攻めた立ち位置です。Geminiアプリのデフォルトも2.5 Flashから置き換わり、SearchのAI Modeにも展開が始まっています。(blog.google)


TL;DR(まず結論)

  • Geminiアプリのデフォルトになり、Search(AI Mode)にもグローバル展開。(blog.google)
  • APIでは gemini-3-flash-preview として利用可能(現時点はプレビュー扱い)。(Google AI for Developers)
  • 1Mトークン級の長文と、Thinking(推論深度制御)をFlashで回せるのが肝。(Google Cloud Documentation)
  • 価格は(目安)入力 $0.50 / 1M tokens、出力 $3.00 / 1M tokens(思考トークン込みの扱いに注意)。(Google AI for Developers)

1. 何がリリースされたのか(提供状況)

Googleの公式ブログでは、Gemini 3 Flashを「frontier intelligence built for speed」として打ち出し、GeminiアプリSearchのAI Modeで利用できること、さらに開発者向けには Gemini API / Google AI Studio / Vertex AI / Android Studio / Gemini CLI などへ広く提供するとしています。(blog.google)

Search側のアップデート記事でも、AI ModeのデフォルトがGemini 3 Flashになった旨が明確に書かれています。(blog.google)


2. スペックの要点(開発者が押さえるべき仕様)

コンテキストと出力

Gemini 3 Flashはモデルカード上でも長文・マルチモーダル推論の評価が示されており、API/プロダクト利用の前提として「長い文脈を読ませて推論させる」用途に向きます。

また、APIドキュメント上は 1M級の入力と、大きな出力上限が特徴として整理されています(プレビュー中の仕様変更はあり得ます)。(Google AI for Developers)

Thinking(推論深度)を“段階”で制御

Vertex AIの公式ドキュメントでは、Gemini 3系は thinking_level(minimal / low / medium / high)で内部推論量を制御し、品質・推論難度・レイテンシ・コストのバランスを取れると説明されています。なお、Gemini 3では thinking_budget を置き換える位置づけです。(Google Cloud Documentation)


3. ベンチマーク(公式モデルカードが示す“Flashの異常値”)

Gemini 3 Flashのモデルカードには、2025年12月時点の評価テーブルが掲載されており、GPQA Diamond 90.4%MMMU-Pro 81.2%SWE-bench Verified 78.0%など、Flashとしては“強すぎる”数字が並びます。

そしてモデルカード本文でも、幅広いベンチマークで Gemini 2.5 Proを上回る旨が明記されています。


4. 価格(コスパが武器。ただし“課金ポイント”は要確認)

Gemini APIの価格表では、Gemini 3 Flash Previewの単価として概ね以下が示されています。(Google AI for Developers)

  • 入力(text / image / video):$0.50 / 1M tokens
  • 入力(audio):$1.00 / 1M tokens
  • 出力:$3.00 / 1M tokens(thinking tokensを含む表記)(Google AI for Developers)

見落としがちなポイント①:推論トークンも出力課金側に含まれる

価格表は「Output price (including thinking tokens)」という書き方になっており、Thinkingを上げる=品質が上がる可能性がある一方、コストも増えやすい構造です。(Google AI for Developers)

見落としがちなポイント②:Grounding課金の開始日

Gemini APIのchangelogでは、Grounding with Google SearchのGemini 3課金が2026/01/05開始と明記されています(今は無料枠/条件が絡む可能性があるので運用前に要確認)。(Google AI for Developers)


5. “FlashでThinking”が意味するもの(実務での効き方)

これまでのFlash系は、サクッと返す代わりに「深く考える」局面ではPro系に寄せる必要がありました。Gemini 3 Flashは Thinkingレベルを可変にできるので、たとえば:

  • チャットUIやFAQ:minimal/lowで“体感速度”最優先
  • 複数ツールを使うエージェント:medium/highで“失敗率”を下げる
  • コーディングのバグ調査:lowで回して、詰まったらhighで再実行

というように、1つのモデルで運用設計が組みやすいのが価値です(=モデル切替の複雑性を減らせる)。thinking_levelの説明は公式が明示しています。(Google Cloud Documentation)


6. 向いているユースケース(2025年末の“勝ち筋”)

公式ブログは、Gemini 3 Flashを コーディング、複雑な分析、インタラクティブアプリでの高速応答に強いモデルとして推しています。(blog.google) モデルカード側でも「agentic workflows / everyday coding / reasoning & planning / multimodal analysis」に適すると整理されています。

現場目線でまとめると:

  • エージェント開発(ツール利用前提):速い=試行回数が回る、Thinkingで失敗率も抑えられる
  • リアルタイム対話:待たせない体感速度が正義
  • 大量インプット分析:長文・マルチモーダルを“安く”読ませる設計がしやすい

7. 注意点(導入前チェック)

既知の制限・許容利用は“Pro側のモデルカード参照”の扱い

Gemini 3 Flashのモデルカードは、Known Limitations / Acceptable Usage の詳細について Gemini 3 Proのモデルカード参照と明記しています。 つまり、運用ポリシーやリスク判断は「Flashのページだけ読んで終わり」にしない方が安全です。

安全性(自動評価の差分は提示されている)

Flashのモデルカードには、2.5 Flashとの比較で安全性・トーン・不当拒否(unjustified refusals)などの差分が表で掲載されています。


参考文献

  • Google Product Blog: “Gemini 3 Flash” 公式発表記事 (blog.google)
  • Google Search Blog: “AI Mode update: Gemini 3 Flash…”(AI Modeのデフォルト展開)(blog.google)
  • Google Cloud Docs (Vertex AI): “Gemini 3 Flash” (thinking_level 等)(Google Cloud Documentation)
  • Google AI for Developers: Gemini API Pricing(単価・thinking tokens込みの表記)(Google AI for Developers)
  • Google AI for Developers: Gemini API Changelog(Grounding課金開始日)(Google AI for Developers)
  • Google DeepMind: “Gemini 3 Flash Model Card” (ベンチ表・用途・制限参照)
  • The Verge 報道(アプリ/検索への展開、位置づけの要約)(The Verge)