OpenAI、Realtime API向け音声AIモデル3種を発表
Ledge AI
2026年5月11日 (月)
- •OpenAIがRealtime API向けに推論・翻訳・文字起こしの次世代音声モデル3種を発表
- •「GPT-Realtime-2」は推論能力を強化し、ツール呼び出しや128Kコンテキストに対応
- •翻訳モデルとストリーミング文字起こしモデルにより、多言語対応と低遅延処理を実現
OpenAIは2026年5月7日、Realtime API向けの次世代音声モデル群として、「GPT-Realtime-2」、「GPT-Realtime-Translate」、「GPT-Realtime-Whisper」の3種類を発表した。
「GPT-Realtime-2」はGPT-5クラスの推論能力を備え、会話中のツール呼び出しや、コンテキストウィンドウ(AIモデルが一度の処理で認識・記憶できる情報の範囲)を32Kから128Kへ拡大し、複雑なタスクに対応する。トーン制御や複数のツール並列呼び出し機能も搭載した。
「GPT-Realtime-Translate」は、70以上の入力言語から13の出力言語へリアルタイムで翻訳を行う。「GPT-Realtime-Whisper」は、発話中に低遅延で文字起こしを行うストリーミング音声認識モデルである。これらのモデルはRealtime APIを通じて提供され、安全対策として有害コンテンツ検出機能を備えている。