この記事の要点は？

Q: この記事の要点は？

OpenAIがRealtime API向けに推論・翻訳・文字起こしの次世代音声モデル3種を発表 「GPT-Realtime-2」は推論能力を強化し、ツール呼び出しや128Kコンテキストに対応 翻訳モデルとストリーミング文字起こしモデルにより、多言語対応と低遅延処理を実現

OpenAIがRealtime API向けに推論・翻訳・文字起こしの次世代音声モデル3種を発表「GPT-Realtime-2」は推論能力を強化し、ツール呼び出しや128Kコンテキストに対応翻訳モデルとストリーミング文字起こしモデルにより、多言語対応と低遅延処理を実現

OpenAI、Realtime API向け音声AIモデル3種を発表 | aib vote

OpenAI、Realtime API向け音声AIモデル3種を発表

Ledge AI

2026年5月11日 (月)

•OpenAIがRealtime API向けに推論・翻訳・文字起こしの次世代音声モデル3種を発表
•「GPT-Realtime-2」は推論能力を強化し、ツール呼び出しや128Kコンテキストに対応
•翻訳モデルとストリーミング文字起こしモデルにより、多言語対応と低遅延処理を実現

OpenAIは2026年5月7日、Realtime API向けの次世代音声モデル群として、「GPT-Realtime-2」、「GPT-Realtime-Translate」、「GPT-Realtime-Whisper」の3種類を発表した。

「GPT-Realtime-2」はGPT-5クラスの推論能力を備え、会話中のツール呼び出しや、コンテキストウィンドウ(AIモデルが一度の処理で認識・記憶できる情報の範囲)を32Kから128Kへ拡大し、複雑なタスクに対応する。トーン制御や複数のツール並列呼び出し機能も搭載した。

「GPT-Realtime-Translate」は、70以上の入力言語から13の出力言語へリアルタイムで翻訳を行う。「GPT-Realtime-Whisper」は、発話中に低遅延で文字起こしを行うストリーミング音声認識モデルである。これらのモデルはRealtime APIを通じて提供され、安全対策として有害コンテンツ検出機能を備えている。

OpenAIは2026年5月7日、Realtime API向けの次世代音声モデル群として、「GPT-Realtime-2」、「GPT-Realtime-Translate」、「GPT-Realtime-Whisper」の3種類を発表した。

原文(日本語)を読む·2026年5月8日

#openai #realtime api #gpt realtime #conversational ai #speech recognition