OpenAI、フラグシップモデル「GPT-4o」を発表。人間並みのスピードで音声入力情報に反応できる
末にある「o」は「Omni」の頭文字。音声・視覚・テキストをすべてリアルタイムで処理
OpenAIは5月14日、ChatGPTの新しいフラグシップモデル「GPT-4o」を発表した。末にある「o」は「Omni」の頭文字だという。
GPT-4oは音声、視覚、テキストの各種入力情報に対応しており、それぞれの形で出力できる。音声入力は232ミリ秒で、平均で320ミリ秒で反応できる。これは人間が会話における反応速度と同程度。英語とコードのパフォーマンスはGPT-4 Turboと同等で、英語以外の言語も高速化を実現している。
GPT-4oは順次展開される予定。テキストと画像の機能は本日よりすべてのユーザーに提供される。音声モードのアルファ版は今後数週間以内にChatGPT Plusユーザー向けに提供する。
Say hello to GPT-4o, our new flagship model which can reason across audio, vision, and text in real time: https://t.co/MYHZB79UqN
Text and image input rolling out today in API and ChatGPT with voice and video in the coming weeks. pic.twitter.com/uuthKZyzYx
— OpenAI (@OpenAI) May 13, 2024
もっと読む
2024.05.14
2024.05.13
2023.08.08
2023.03.24
2023.03.23
2023.03.15
2022.07.08
2018.04.17
2017.10.07
2017.06.21
コメント(0件)