ChatGPTのGPT-4oが公開されました｜ブログ｜京都・滋賀・のシステム開発Auto-IDフロンティア株式会社

2024/05/13

情報

ChatGPTのGPT-4oが公開されました

みなさん、こんにちは。
クリエイティブSecの長谷川です。

さて、5月14日にChatGPTの新モデル「GPT-4o」が公開されました。
この「4o」というモデルですが、これまでのモデルと何が変わったのでしょうか？

正確には「4 omni」

いきなり余談ですが、「omni（オムニ)」とは「全…」や「総…」のような「すべての」といったことを意味します。
では、GPTにとって、この「omni(すべての)」は何を意味するのでしょうか？

これまでバージョンの数字的なものとして、「4」というナンバリングでは
すでに「4」「4-Turbo」とあり
それらとどのような違いがあるのか注目されています。

より自然な人間とコンピューターの対話への一歩です

OpenAIのChatGPT-4oの紹介ページでは、表題のように書かれています。
https://openai.com/index/hello-gpt-4o/

上記ページの概要をもう少し見てみましょう。

it accepts as input any combination of text, audio, image, and video and generates any combination of text, audio, and image outputs. It can respond to audio inputs in as little as 232 milliseconds, with an average of 320 milliseconds, which is similar to human response time(opens in a new window) in a conversation. It matches GPT-4 Turbo performance on text in English and code, with significant improvement on text in non-English languages, while also being much faster and 50% cheaper in the API. GPT-4o is especially better at vision and audio understanding compared to existing models.

【和訳】

GPT-4oは、音声、ビジョン、テキストをリアルタイムで処理できる新しいフラッグシップモデルです。GPT-4oはテキスト、音声、画像、動画を入力として受け取り、これらの形式で出力を生成します。応答速度は232ミリ秒と速く、英語とコードの処理でGPT-4 Turboと同等の性能を発揮し、多言語対応、視覚認識、音声理解においても優れたパフォーマンスを示します。APIでは2倍の速さで、コストは半分になっています。
Hello GPT-4o

音声、ビジョン、テキストをリアルタイムで処理でき、応答速度も早いとのことですが、つまりどういうことなのか？
YouTubeでTSB NEWS DIGがGPT-4oについてのニュースの動画を公開していますが
その中でも利用されているOpenAIがデモンストレーションしている映像を見ると
かなり人間とに近いような会話ができているように見られます。