ChatGPTのGPT-4oが公開されました
みなさん、こんにちは。
クリエイティブSecの長谷川です。
さて、5月14日にChatGPTの新モデル「GPT-4o」が公開されました。
この「4o」というモデルですが、これまでのモデルと何が変わったのでしょうか?
正確には「4 omni」
いきなり余談ですが、「omni(オムニ)」とは「全…」や「総…」のような「すべての」といったことを意味します。
では、GPTにとって、この「omni(すべての)」は何を意味するのでしょうか?
これまでバージョンの数字的なものとして、「4」というナンバリングでは
すでに「4」「4-Turbo」とあり
それらとどのような違いがあるのか注目されています。
より自然な人間とコンピューターの対話への一歩です
OpenAIのChatGPT-4oの紹介ページでは、表題のように書かれています。
https://openai.com/index/hello-gpt-4o/
上記ページの概要をもう少し見てみましょう。
it accepts as input any combination of text, audio, image, and video and generates any combination of text, audio, and image outputs. It can respond to audio inputs in as little as 232 milliseconds, with an average of 320 milliseconds, which is similar to human response time(opens in a new window) in a conversation. It matches GPT-4 Turbo performance on text in English and code, with significant improvement on text in non-English languages, while also being much faster and 50% cheaper in the API. GPT-4o is especially better at vision and audio understanding compared to existing models.
【和訳】
GPT-4oは、音声、ビジョン、テキストをリアルタイムで処理できる新しいフラッグシップモデルです。GPT-4oはテキスト、音声、画像、動画を入力として受け取り、これらの形式で出力を生成します。応答速度は232ミリ秒と速く、英語とコードの処理でGPT-4 Turboと同等の性能を発揮し、多言語対応、視覚認識、音声理解においても優れたパフォーマンスを示します。APIでは2倍の速さで、コストは半分になっています。
Hello GPT-4o
音声、ビジョン、テキストをリアルタイムで処理でき、応答速度も早いとのことですが、つまりどういうことなのか?
YouTubeでTSB NEWS DIGがGPT-4oについてのニュースの動画を公開していますが
その中でも利用されているOpenAIがデモンストレーションしている映像を見ると
かなり人間とに近いような会話ができているように見られます。
また、先程の文章の末尾にもあった、「APIでは2倍の速さでコストは半分になった」という点に関しては
GPTを利用したサービスを提供するベンダーにとって、よりサービスを提供するハードルが下がるとともに
速さの向上で利便性も向上されることからサービスの品質の向上にもつながります。
無料ユーザーも試すことが出来ます
「GPT-4o」は現在、無料アカウントのユーザー向けにも一部制限付きで提供されています。
「3時間毎に最大10メッセージの送信」という回数制限と画像生成や音声会話はできないと言った制限がありますが
気になる方は一度試してみてください。
それでは、今日はこのへんで。