首页 · 快讯 · 正文

GPT-4o来了 支持文本、音频和图像的多模态输入输出

导语
  5月13日,全球领先的AI研发公司OpenAI发布了其新一代旗舰模型GPT-4o,旨在推动AI生成技术的迭代,加速应用落地与商业模式创新。这款多模态模型在文本、推理和编码能力上超越

  5月13日,全球领先的AI研发公司OpenAI发布了其新一代旗舰模型GPT-4o,旨在推动AI生成技术的迭代,加速应用落地与商业模式创新。这款多模态模型在文本、推理和编码能力上超越了GPT-4 Turbo,速度提升至两倍,且成本显著降低,视频和音频功能得到了显著提升。GPT-4o在人机交互体验上实现了重大突破,能以自然流畅的对话与用户互动,支持文本、音频和图像的多模态输入输出。

  OpenAI表示,GPT-4o里的“o”是Omni的缩写,也就是“全能”的意思,接受文本、音频和图像的任意组合作为输入,并生成文本、音频和图像输出。它可以在短至232毫秒、平均320毫秒的时间内响应音频输入,与人类在对话中的反应速度一致。

  同时,GPT-4o的多语言功能得到了增强,在50种不同的语言中表现更佳。在OpenAI的API中,GPT-4o的处理速度是GPT-4(特别是 GPT-4 Turbo)的两倍,价格则是GPT-4 Turbo的一半,同时拥有更高的速率限制。

  OpenAI创始人Altman盛赞GPT-4o为有史以来最好的模型,强调其智能、速度和多模态特性。国盛证券的研究报告指出,GPT-4o对于智能终端Agent和机器人等领域具有积极影响,其崭新的多模态交互能力有望提升用户体验,继Sora之后,OpenAI再次展现了AI技术的革新实力。

  5月14日,OpenAI正式发布语音版GPT-4o,以“全能模型”命名,展示了其在语音对话等领域的强大性能。GPT-4o的多语言功能进一步优化,处理速度提升,性价比更高。随着GPT-4o的推出,OpenAI在AI市场的领导地位得以强化,可能重塑竞争格局,促使科技巨头调整战略。

风险提示 文章呈现的所有信息仅作为参考,不构成投资建议,一切投资操作信息不能作为投资依据。投资有风险,入市需谨慎!

×
分享到微信

打开微信,使用 “扫一扫”,分享到我的朋友圈