GPT-4o来了支持文本、音频和图像的多模态输入输出

本溪财经网 · 2024-05-14 14:25:05

　　5月13日，全球领先的AI研发公司OpenAI发布了其新一代旗舰模型GPT-4o，旨在推动AI生成技术的迭代，加速应用落地与商业模式创新。这款多模态模型在文本、推理和编码能力上超越了GPT-4 Turbo，速度提升至两倍，且成本显著降低，视频和音频功能得到了显著提升。GPT-4o在人机交互体验上实现了重大突破，能以自然流畅的对话与用户互动，支持文本、音频和图像的多模态输入输出。

　　OpenAI表示，GPT-4o里的“o”是Omni的缩写，也就是“全能”的意思，接受文本、音频和图像的任意组合作为输入，并生成文本、音频和图像输出。它可以在短至232毫秒、平均320毫秒的时间内响应音频输入，与人类在对话中的反应速度一致。

　　同时，GPT-4o的多语言功能得到了增强，在50种不同的语言中表现更佳。在OpenAI的API中，GPT-4o的处理速度是GPT-4(特别是 GPT-4 Turbo)的两倍，价格则是GPT-4 Turbo的一半，同时拥有更高的速率限制。

　　OpenAI创始人Altman盛赞GPT-4o为有史以来最好的模型，强调其智能、速度和多模态特性。国盛证券的研究报告指出，GPT-4o对于智能终端Agent和机器人等领域具有积极影响，其崭新的多模态交互能力有望提升用户体验，继Sora之后，OpenAI再次展现了AI技术的革新实力。

　　5月14日，OpenAI正式发布语音版GPT-4o，以“全能模型”命名，展示了其在语音对话等领域的强大性能。GPT-4o的多语言功能进一步优化，处理速度提升，性价比更高。随着GPT-4o的推出，OpenAI在AI市场的领导地位得以强化，可能重塑竞争格局，促使科技巨头调整战略。

风险提示 ：文章呈现的所有信息仅作为参考，不构成投资建议，一切投资操作信息不能作为投资依据。投资有风险，入市需谨慎!

关键词：

相关新闻

GPT-4o来了支持文本、音频和图像的多模态输入输出
05-14 14:25
加大研发和市场开拓安达智能一季度营收同比增长8.19%
04-26 09:37
宁波远洋：坚持绿色发展一季度营收净利双增长
04-26 09:36
慧博云通：一季度营收近3.7亿元营收、扣非净利双增长彰显发展潜力
04-26 09:36
慧博云通：2023年营收13.6亿元经营性现金流净额同比翻番
04-26 09:36
公牛集团谢维伟：抢抓新能源风口
04-26 09:35
华东医药：2024年一季度营收超百亿元又一高端医美产品注册申请获受理
04-26 09:35
仲利国际成立19周年，以更优质资金服务续写新辉煌
04-25 10:20
三生国健下跌5.0%，报21.68元/股
04-24 14:34
西部证券下跌5.12%，报6.85元/股
04-24 14:34

股票配资

股票配置

GPT-4o来了 支持文本、音频和图像的多模态输入输出

GPT-4o来了支持文本、音频和图像的多模态输入输出