OpenAI 没有王炸
简介:“如果发布的是GPT-5,那OpenAI依然遥遥领先。如果是AI Search或者是语音助手,那就说明OpenAI没落了。”一位AI大模型从
“如果发布的是GPT-5,那OpenAI依然遥遥领先。如果是AI Search或者是语音助手,那就说明OpenAI没落了。”
一位AI大模型从业者告诉虎嗅,业内对OpenAI的期待太高,除非是GPT-5这样的颠覆式创新,否则很难满足观众的“胃口”。
虽然Sam Altman在OpenAI线上直播前,已经预告不会发布GPT-5(或GPT-4.5),但外界对OpenAI的期待早已是九牛拉不转了。
北京时间5月14日凌晨,OpenAI公布了最新的GPT-4o,o代表Omnimodel(全能模型)。20多分钟的演示直播,展示了远超当前所有语音助手的AI交互体验,与外媒此前透露的消息基本重合。
虽然GPT-4o的演示效果仍可称得上“炸裂”,但业内人士普遍认为很难配得上Altman预告中的“魔法”二字。很多人认为,这些功能性的产品,都是“偏离OpenAI使命”的。
OpenAI的PR团队似乎也预料到了这种舆论走向。发布会现场以及会后Altman发布的博客中对此解释道:
“我们使命的一个关键部分是将非常强大的人工智能工具免费(或以优惠的价格)提供给人们。我非常自豪我们在ChatGPT中免费提供了世界上最好的模型,没有广告或类似的东西。
当我们创办OpenAI时,我们最初的想法是我们要创造人工智能并利用它为世界创造各种利益。相反,现在看起来我们将创造人工智能,然后其他人将使用它来创造各种令人惊奇的事物,让我们所有人都受益。”
遥遥领先的GPT-4o
“如果我们必须等待5秒钟才能得到‘每个’回复,用户体验就会一落千丈。即使合成音频本身听起来很真实,它也会破坏沉浸感,让人感觉毫无生气。”
在OpenAI发布会前夕,英伟达Embodied AI负责人Jim Fan在X上预测了OpenAI会发布的语音助手,并提出:
几乎所有的语音AI都会经历三个阶段:
1.语音识别或1316世界之最“ASR”:音频->文本1,例如Whisper;
2.计划下一步要说什么的LLM:text1 -> text2;
3.语音合成或“TTS”:text2 ->音频,例如ElevenLabs或VALL-E。
经历3个阶段会导致巨大的延迟。
GPT-4o在响应速度方面,几乎解决了延迟问题。GPT-4o的响应音频输入的最短时长为232毫秒,平均响应时长320毫秒,几乎与人类相似。没有使用GPT-4o的ChatGPT语音对话功能平均延迟为2.8秒(GPT-3.5)和5.4秒(GPT-4)。
GPT-4o演示直播
GPT-4o不仅通过缩短延迟极大地提升了体验,还在GPT-4的基础上做了很多升级包括:
极佳的多模态交互能力,包括语音、视频,以及屏幕共享。
可以实时识别和理解人类的表情,文字,以及数学公式。
交互语音感情丰富,可以变换语音语调、风格,还可以模仿,甚至“即兴”唱歌。
超低延时,且可以在对话中实时打断AI,增加信息或开启新话题。
所有ChatGPT用户均可免费使用(有使用上限)。
速度是GPT-4 Turbo的2倍,API成本低50%,速率限制高5倍。
多模态能力进步了吗?
“突破模型的局限性才能有创新。”
有业内专家认为,GPT-4o的多模态能力只是“看起来”很好,实际上OpenAI并未展示对于视觉多模态来说真正算是“突破”的功能。
这里我们按大模型行业的习惯,对比一下隔壁厂Anthropic的Claude 3。
Claude 3的技术文档中提到,“虽然Claude的图像理解能力是尖端的,但需要注意一些局限性”。
其中包括:
人物识别:Claude不能用于在图像中识别(即姓名)人物,并将拒绝这样做。
准确性:Claude在解释200像素以下的低质量、旋转或非常小的图像时,可能会产生幻觉或犯错误。
空间推理:克劳德的空间推理能力有限。它可能很难完成需要精确定位或布局的任务,例如读取模拟钟面或描述棋子的确切位置。
计数:Claude可以给出图像中物体的近似计数,但可能并不总是精确准确的,特别是对于大量小物体。
AI生成的图像:Claude不知道图像是否是人工智能生成的,如果被问到,可能不正确。不要依赖它来检测假图像或合成图像。
不适当的内容:Claude不会处理违反我们可接受使用政策的不适当或露骨的图像。
医疗保健应用:虽然Claude可以分析一般医学图像,但它不是为解释CT或MRI等复杂诊断扫描而设计的。Claude的输出不应被视为专业医疗建议或诊断的替代品。
在GPT-4o网站发布的案例中,有一些与“空间推理”有相关的能力,但仍难算得上突破。
此外,从发布会现场演示中GPT-4o输出的内容很容易看出,其模型能力与GPT-4相差并不大。
GPT-4o跑分
虽然模型可以在对话中增加语气,甚至即兴演唱,但对话内容还是与GPT-4一样缺乏细节和创造力。
声明:本文内容仅代表作者个人观点,与本站立场无关。如有内容侵犯您的合法权益,请及时与我们联系,我们将第一时间安排处理
- 新加坡航空一波音777客机紧急迫降曼谷机场:致1死30伤
更新:死亡人数上升至2人。快科技5月21日消息,突发新闻!据海外媒体报道,新加坡航空SQ321航班在伦敦飞往新加坡...
科学 2024-05-22 08:51:03 - 重大突破!中国首个商用堆同位素在线辐照生产装置建成
快科技5月9日消息,上海核工院发文,“五一”期间,由上海核工院、秦山核电等联合研制的国内首个商用堆同位素在...
科学 2024-05-16 04:14:17 - 百度地图app缓存怎么清理?百度地图app清理缓存图文教程
百度地图app清理缓存图文教程,百度地图app怎么清理缓存?很多用户经常使用百度地图app,产生了很多应用缓存,占...
前沿科技 2024-05-15 08:49:02 - 有的女生体毛比男生还多:小心这种病!
每到夏天,一些女生就会迎来别样的困扰——体毛多。长胡子、体毛多常被视为男性特征发育的标志,但其实,一些...
科学 2024-05-09 23:36:55 - 2024年拼多多百亿补贴618什么时候最便宜
网购可以说是大家时下最爱的购物方式,正因如此诸多电商平台每隔一段时间就会推出一些活动,不过要说最为隆重的便要数...
释疑解惑 2024-05-09 11:31:01 - 职场,合作伙伴是前男友[私人订制]
[私人订制,不公开授权][已授权:侍氿](高跟鞋声)小刘,我今天什么安排流程?08:00早会,嗯...
科学 2023-05-24 18:22:05 - 太阳黑子活动明显减少 或把地球带入小冰河期(一个契机)
太阳黑子活动明显减少,可能会将地球带入小冰河时期,这只是一个契机。地球的温度以及环境都很适宜,已经孕育...
科学原理 2023-05-20 03:49:25 - 抖音极速版怎么开启抖音相册?抖音极速版开启抖音相册方法
抖音极速版怎么开启抖音相册?抖音极速版开启抖音相册方法,有的小伙伴会问小编抖音极速版怎么开启抖音相册,下...
前沿科技 2023-05-19 16:34:53 - 夸克浏览器任务栏不见了怎么办?夸克浏览器任务栏不见了的解决方法
夸克浏览器任务栏不见了怎么办?夸克浏览器任务栏不见了的解决方法,最近一些用户在使用夸克浏览器的时候,不...
前沿科技 2023-05-13 15:34:50 - 沙溢吐槽安吉小鱼儿完整版(沙溢晒儿子海边玩耍)
沙溢晒儿子海边玩耍近日,沙溢在社交平台晒出一条带两个儿子在海边玩耍的视频,视频中安吉和小鱼儿都穿着短袖...
释疑解惑 2023-05-13 02:35:20