您的位置:首页 > 科学 > 正文

OpenAI 没有王炸

作者:菜叶 时间:2024-05-15 10:13

简介:“如果发布的是GPT-5,那OpenAI依然遥遥领先。如果是AI Search或者是语音助手,那就说明OpenAI没落了。”一位AI大模型从

【菜叶百科解读】

“如果发布的是GPT-5,那OpenAI依然遥遥领先。如果是AI Search或者是语音助手,那就说明OpenAI没落了。”

一位AI大模型从业者告诉虎嗅,业内对OpenAI的期待太高,除非是GPT-5这样的颠覆式创新,否则很难满足观众的“胃口”。

虽然Sam Altman在OpenAI线上直播前,已经预告不会发布GPT-5(或GPT-4.5),但外界对OpenAI的期待早已是九牛拉不转了。

北京时间5月14日凌晨,OpenAI公布了最新的GPT-4o,o代表Omnimodel(全能模型)。20多分钟的演示直播,展示了远超当前所有语音助手的AI交互体验,与外媒此前透露的消息基本重合。

虽然GPT-4o的演示效果仍可称得上“炸裂”,但业内人士普遍认为很难配得上Altman预告中的“魔法”二字。很多人认为,这些功能性的产品,都是“偏离OpenAI使命”的。

OpenAI的PR团队似乎也预料到了这种舆论走向。发布会现场以及会后Altman发布的博客中对此解释道:

“我们使命的一个关键部分是将非常强大的人工智能工具免费(或以优惠的价格)提供给人们。我非常自豪我们在ChatGPT中免费提供了世界上最好的模型,没有广告或类似的东西。

当我们创办OpenAI时,我们最初的想法是我们要创造人工智能并利用它为世界创造各种利益。相反,现在看起来我们将创造人工智能,然后其他人将使用它来创造各种令人惊奇的事物,让我们所有人都受益。”

遥遥领先的GPT-4o

“如果我们必须等待5秒钟才能得到‘每个’回复,用户体验就会一落千丈。即使合成音频本身听起来很真实,它也会破坏沉浸感,让人感觉毫无生气。”

在OpenAI发布会前夕,英伟达Embodied AI负责人Jim Fan在X上预测了OpenAI会发布的语音助手,并提出:

几乎所有的语音AI都会经历三个阶段:

1.语音识别或1316世界之最“ASR”:音频->文本1,例如Whisper;

2.计划下一步要说什么的LLM:text1 -> text2;

3.语音合成或“TTS”:text2 ->音频,例如ElevenLabs或VALL-E。

经历3个阶段会导致巨大的延迟。

OpenAI 没有王炸

GPT-4o在响应速度方面,几乎解决了延迟问题。GPT-4o的响应音频输入的最短时长为232毫秒,平均响应时长320毫秒,几乎与人类相似。没有使用GPT-4o的ChatGPT语音对话功能平均延迟为2.8秒(GPT-3.5)和5.4秒(GPT-4)。

GPT-4o演示直播

GPT-4o不仅通过缩短延迟极大地提升了体验,还在GPT-4的基础上做了很多升级包括:

极佳的多模态交互能力,包括语音、视频,以及屏幕共享。

可以实时识别和理解人类的表情,文字,以及数学公式。

交互语音感情丰富,可以变换语音语调、风格,还可以模仿,甚至“即兴”唱歌。

超低延时,且可以在对话中实时打断AI,增加信息或开启新话题。

所有ChatGPT用户均可免费使用(有使用上限)。

速度是GPT-4 Turbo的2倍,API成本低50%,速率限制高5倍。

多模态能力进步了吗?

“突破模型的局限性才能有创新。”

有业内专家认为,GPT-4o的多模态能力只是“看起来”很好,实际上OpenAI并未展示对于视觉多模态来说真正算是“突破”的功能。

这里我们按大模型行业的习惯,对比一下隔壁厂Anthropic的Claude 3。

Claude 3的技术文档中提到,“虽然Claude的图像理解能力是尖端的,但需要注意一些局限性”。

其中包括:

人物识别:Claude不能用于在图像中识别(即姓名)人物,并将拒绝这样做。

准确性:Claude在解释200像素以下的低质量、旋转或非常小的图像时,可能会产生幻觉或犯错误。

空间推理:克劳德的空间推理能力有限。它可能很难完成需要精确定位或布局的任务,例如读取模拟钟面或描述棋子的确切位置。

计数:Claude可以给出图像中物体的近似计数,但可能并不总是精确准确的,特别是对于大量小物体。

AI生成的图像:Claude不知道图像是否是人工智能生成的,如果被问到,可能不正确。不要依赖它来检测假图像或合成图像。

不适当的内容:Claude不会处理违反我们可接受使用政策的不适当或露骨的图像。

医疗保健应用:虽然Claude可以分析一般医学图像,但它不是为解释CT或MRI等复杂诊断扫描而设计的。Claude的输出不应被视为专业医疗建议或诊断的替代品。

在GPT-4o网站发布的案例中,有一些与“空间推理”有相关的能力,但仍难算得上突破。

此外,从发布会现场演示中GPT-4o输出的内容很容易看出,其模型能力与GPT-4相差并不大。

OpenAI 没有王炸

GPT-4o跑分

虽然模型可以在对话中增加语气,甚至即兴演唱,但对话内容还是与GPT-4一样缺乏细节和创造力。

声明:本文内容仅代表作者个人观点,与本站立场无关。如有内容侵犯您的合法权益,请及时与我们联系,我们将第一时间安排处理

相关推荐
热门精选
返回首页版权声明网站地图返回顶部

本站为非赢利性站点,为书友提供一个分享与交流的平台。本站所收录的作品、社区话题、用户评论、用户上传内容或图片等均属用户个人行为。如前述内容侵害您的权益,欢迎举报投诉,一经核实,立即删除,本站不承担任何责任

菜科网-日常生活百科知识大全,是大家的选择!

鄂ICP备17021050号-10