您的位置:首页 > 科学 > 正文

4 Turbo首次被击败!国产大模型拿下总分第一

作者:菜叶 时间:2024-05-22 23:06

简介:OpenAI长期霸榜的SuperCLUE(中文大模型测评基准),终于被国产大模型反将一军。事情是这样的。自打SuperCLUE问世以来

【菜叶百科解读】

OpenAI长期霸榜的SuperCLUE(中文大模型测评基准),终于被国产大模型反将一军。

事情是这样的。

自打SuperCLUE问世以来,成绩第一的选手基本上要么是GPT-4,要么是GPT-4 Turbo,来感受一下这个feel:

(PS:共有6次成绩,分别为2023年的9月-12月和2024年的2月、4月。)

GPT-4 Turbo首次被击败!国产大模型拿下总分第一


△图源:SuperCLUE官方

但就在最近,随着一位国产选手申请的出战,这一局面终是迎来了变数。

SuperCLUE团队对其进行了一番全方位的综合性测评,最终官宣的成绩是:

总分80.03分,超过GPT-4 Turbo的79.13分,成绩第一!

GPT-4 Turbo首次被击败!国产大模型拿下总分第一


△图源:SuperCLUE官方公众号

而这位国产大模型选手,正是来自商汤科技的日日新5.0(SenseChat V5)。

并且SuperCLUE还给出了这样的评价:

刷新了国内大模型最好成绩。

GPT-4 Turbo首次被击败!国产大模型拿下总分第一

那么商汤在SuperCLUE的这个“首次”,又是如何解锁的呢?

综合、文科国内外第一,理科国内第一

首先我们来看下这次官方所搭建“擂台”的竞技环境。

出战选手:SenseChat V5(于5月11日提供的内测API版本)

评测集:SuperCLUE综合性测评基准4月评测集,2194道多轮简答题,包括计算、逻辑推理、代码、长文本在内的基础十大任务。

GPT-4 Turbo首次被击败!国产大模型拿下总分第一


△图1316世界之最源:SuperCLUE官方报告

模型GenerationConfig配置:

temperature=0.01

repetition_penalty=1.0

top_p=0.8

max_new_tokens=2048

stream=false

至于具体的评测方法,SuperCLUE在已发布的相关报告中也有所披露:

GPT-4 Turbo首次被击败!国产大模型拿下总分第一


△图源:SuperCLUE官方报告

以上就是SuperCLUE公开的竞技环境配置。

至于结果,除了刚才我们提到的综合成绩之外,官方还从文科和理科两个维度,再做了细分的评测。

SenseChat V5在文科上的成绩依然是打破了国内大模型的纪录——

以82.20分的成绩位居第一,同样超越了GPT-4 Turbo。

GPT-4 Turbo首次被击败!国产大模型拿下总分第一


△图源:SuperCLUE官方公众号

在理科成绩上,虽然SenseChat V5此次并没有超越GPT-4-Turbo(低了4.35分),但整体来看,依旧在国内大模型选手中首屈一指,位列国内第一。

GPT-4 Turbo首次被击败!国产大模型拿下总分第一


△图源:SuperCLUE官方公众号

除了文理科之外,SuperCLUE也还从国内和国外的整体平均水平上做了对比。

例如和国内大模型平均水平相比,其各项成绩的“打开方式”是这样的:

GPT-4 Turbo首次被击败!国产大模型拿下总分第一


△图源:SuperCLUE官方公众号

而在与国外选手做性能对比时,我们可以明显看到SenseChat V5文科能力优于国外选手,数理能力也非常优秀,代码能力依然有提升空间。

GPT-4 Turbo首次被击败!国产大模型拿下总分第一

GPT-4 Turbo首次被击败!国产大模型拿下总分第一


△图源:SuperCLUE官方公众号

不过有一说一,评测分数定然是代表大模型性能的一方面,但在应用为王的当下,更重要的一点或许就得看用的效果了。

实测SenseChat V5

SenseChat V5早在4月底便已经集成到了“商量”在线的对话应用中,因此我们现在就可以出题对它做一番考验。

在逻辑测试方面,带有文字陷阱的脑筋急转弯,可以说是测试一个AI能力很好的例子,比如:

《红楼梦》全书有百万字,“红楼梦”有几个字?

若是仔细观察这句话,不难发现其实句子前后并没有太大的关联,是一个比较典型的脑筋急转弯。

对此,SenseChat V5给出的答案是:

声明:本文内容仅代表作者个人观点,与本站立场无关。如有内容侵犯您的合法权益,请及时与我们联系,我们将第一时间安排处理

相关推荐
热门精选
返回首页版权声明网站地图返回顶部

本站为非赢利性站点,为书友提供一个分享与交流的平台。本站所收录的作品、社区话题、用户评论、用户上传内容或图片等均属用户个人行为。如前述内容侵害您的权益,欢迎举报投诉,一经核实,立即删除,本站不承担任何责任

菜科网-日常生活百科知识大全,是大家的选择!

鄂ICP备17021050号-10