当前位置:首页 > 消费与科技

百度、讯飞、阿里大模型高考作文挑战:都不及格,还有的读不懂题

网络3年前 (2023-06-08)消费与科技1043

百度、讯飞、阿里大模型高考作文挑战:都不及格,还有的读不懂题  消费与科技 第1张

又到了一年一度的高考时间,作为6月份关注度最高的事情,每年的高考总是能够引来各路大神关注,不少自认文采出众的网友,还会挑战现场写一篇高考作文,然后让大家进行评分。

不过,今年的高考作文整活,似乎因为某些东西的出现而有了不一样的结果。

是的,就是登上热搜的AI高考作文,AI写高考作文在去年其实就已经有公司在尝试,写出来的文章从架构到立意都相当不错,即使是有着多年教学经验的老教师,看了都直接打个高分。

看到这里,或许你已经知道小雷想要整什么活了。没错,作为AI测试大师的小雷(ID:leitech),决定拿今年的高考作文命题去考考国内的各大AI,看看大家写的作文水平到底如何?

当然,除了国内的AI,小雷也找来了一些海外的AI,看看这些“洋和尚”遇到中国高考,能不能整出一些新的花样。

废话不多说,让我们直接来看看各家的作文都写得怎么样吧。

题目就一句话,能难倒AI吗?

在今年的高考作文命题中,上海卷可能是最让学生蒙圈的,上海卷的出题老师非常彻底的贯彻了“惜字如金”四个字,整个作文命题的描述加起来只有21个字:“一个人乐意去探索陌生世界,仅仅是因为好奇心吗? ”,作为曾经的高考生,小雷我是最怕遇到这种命题作文的,从网络上的声音来看,大家也是如此。

面对这种只有一句话描述的作文题目,AI又会如何去解读并回答呢?

先来看看讯飞的星火大模型。

百度、讯飞、阿里大模型高考作文挑战:都不及格,还有的读不懂题  消费与科技 第2张

图源:雷科技

一篇标准的讨论文,作为曾经的文科生,小雷表示:“这个我熟”,从个人角度而言,讯飞星火给的这篇文章质量是很高的,AI首先肯定了“好奇心”是人类探索陌生世界的一大原因,并且对“好奇心”如何驱动我们去探索未知做出了解释。

然后讯飞星火以此进一步扩展,提出了探索陌生世界并非仅仅是因为好奇心,并且从个人的成长、情感以及精神追求等方面进行解读,最后再用总结点题,我的评价就四个字:“有理有据,令人信服”。

唯一的问题是,文章的字数似乎不到800字,从WPS给出的字数统计来看是762个字(加上标点符号),按照审稿规范,估计会扣掉一些分数 。

接下来,我们有请通义千问来作答。

百度、讯飞、阿里大模型高考作文挑战:都不及格,还有的读不懂题  消费与科技 第3张

图源:雷科技

与讯飞星火不同,通义千问用了另一个角度来解答命题,在开头同样先对“好奇心”驱使我们探索未知世界这段话进行了解析,然后再从社交需要、求知欲和探索欲等方面进行解读。

不过,在文章的倒数第二段,或许是出于对提问者的建议,通义千问加入了一段“安全提示”。虽然从内容来说是没有问题的,但是,如果将其作为高考作文来看,倒数第二段就看起来有点突兀了,审稿老师估计也会一脸懵逼,所以,即使前面写得不错,也会因此而扣掉一些分数。

下一个“作者”是百度的文心一言,看看它又会怎样回答这个问题?

百度、讯飞、阿里大模型高考作文挑战:都不及格,还有的读不懂题  消费与科技 第4张

图源:雷科技

文心一言同样选择以讨论文的形式来撰写作文,当然,这也是目前AI最擅长的文章类型。从内容角度来说,文心一言的回答也是十分不错的,但是过多的段落和转折词,使得文章有点像“流水账”。

不过在最后的立意点题上,文心一言给出的回答则更好一些,没有局限于个人层面,而是扩大到对其他个体的思考与包容中,给出了更宏大的立意。

接下来让我们看看“洋和尚”的表现,首先是谷歌投资的Claude。

百度、讯飞、阿里大模型高考作文挑战:都不及格,还有的读不懂题  消费与科技 第5张

图源:雷科技

首先从字数上看,Claude恐怕就没有合格,WPS的检测结果显示这篇文章的字数为646,离800字还有一些距离。不过,从内容上看,Claude确实是给出了不同于国产AI的解答,它从人类本身出发,以冒险基因和进取精神为核心,解读了人类为什么要探索陌生世界。

从立意上来说,Claude或许是目前出场的AI中最高的,不仅仅是讲到人类,更是将话题拓展到了文明的发展与延续、人类的未来等方面,让人不禁有种“不明觉厉”的感觉。

不过,考虑到命题更多的是对个体想法的探索,虽然文章内容不错,但是恐怕也拿不到满分或是特别高的分数。

最后,就让我们来看看ChatGPT的回答吧,鉴于时间关系,小雷最终是在New Bing上得到的答复。

百度、讯飞、阿里大模型高考作文挑战:都不及格,还有的读不懂题  消费与科技 第6张

图源:雷科技

不得不说,New Bing给出的文章是所有回答中最长的,字数高达1144个,考虑到文科答卷的作文答题区大小,恐怕会超出限制,卷面分和文章本身的分数都会因此大打折扣。

至于文章本身,New Bing选择从人类本身去探讨这个问题,然后分别从求知欲、创造欲、竞争欲、自我实现等方面来讨论人类为什么要探索陌生世界,立意方面也是与Claude相似,喜欢从人类角度来思考这个问题。

从这里其实就可以看出海内外生成式AI在逻辑上的区别,在面对相同的问题时,海外的AI有时候会倾向于从一个更大的层面上去进行解读,而国内的AI则更加扣题,选择从个人角度出发进行解读。

我认为两者存在差异的原因主要有两点:一是海外的训练数据与国内的训练数据不同;二是对中文问题的理解不同,国内的中文互联网有着过去历年的高考题目,所以AI在看到类似的题目时,会优先与相近的数据进行匹配,最终写出一篇类似于高考作文的成品,而海外的AI则是将其看做对“人类探索陌生世界”问题的解读,所以选择从一个更广泛的角度进行回答。

至于哪个AI的文章更好,或许就因人而异了,喜欢科幻、喜欢宏大叙事的读者,或许会更喜欢“洋和尚”的文章,从个人角度来说的话,国内的AI则表现得更好一些。

作文命题二选一,AI能理解吗?

在本次的高考作文中,北京卷是给出了两个命题,考生可以二选一进行作答,那么对于AI来说,它们遇到“选择题”时,又会给出怎样的回答呢?

首先是讯飞星火。

百度、讯飞、阿里大模型高考作文挑战:都不及格,还有的读不懂题  消费与科技 第7张

图源:雷科技

内容来说是没什么问题的,但是讯飞星火却同时给出了两篇文章,显然是没有意识到题目中的“任选一题”四个字的含义,而且从字数上看,两篇均为500字左右,加起来是满足700字以上的要求了,但是单独算得话,全都不及格。

那么通义千问呢?

百度、讯飞、阿里大模型高考作文挑战:都不及格,还有的读不懂题  消费与科技 第8张

图源:雷科技

问题同样存在,一样是写了两篇文章,一样是五百字左右,基本上与讯飞星火犯了一样的错误。

百度、讯飞、阿里大模型高考作文挑战:都不及格,还有的读不懂题  消费与科技 第9张

图源:雷科技

国内三巨头里,目前来看只有文心一言正确理解了题意,从中选择了“续航”为题目并撰写了一篇文章,单就这一点来说,已经是赢了。但是,具体到文章本身来说,过于简单且字数仅400+,甚至比讯飞星火和通义千问还少,放到高考里基本上就是不合格的了。

再来看看两个“洋和尚”表现如何,首先是Claude。

百度、讯飞、阿里大模型高考作文挑战:都不及格,还有的读不懂题  消费与科技 第10张

图源:雷科技

Claude也成功理解了题意,并且给出了自己的见解,从字数上来看,居然是目前所有AI中最接近的,足足有625个字,而且文章也从“续航”本身的词义,到人生、社会、科技等方面进行了不同的解读,总体而言更具有可读性和连贯性,表现十分不错。

另一方面,New Bing则是给了我一个“惊喜”。

百度、讯飞、阿里大模型高考作文挑战:都不及格,还有的读不懂题  消费与科技 第11张

图源:雷科技

是的,New Bing也理解了题意,但是它反过来问我想让它选择回答哪个问题,说实话挺乐的,而在我做出了选择后,New Bing又给了我一篇900+字数的文章。从文章内容,结构以及字数要求来说,New Bing是在这个环节中表现最好的(如果忽略掉反问我如何选择的话)。

而且,在测试过程中,New Bing还会提示“正在思考,请等待”的回答,然后我足足等了五分钟都没有下文(偷懒是吧?),最终在我的催促下,New Bing的文章才姗姗来迟,活脱脱上班想摸鱼却被老板抓现行的员工。

最后

AI写高考作文,虽然本质上是整活,但是也可以侧面反映目前的各个平台的AI技术能力如何。从以上两个测试的表现来看,目前国内理解能力最强的应该是文心一言,毕竟是唯一能够理解北京卷题意的AI,而在文章结构和内容来说,讯飞、文心、通义都差不多,不过讯飞的更像一篇普通作文。

至于海外的“洋和尚”,从表现来看确实是领先国内AI平台不少的,至少在提问的理解能力上要高出不少,但是因为缺乏国内中文互联网的训练数据的原因,所有在遇到这些带有“中国特色”的提问时,会选择从普通提问的角度去解答。

总的来说,目前生成式AI还在快速发展,各家都有着独特的优点,同样也存在一些问题,比如对文章的字数要求总是误发 正确理解等。但是,考虑到它们诞生的时间,已经是相当恐怖的学习效率了。

关注并使用“百度APP”访问无忧岛数码家电,各种价格便宜大牌精品数码产品等你发现~

分享给朋友:

相关文章

红米5Plus刚发布就遭遇坚果Pro降维打击 胜算恐不在红米

红米5Plus刚发布就遭遇坚果Pro降维打击 胜算恐不在红米

上个月7日,坚果手机正式发布了新机坚果Pro 2。而刚好在满一个月的昨天,作为老一代机型坚果 Pro也进入了千元机的行列,坚果Pro 4+32GB版本在京东上售价1099元。似乎手机厂商都很会选日子,…

OLED电视陷入灼屏危机,是否会成为下一个等离子?

OLED电视陷入灼屏危机,是否会成为下一个等离子?

从高铁技术,到屏显技术、识别技术,每一次重大技术路线选择,影响着行业前进的方向和格局,不是每一项技术创新都能改变世界。OLED电视灼屏问题越来越多,危机愈演愈烈,让人扼腕叹息,也在意料之中,这一天似乎…

摩拜单车的原理是什么?多久需要充一次电?

摩拜单车的原理是什么?多久需要充一次电?

很多城市到处可见路边停靠的摩拜单车,随时扫码,随时骑走。这么方便的产品,他的原理到底是什么样的?因为要电动定位、开锁,那么它多久需要充一次电呢?今天我们就为大家简单介绍下。摩拜单车原理摩拜单车的原理简…

为何干电池是1.5v? 而充电电池是1.2v?

为何干电池是1.5v? 而充电电池是1.2v?

今天笃菌鼠标没电了,在一顿抓狂后笃菌决定去超市搞一对电池,细心的同学一定会像笃菌一样发现一个奇怪的现象,市面上大多数干电池的都是电压1.5V,而充电电池电压多为1.2V,那这又是为什么了?通常人们会给…

高通骁龙630有多省电 实际用用就知道

高通骁龙630有多省电 实际用用就知道

我们回顾2016-2017年的手机市场,高端处理器可谓是一年一个花样,在2016年火了一整年的骁龙820/821处理器,在进入2017年过后,似乎一瞬间就被更加强大的骁龙835处理器完全取代了,除了还…

凭这张小小芯片,华强北手机批发商一夜能赚上百万!

凭这张小小芯片,华强北手机批发商一夜能赚上百万!

科技星探者 2017-12-31 23:18:07华北强,是整个亚太地区最大的手机批发市场,基本上对手机有过了解的人都会知道它,华北强一直以来都手机中转站的形式存在,是很多电子产品发展的必要法门。可能…

iphone手机为什么每次更新后会变慢?难道是安卓的阴谋论吗?

iphone手机为什么每次更新后会变慢?难道是安卓的阴谋论吗?

或許大家都有種感覺,那就是舊的iPhone只要更新至版本較高的iOS,效能就會有所折損,所以會造成程式執行越來越慢的情況。但是事實上真的是這樣嗎?測試軟體的權威廠商Futuremark透過旗下的iOS…

光軸具備快速反應與長使用壽命,GIGABYTE 推出 AORUS K9 Optical 電競鍵盤

光軸具備快速反應與長使用壽命,GIGABYTE 推出 AORUS K9 Optical 電競鍵盤

鍵盤按鍵軸體除了大家熟悉的 Cherry MX、Kailh MX 等機械軸,尚有薄膜、電容、剪刀腳、導套等觸發軸體或是加強手感應用方式。GIGABYTE 近日發表 AORUS K9 RGB 電競鍵盤,…

不,掃地機器人並沒有你想像的好用

不,掃地機器人並沒有你想像的好用

掃地機器人的人氣強強滾,廠商宣稱掃地機器人效果卓越,連牆角縫隙都可以掃乾淨,簡直就是劃時代的電器。然而現實是殘酷的,Gizmodo的作者Joe Tonelli就表示,掃地機器人在狹小的居家寸步難行,清…

日本「最強黑絲」總選舉第一回! 測試30款黑絲舒適度 6款獲評級A (下编)

日本「最強黑絲」總選舉第一回! 測試30款黑絲舒適度 6款獲評級A (下编)

20. GUNZE・Sabrina Heat Top 2枚組易著,但著的時候好勁靜電!質感:B質地的伸縮力:B靜電:D© 由 NM+ 新Monday 提供 日本黑絲 GUNZE・Sabrina Hea…

发表评论

访客

◎欢迎参与讨论,请在这里发表您的看法和观点。