当前位置:首页 > 消费与科技

百度、讯飞、阿里大模型高考作文挑战:都不及格,还有的读不懂题

网络3年前 (2023-06-08)消费与科技1027

百度、讯飞、阿里大模型高考作文挑战:都不及格,还有的读不懂题  消费与科技 第1张

又到了一年一度的高考时间,作为6月份关注度最高的事情,每年的高考总是能够引来各路大神关注,不少自认文采出众的网友,还会挑战现场写一篇高考作文,然后让大家进行评分。

不过,今年的高考作文整活,似乎因为某些东西的出现而有了不一样的结果。

是的,就是登上热搜的AI高考作文,AI写高考作文在去年其实就已经有公司在尝试,写出来的文章从架构到立意都相当不错,即使是有着多年教学经验的老教师,看了都直接打个高分。

看到这里,或许你已经知道小雷想要整什么活了。没错,作为AI测试大师的小雷(ID:leitech),决定拿今年的高考作文命题去考考国内的各大AI,看看大家写的作文水平到底如何?

当然,除了国内的AI,小雷也找来了一些海外的AI,看看这些“洋和尚”遇到中国高考,能不能整出一些新的花样。

废话不多说,让我们直接来看看各家的作文都写得怎么样吧。

题目就一句话,能难倒AI吗?

在今年的高考作文命题中,上海卷可能是最让学生蒙圈的,上海卷的出题老师非常彻底的贯彻了“惜字如金”四个字,整个作文命题的描述加起来只有21个字:“一个人乐意去探索陌生世界,仅仅是因为好奇心吗? ”,作为曾经的高考生,小雷我是最怕遇到这种命题作文的,从网络上的声音来看,大家也是如此。

面对这种只有一句话描述的作文题目,AI又会如何去解读并回答呢?

先来看看讯飞的星火大模型。

百度、讯飞、阿里大模型高考作文挑战:都不及格,还有的读不懂题  消费与科技 第2张

图源:雷科技

一篇标准的讨论文,作为曾经的文科生,小雷表示:“这个我熟”,从个人角度而言,讯飞星火给的这篇文章质量是很高的,AI首先肯定了“好奇心”是人类探索陌生世界的一大原因,并且对“好奇心”如何驱动我们去探索未知做出了解释。

然后讯飞星火以此进一步扩展,提出了探索陌生世界并非仅仅是因为好奇心,并且从个人的成长、情感以及精神追求等方面进行解读,最后再用总结点题,我的评价就四个字:“有理有据,令人信服”。

唯一的问题是,文章的字数似乎不到800字,从WPS给出的字数统计来看是762个字(加上标点符号),按照审稿规范,估计会扣掉一些分数 。

接下来,我们有请通义千问来作答。

百度、讯飞、阿里大模型高考作文挑战:都不及格,还有的读不懂题  消费与科技 第3张

图源:雷科技

与讯飞星火不同,通义千问用了另一个角度来解答命题,在开头同样先对“好奇心”驱使我们探索未知世界这段话进行了解析,然后再从社交需要、求知欲和探索欲等方面进行解读。

不过,在文章的倒数第二段,或许是出于对提问者的建议,通义千问加入了一段“安全提示”。虽然从内容来说是没有问题的,但是,如果将其作为高考作文来看,倒数第二段就看起来有点突兀了,审稿老师估计也会一脸懵逼,所以,即使前面写得不错,也会因此而扣掉一些分数。

下一个“作者”是百度的文心一言,看看它又会怎样回答这个问题?

百度、讯飞、阿里大模型高考作文挑战:都不及格,还有的读不懂题  消费与科技 第4张

图源:雷科技

文心一言同样选择以讨论文的形式来撰写作文,当然,这也是目前AI最擅长的文章类型。从内容角度来说,文心一言的回答也是十分不错的,但是过多的段落和转折词,使得文章有点像“流水账”。

不过在最后的立意点题上,文心一言给出的回答则更好一些,没有局限于个人层面,而是扩大到对其他个体的思考与包容中,给出了更宏大的立意。

接下来让我们看看“洋和尚”的表现,首先是谷歌投资的Claude。

百度、讯飞、阿里大模型高考作文挑战:都不及格,还有的读不懂题  消费与科技 第5张

图源:雷科技

首先从字数上看,Claude恐怕就没有合格,WPS的检测结果显示这篇文章的字数为646,离800字还有一些距离。不过,从内容上看,Claude确实是给出了不同于国产AI的解答,它从人类本身出发,以冒险基因和进取精神为核心,解读了人类为什么要探索陌生世界。

从立意上来说,Claude或许是目前出场的AI中最高的,不仅仅是讲到人类,更是将话题拓展到了文明的发展与延续、人类的未来等方面,让人不禁有种“不明觉厉”的感觉。

不过,考虑到命题更多的是对个体想法的探索,虽然文章内容不错,但是恐怕也拿不到满分或是特别高的分数。

最后,就让我们来看看ChatGPT的回答吧,鉴于时间关系,小雷最终是在New Bing上得到的答复。

百度、讯飞、阿里大模型高考作文挑战:都不及格,还有的读不懂题  消费与科技 第6张

图源:雷科技

不得不说,New Bing给出的文章是所有回答中最长的,字数高达1144个,考虑到文科答卷的作文答题区大小,恐怕会超出限制,卷面分和文章本身的分数都会因此大打折扣。

至于文章本身,New Bing选择从人类本身去探讨这个问题,然后分别从求知欲、创造欲、竞争欲、自我实现等方面来讨论人类为什么要探索陌生世界,立意方面也是与Claude相似,喜欢从人类角度来思考这个问题。

从这里其实就可以看出海内外生成式AI在逻辑上的区别,在面对相同的问题时,海外的AI有时候会倾向于从一个更大的层面上去进行解读,而国内的AI则更加扣题,选择从个人角度出发进行解读。

我认为两者存在差异的原因主要有两点:一是海外的训练数据与国内的训练数据不同;二是对中文问题的理解不同,国内的中文互联网有着过去历年的高考题目,所以AI在看到类似的题目时,会优先与相近的数据进行匹配,最终写出一篇类似于高考作文的成品,而海外的AI则是将其看做对“人类探索陌生世界”问题的解读,所以选择从一个更广泛的角度进行回答。

至于哪个AI的文章更好,或许就因人而异了,喜欢科幻、喜欢宏大叙事的读者,或许会更喜欢“洋和尚”的文章,从个人角度来说的话,国内的AI则表现得更好一些。

作文命题二选一,AI能理解吗?

在本次的高考作文中,北京卷是给出了两个命题,考生可以二选一进行作答,那么对于AI来说,它们遇到“选择题”时,又会给出怎样的回答呢?

首先是讯飞星火。

百度、讯飞、阿里大模型高考作文挑战:都不及格,还有的读不懂题  消费与科技 第7张

图源:雷科技

内容来说是没什么问题的,但是讯飞星火却同时给出了两篇文章,显然是没有意识到题目中的“任选一题”四个字的含义,而且从字数上看,两篇均为500字左右,加起来是满足700字以上的要求了,但是单独算得话,全都不及格。

那么通义千问呢?

百度、讯飞、阿里大模型高考作文挑战:都不及格,还有的读不懂题  消费与科技 第8张

图源:雷科技

问题同样存在,一样是写了两篇文章,一样是五百字左右,基本上与讯飞星火犯了一样的错误。

百度、讯飞、阿里大模型高考作文挑战:都不及格,还有的读不懂题  消费与科技 第9张

图源:雷科技

国内三巨头里,目前来看只有文心一言正确理解了题意,从中选择了“续航”为题目并撰写了一篇文章,单就这一点来说,已经是赢了。但是,具体到文章本身来说,过于简单且字数仅400+,甚至比讯飞星火和通义千问还少,放到高考里基本上就是不合格的了。

再来看看两个“洋和尚”表现如何,首先是Claude。

百度、讯飞、阿里大模型高考作文挑战:都不及格,还有的读不懂题  消费与科技 第10张

图源:雷科技

Claude也成功理解了题意,并且给出了自己的见解,从字数上来看,居然是目前所有AI中最接近的,足足有625个字,而且文章也从“续航”本身的词义,到人生、社会、科技等方面进行了不同的解读,总体而言更具有可读性和连贯性,表现十分不错。

另一方面,New Bing则是给了我一个“惊喜”。

百度、讯飞、阿里大模型高考作文挑战:都不及格,还有的读不懂题  消费与科技 第11张

图源:雷科技

是的,New Bing也理解了题意,但是它反过来问我想让它选择回答哪个问题,说实话挺乐的,而在我做出了选择后,New Bing又给了我一篇900+字数的文章。从文章内容,结构以及字数要求来说,New Bing是在这个环节中表现最好的(如果忽略掉反问我如何选择的话)。

而且,在测试过程中,New Bing还会提示“正在思考,请等待”的回答,然后我足足等了五分钟都没有下文(偷懒是吧?),最终在我的催促下,New Bing的文章才姗姗来迟,活脱脱上班想摸鱼却被老板抓现行的员工。

最后

AI写高考作文,虽然本质上是整活,但是也可以侧面反映目前的各个平台的AI技术能力如何。从以上两个测试的表现来看,目前国内理解能力最强的应该是文心一言,毕竟是唯一能够理解北京卷题意的AI,而在文章结构和内容来说,讯飞、文心、通义都差不多,不过讯飞的更像一篇普通作文。

至于海外的“洋和尚”,从表现来看确实是领先国内AI平台不少的,至少在提问的理解能力上要高出不少,但是因为缺乏国内中文互联网的训练数据的原因,所有在遇到这些带有“中国特色”的提问时,会选择从普通提问的角度去解答。

总的来说,目前生成式AI还在快速发展,各家都有着独特的优点,同样也存在一些问题,比如对文章的字数要求总是误发 正确理解等。但是,考虑到它们诞生的时间,已经是相当恐怖的学习效率了。

各种精美短文、往刊读者文摘、故事会、意林等……请访问文摘阅读板块,

分享给朋友:

相关文章

“黑五”海淘战升级|亚马逊还是舍不得中国

“黑五”海淘战升级|亚马逊还是舍不得中国

视觉中国这个“黑五”(即黑色星期五,指的是每年11月第4个星期四感恩节的后一天),跨境电商市场的火药味儿异常浓烈。在宣布电商业务退出中国7个月后,不甘心的亚马逊又回来了。就在&…

这个就是iphone X,大家来看看

这个就是iphone X,大家来看看

iPhone X可能并不适合所有人,但它绝对称得上是目前最棒的智能手机,没有之一。 和此前的历代iPhone相比,人们对于苹果iPhone X的评价可能是最不一致的——这款刚刚发售一周的新品,因为新…

离802.11ax全面终结802.11n只剩2年?

离802.11ax全面终结802.11n只剩2年?

在Wi-Fi技术演进的20年时间里,无线技术的发展速度已经超出了所有人的预料。而得益于智能手机等移动终端的全面普及,人们对Wi-Fi的需求也越来越高,即便是影响广泛的802.11n,似乎也正从主流电子…

超频后的i3-7350K 单线程性能比肩旗舰产品!

超频后的i3-7350K 单线程性能比肩旗舰产品!

Intel Kaby Lake 处理器已经正式发布了一段时间,此前媒体和玩家关注的消息也一一得到了解答,Intel 确实推出了一款支持超线程技术的奔腾 G4560 处理器以及一款支持超频的 i3-73…

为啥要实现中国制造?80年代从日本进口个硬盘就得上千块

为啥要实现中国制造?80年代从日本进口个硬盘就得上千块

近几年很多人都在说“中国制造”这个词,以往我们比较熟悉的德国制造,那是世界制造业发展的祖师爷。而现在中国的制造业已经打破传统制造业强国的垄断,中国制造已经开始得到全世界的认可。中国的高铁技术已经成熟到…

毫無預警 Google 突然停售 Pixel C 平板

毫無預警 Google 突然停售 Pixel C 平板

   Google 的 Pixel C 無法衝擊被 Apple iPad 主宰著的平板市場,日前終於黯然退場,Google 正式在官方商店將之停售。這款 2015 年底上市,擁有…

因苹果电池降频门事件,引进第三方 29美元电池以旧换新套餐

因苹果电池降频门事件,引进第三方 29美元电池以旧换新套餐

 面对减速门丑闻在全球发酵,苹果被迫公开道歉,并宣布降低更换电池的费用。据外媒最新消息,一些第三方手机服务商,也降低了iPhone更换电池的费用,覆盖机型范围甚至更广。苹果之前宣布,从现在到…

吓哭佳能尼康!一亿像素哈苏告诉你什么叫终极单反  

吓哭佳能尼康!一亿像素哈苏告诉你什么叫终极单反  

原标题:吓哭佳能尼康!一亿像素哈苏告诉你什么叫终极单反4月15日,哈苏推出旗下最新款中画幅相机——哈苏H6D,共发布了两个版本,分别是 一亿像素的 100c 和 5000万像素的50c。今天,极果君联…

光軸具備快速反應與長使用壽命,GIGABYTE 推出 AORUS K9 Optical 電競鍵盤

光軸具備快速反應與長使用壽命,GIGABYTE 推出 AORUS K9 Optical 電競鍵盤

鍵盤按鍵軸體除了大家熟悉的 Cherry MX、Kailh MX 等機械軸,尚有薄膜、電容、剪刀腳、導套等觸發軸體或是加強手感應用方式。GIGABYTE 近日發表 AORUS K9 RGB 電競鍵盤,…

蘋果「電池門」持續發酵,4種方法讓你知道你的舊 iPhone 電池是否該換了

蘋果「電池門」持續發酵,4種方法讓你知道你的舊 iPhone 電池是否該換了

在「舊 iPhone 會因電池老化變得卡頓」的傳言沸沸揚揚傳了一週後,上週三,蘋果終於承認在電池老化的情況下確實會降低手機性能,不過強調這是為了保護電池、保護手機硬體,防止老舊設備自動關機。不少消費者…

发表评论

访客

◎欢迎参与讨论,请在这里发表您的看法和观点。