五大模型解高考数学:阿里通义千问、360智脑10题全错得0分;讯飞星火答对一半 世界热消息
一年一度高考季,高考试题是大众关注的焦点,也成为了AI能力的试金石。
一年一度高考季,高考试题是大众关注的焦点,也成为了AI能力的试金石。AI大模型数学功底到底如何?比人类“聪明”吗?搜狐科技使用五款AI大模型对2023高考上海数学试卷进行了同题测试。
(资料图片仅供参考)
在测试中,搜狐科技选取了高考试卷前10道填空题,让百度文心一言、阿里通义千问、科大讯飞星火认知大模型、360智脑、ChatGPT进行回答。
测试结果显示,这五款大模型在答数学题的能力上差异显著。
最“聪明”的讯飞星火答对了5题,正确率50%。百度文心一言和ChatGPT“紧跟其后”,答对了4题,正确率为40%。
360智脑和通义千问则“全军覆没”,一道题也没答对,交了白卷。
值得一提的是,昨天搜狐科技也用五款大语言模型产品,对高考作文全国卷(甲)进行了测试,并邀请了5位语文名师打分。
打分结果显示,ChatGPT高考作文得分最高,文心一言、讯飞星火得分稍低,但跟ChatGPT处于同一水平。360智脑和通义千问得分最低。
虽然语文作文题和数学计算题,对大模型能力考察的维度并不尽相同。但巧合的是,不擅长写作文的360智脑和通义千问,似乎也不擅长做数学题。
通过这两次高考题测试,也能从侧面反应出各家大模型的能力确实是“参差不齐”。如果ChatGPT、文心一言、讯飞星火是“学霸”,那么360智脑和通义千问则是妥妥的“学渣”。
附测试中使用的高考数学题题目:
1.不等式|x-2|<1的解集为__
2.a=(2,3),b=(-1,2),则a·b=__
3.首项为3,公比为2的等比数列的前六项和S6=__
4.tanA=3,tan2A=__
5.f(x)={2^xx>0;1,x≤0}的值域为__
6.复数z=1-i,则|1+iz|=__
7.圆的方程x^2+y^2-4y-m=0的面积为π,则m=__
8.三角形的三边长为a=4,b=5,c=6,则sinA=__
9.某地一年四个季度的GDP(亿元),第一季度GDP为232,第四季度GDP为241,且四个季度的GDP逐季度增长,中位数、平均数相等。则该地一年的GDP为__
10.(1+2023x)^100+(2023-x)^100=a0+a1x+a2x^2+…+a100x^100。若ak<0,正数k的最大值为__
责任编辑:
关键词:
一年一度高考季,高考试题是大众关注的焦点,也成为了AI能力的试金石。
取消发行“23烟台银行CD065”
2023年初级中药师考试查分入口由卫生 护士考试栏目提供,查找更多考试报
1、版权问题没有资源吧《鬼伎回忆录》是集合13位顶尖惊栗电影导演联手
近期,日本东京电力公司向福岛第一核电站核污染水排海隧道内部注入海水
国际能源署(IEA)总干事表示,今年影响油价的最重要因素将是中国经济及
1、我的世界是一款火爆的沙盒像素游戏。2、游戏不是注重华丽的外观,而
扬杰科技:拟与东南大学共建宽禁带功率器件技术联合研发中心
合算。 1 保障程度:招商年金保险提供了全面的保障措施,包括退休金、
上交所邱勇:科创板已成为我国“硬科技”企业上市首,科创板,上交所,化
《碟中谍7》将于7月12日在韩国上映,是《碟中碟》系列电影的第七部,讲
一、广东省揭阳市天气预报【普宁暴雨黄色预警】受强对流云团影响,我市
俄称摧毁“豹”-2坦克德媒:是一辆联合收割机,摧毁,俄军,乌军,导弹,主
相信大家对转北京户口最新政策,转北京户口需要什么条件的问题都很疑惑
诸多的对于邮箱登录app,app邮箱登陆这个问题都颇为感兴趣的,为大家梳
2023年“文化和自然遗产日”暨第十一届新疆非物质文化遗产周主会场活动
原标题:农机智慧平台、农机服务站点……麦收进入高峰期各地力保夏粮颗
1、项目建设的主要内容:“211工程”的内容主要包括学校整体条件、重点
今天小编岚岚来为大家解答以上的问题。黑奴电影里的树叫什么,黑奴电影
凡夫迷失于当下,后悔于过去,圣人觉悟于当下,解脱于未来。千里之行,