广告

智能机器人1分惜败高考状元,输在“读不懂题目全靠猜”

2017-06-08 网络整理 阅读:
2017年6月8日,是中国恢复高考制度 40 周年。早前我们就了解到,今年将有两位特别的考生会亮相高考,它就是成都“准星数学高考机器人AI-MATHS“,以及北京的智慧教育机器人Aidam。

6月7日晚间,AI-MATHS在断网断题库的情况下完成了北京文科数学卷和全国二卷数学卷,分别用时22分钟与10分钟,考试成绩也于当天揭晓,分别为105与100分(两套试卷的总分均为150分)。这一分数说不上是数学“学霸”,不过还算差强人意。毕竟,AI-MATHS研发团队设立的高考目标分也才110。8w7ednc

曾考93分,“刷题“两月后挑战高考状元

今年2月,AI-MATHS仅靠100套试题的训练量,在一次模拟考中取得了93分的成绩。2月份之后,为了训练AI-MATHS的答题速度,团队加大了题量,目前AI-MATHS已有500套试题的积累,这次AI-MATHS算是超越自己了吧。 8w7ednc

不过,人工智能虽然在运算、推理、存储等方面都具备超强的能力,但突破在于具备了自我深度学习、自我优化能力。林辉介绍,AI-MATHS是通过综合逻辑推理平台来解题,而非学习储存题库。“它可以学习小学到高中的7000多个考点,运算量可达2的800次方。”8w7ednc

据了解,准星AI-MATHS近1年多来,在复杂逻辑推理、直觉观察推理、计算机算法、深度学习上都进行了深入攻关。它是通过综合逻辑推理平台来解题,而非学习储存题库。本次挑战的结果也将运用到该公司对AI-MATHS的技术验证中,帮助AI-MATHS早日从“学生”变成“老师”。但值得一提的是,这款机器人目前仍有一些漏洞需要不断改进,比如,AI-MATHS欠缺对常识的理解能力,“读不懂题目就只能猜”。8w7ednc

008ednc20170608
▲ AI-MATHS现场答题(Source:澎湃新闻)8w7ednc

009ednc20170608
AI-MATHS主机8w7ednc

资料显示,AI-MATHS是成都高新区一家本土人工智能企业研发,以自动解题技术为核心的人工智能系统,诞生于2014年,在2016年5月宣布参加今年高考数学试卷。业界透露,让机器人参与高考,旨在测试机器人能达到什么样的人工智能水平,然后在更多地方应用AI成果。8w7ednc

AI-MATHS由10余台服务器组成,“考场”设在成都天府新谷10号楼的一个会议室里。像考生会被切断与外界的联系一样,开始答题时这些服务器也会被切断网络连接。由公证机构和媒体出任“监考老师”。8w7ednc

而此次公开挑战高考数学卷,是高考机器人系统面向公众的首次展示。8w7ednc

010ednc20170608
现场老师给AI-MATHS评卷(Source:成都发布)8w7ednc

Aidam机器人大战六名高考理科状元

北京这边战况更加惨烈,教育机构“学霸君”自行研发的智慧教育机器人Aidam与六名高考理科状元同台对决,共同解答今年高考文科数学试题,满分为150分。结果Aidam的成绩为134分,六名状元为135分,险胜。8w7ednc

昨天(6月7日)晚间六点四十分,Aidam开始答题。这不是一个普通的高考考场大约三百平方的大厅里,循环大声播放着一首钢琴曲,时不时还有女主持人和嘉宾对话——明显比考场嘈杂多了。8w7ednc

011ednc20170608
Aidam和六名学霸同时开始答题8w7ednc

Aidam仅仅经历九分四十七秒就答题结束。学霸君创始人张凯磊坦言自己很紧张,“就像送自己的女儿参加高考”。他表示,为了展示,Aidam昨天答题放慢六倍速度,平时每道题完成时间应该在七至十五秒。8w7ednc

012ednc20170608
学霸君创始人张凯磊讲解Aidam解题原理8w7ednc

Aidam放慢的原因是不仅需要把题目做对,还需要给大家展示他是如何做到的。根据要求,Aidam会通过礼堂前部的大屏幕来展示:左边是一个由无数蓝色光点组成的大脑,每算一道题,蓝色大脑里就会跳出若干以红色、黄色、蓝色节点构建的知识链。每个节点旁边有一行白色的字,标注着这道题涉及了哪些知识。8w7ednc

013ednc20170608
Aidam解题全程展示8w7ednc

六名高考状元在高考数学结束拿到试题后,即开始答题,答题时间是五十五分钟。人机双方分别完成了包括客观题和主观题在内的整张试卷,并按照评分标准得出最终成绩。8w7ednc

经过数学特级老师、奥赛教练韩兆勇的评审,Aidam的分数最终公布:134 分。三组高考状元陪他一起进行测试,状元一组得分119分。状元二组得分140分。状元三组得分146分。三组高考状元平均分135分,Aidam以 1 分之差惜败于最精英的人类“做题家”。8w7ednc

2016年河北省理科状元孟祥熙现就读于北京大学光华管理学院,他受访时表示,“人机大战赢了很开心,但是机器人技术很先进,想知道自己解题错在哪里”。8w7ednc

014ednc201706088w7ednc

以拍照搜题为最初产品的学霸君,其产品已经有 6000 万注册用户,答题搜索次数超过 60 亿,老师在线答疑超过 500 万次。这一庞大的题库和数据积累为 Aidam 的发展打下了基础,“我发现,原来在我们的题库里面我们记录了大量的关于状态之间可跳转、可推演、可演算、可关联的信息。” 在讲解 Aidam 的背后逻辑的时候,学霸君的首席科学家陈锐锋使用了围棋作为比喻。8w7ednc

类似于围棋棋盘可以被分为无数横轴和纵轴。人的思维模式和解题模式也可以被具象为棋子,棋子的纵轴与横轴分别代表起始的状态和下一步的状态,这样,每一次题目的可能解法,就相当于在一个庞大思维矩阵里下棋的过程。而学霸君此前积累的庞大的题库与数据记录,恰恰类似于无数张围棋棋谱,为人工智能自主学习提供了可能性。8w7ednc

高考机器人的意义在哪?

机器人参加高考,并不是所谓的 “ 人机大战 ” 后才出现的噱头。在国家层面,“ 高考机器人 ” 是国家863计划信息技术领域 “ 基于大数据的类人智能关键技术与系统 ” 项目的重要研究目标之一。该项目由科大讯飞联合30多家科研院校和企业共同参与,早在2015年便已立项。8w7ednc

“ 高考机器人 ” 有多方面的意义:聚集国内的一些比较顶级的研究机构和科学家,一起来攻关现在人工智能领域相关的一些重要的技术问题;替代传统测试人工智能水平的 “ 图灵测试 ” ,全方面测试和应用与人工智能相关的多个领域;最后将这些领域攻关所取得的技术成果,运用到相关行业和领域,如翻译和车载控制等。8w7ednc

尽管目标类似,但不同的背景决定了AI-Maths和Aidam的不同的解题思路,甚至在一定程度上截然相反:准星云学的 AI-Maths 与 863 计划的高考机器人的思路一致,强调 “ 不联网、不连接题库、无人工参与 ”。在只有少量训练样本的情况(只有约500套试卷、1万道题的训练量)以机器建立类似人类的复杂逻辑推理能力与联想能力。试图让机器在较少样本和较少资源耗费的情况下,拥有“举一反三”能力。而学霸君的思路则强调大题库(已经有超过7000万的巨大题库),通过海量的题库,用户行为数据,以及 Ai 自我博弈,从海量题目中找到适合共通的知识组件和解题模式。8w7ednc

015ednc20170608
AI-Math解题全程断网断库,全凭“学习来”的知识8w7ednc

从某种角度说,这两种模式的区别类似于Alphago 早期版本的学习过程,计算机可以通过规则自己对弈,也可以学习棋谱。从此前的测试中看,Aidam 的成绩要好于 AI-Maths,但如果以纯粹人工智能的难度和多行业的延展性,AI-Maths 要略高一筹。8w7ednc

机器人败给了自己的语文水平

但为何这次AI-MATHS机器人无论是目标分还是实际成绩都没有非常高呢?澎湃新闻调查表示,因为AI-MATHS对自然语义的理解还有点弱。8w7ednc

比如北京文科数学卷这题:8w7ednc

016ednc20170608
AI-MATHS答不出来的数学题(Source:成都发布)8w7ednc

AI-MATHS没能答出来,不是因为计算问题,而是机器不理解提问的意思。8w7ednc

一言以蔽之,这个机器人考生的数学成绩,败给了自己的语文水平。负责改卷的成都七中高级教师祁祖海指出,AI-MATHS错误题的共同点是文字太多,但它的计算题和证明题做得不错,分数算中等水平,正常学生能考110分左右。8w7ednc

据了解,AI-MATHS 学习了小学到高中的 7000 多个考点,运算量可达到 2 的 800 次方,其研发团队准星云学的创始人林辉认为,跟 AlphaGo 相比,高考机器人的研发难度更大,因为要让系统准确理解人类语言。人类的语言千变万化,而且还在不断创新,几乎是学不完的。遇到没学过的生词,人类会联系上下文去推测词义,猜对是比较容易的事;而机器人却会卡壳。比如,正切(tangent)的缩写,近年来的教材和试题里面都用的是“tan”,但早些年用过“tg”。团队在训练AI-MATHS用的题都是“tan”,最近突然让它做了一道“tg”的题,它就懵了。8w7ednc

不仅是AI-MATHS,我们发现Siri、微软小娜等聊天机器人也场景提问下的回答也不够灵活与聪明,这也是因为它们对自然语言的理解能力还不够强。8w7ednc

两部机器人高考成绩出炉后,也引发了网友热议,虽然嘲弄居多,但也有网友笑说“马云第一次高考,数学才考1分呢,机器人很厉害了”。不知道前段时间怒怼AlphaGo的马爸爸听后有什么感想:)8w7ednc

201606300001238w7ednc

本文为EDN电子技术设计 原创文章,禁止转载。请尊重知识产权,违者本司保留追究责任的权利。
  • 微信扫一扫
    一键转发
  • 最前沿的电子设计资讯
    请关注“电子技术设计微信公众号”
您可能感兴趣的文章
相关推荐
    广告
    近期热点
    广告
    广告
    广告
    可能感兴趣的话题
    广告
    向右滑动:上一篇 向左滑动:下一篇 我知道了