11月26日,由搜狐科技主办的“2019搜狐科技AI峰会”在北京举行,峰会旨在解读AI前沿新技术,探索行业新趋势。
在峰会下午的教育论坛上,科大讯飞北京研究院副院长付瑞吉发表了题为《智能评阅核心技术及应用简介》的主题演讲。
付瑞吉介绍,科大讯飞在教育领域做了很多事情,包括考、评、管、教和学都有产品和应用。付瑞吉称,科大讯飞的在教育领域的技术和应用已经大规模服务各种考试、以及学生和老师。比如已经是在全国普通话水平考试30多个省当中应用,累计服务1700万名考生,还有就是在英语口语考试当中,我们在广东、北京、天津、上海等等十多个省市的高考当中得到应用。
付瑞吉特别提到,科大讯飞的评阅技术已经应用于中高考。比如安徽和江苏的高考,主要用于质检,实际上是在人工评分的同时进行机器评分,如果发现人工评分和机器评分有很大分差的话就会请专家进行仲裁评分,如果有问题就进行修正。人工智能技术在日常考试评阅中的应用,维护了高考考试的公平和公正。
以下为付瑞吉演讲全文:
各位来宾,大家下午好,非常感谢搜狐科技邀请我来做这样一个分享。我们都知道,科大讯飞在教育领域做了很多事情,包括在考、评、管、教和学方面都有一些产品和应用,今天就和大家分享一些我们在考试当中的应用,也就是智能评阅技术。
我们是和教育部考试中心在2016年成立了这样的联合实验室,共同推进语音识别、手写识别、自然语言处理、智能评测和机器翻译这些技术在教育领域当中的应用,实际上我们是从2014年就开始研究智能评阅相关的技术了。
科大讯飞是做语音起家,我们从2005年就在研究口语评测,现在我们已经是在全国普通话水平考试30多个省当中应用,累计服务1700万名考生,还有就是在英语口语考试当中,我们在广东、北京、天津、上海等等十多个省市的高考当中得到应用。口语评测是对口语考试当中学生语音的流利度、精准性进行分析,我们的技术在准确率和相关性都已经达到了专家的水平。
基于口语评测技术启发,我们进行智能评阅研究,就是面向纸笔考试,口语评测和智能阅卷进行对比,也会扫描阅卷图片。语音评测一方面是对发音的准确性进行评价,另一方面是对文本语义进行评价,通过语音识别转化成为文字,综合在一起就会变成口语评测的结果。我们的智能评阅也是这样,图片进来以后首先会对书写质量评价,然后进行图文识别,并且对语义层面进行评价,非常的相似。
我们就拿最难的作文自动评阅技术来讲,实际上是对学生的中英文作文进行自动评分和批改,一方面是减轻阅卷员的阅卷负担,另一方面是便于评分的质检,保证考试的公平公正,应用于两大方向,一是大规模考试,二是日常教学。
这是一个简单的技术框架,作文自动评分参考中高考的评分标准,然后作为我们考察的维度,通过机器学习进行评分模型的训练,然后可以对考试的试卷进行自动评分,批改是在此基础上进行错误的检测,然后给考生一些反馈,主要也是应用在日常的教学过程当中。
我们来看语法检错。这方面需要检测语法当中缺词、多词、用词不当的样例和错误,(我们)去年参加了国际的语法检错大赛并且获得冠军,我们会把这项技术应用于作文评分错误检测以及作为评分维度使用。一篇作文比较复杂,谋篇布局是什么样子,通过全局和局部的语音关联技术可以把作文当中的论点、论据和相关决策识别出来,一篇文章的脉络就能够清楚地展现在我们面前,结构的好坏可以作为评分的标准依据。
表达方式就是记叙、描写和抒情,相关的表达方式都可以识别出来,作为我们评分的标准,比如有些好的作文可能描写会比较丰富和细腻,我们把它作为特征使用,修辞手法就不详细讲了,采用多任务识别的过程,比如通常的比喻、拟人、排比等等修辞,文本的相似度检测就是检测抄袭前面的阅读理解,这些在大规模考试当中老师都是很难发现的。
大规模应用考试就是中高考的考试,规模是几万人到几十万人,需求主要是质检或者替代人工评分,日常教学当中规模会小一些,平常的周测和月考等等,但是需求会更多一些,除了评分之外还需要批改的结果,因为平常的教学过程当中只给学生评分是起不到提高的作用,也需要给学生一些反馈,也需要给老师报告,就是你所在的班级当中评分作文的情况,便于老师进行教学。
我们来看应用的情况,大规模考试的过程当中,近几年我们在多地的中高考进行应用,比如安徽和江苏当中的高考进行应用,主要用于质检,实际上是在人工评分的同时进行机器评分,发现人工评分和机器评分有很大分差的话就会请专家进行仲裁评分,如果有问题就进行修正。当然,英语作文、简答题和数学等等考试当中都有应用,专家针对这种辅助技术的使用也给予好评,使得我们的人工智能技术在各地的推广奠定了基础。这是《中国考试》期刊上发表的两篇论文,很多数据也是从论文当中摘取。
日常的教学使用主要是针对字词语法抄袭的常见问题进行辅助诊断,帮助老师减负,我们在2000多所学校里三年以来的累计服务增长了十余倍,助力近万名老师。
以上就是我的分享,谢谢大家!
二维码