A. 如何“调戏”自动阅卷机
最近公布的一份研究报告总结说,计算机能够给美国标准化考试的作文评分,效果和人工阅卷一样好。
阿克伦大学(University of Akron)教育学院院长马克•谢尔米斯(Mark Shermis)收集了 6 个州的 1.6 万多篇经人工打分的初高中考试作文。然后他用 9 家公司开发的自动化系统来给这些作文评分。
阿克伦大学的一份新闻稿称,电脑阅卷的“准确度几乎完全相同,事实证明在某些情况下软件比人更加可靠”。
“高等教育内幕”(Inside Higher Ed)网站上的一篇博客文章将整件事情总结为:“阅卷机器的胜利”。
对那些倾向人工阅卷的人来说,还有更多坏消息。人工阅卷最快的速度——根据培生教育集团(Pearson)估计,阅卷人在每篇作文上最多只花两三分钟——大概 1 小时能给 30 篇考试作文打分。
美国教育考试服务中心(E.T.S.)研究部主任大卫•威廉姆森(David Williamson)表示,该中心开发的自动化阅卷机 “电子评分器”(e-Rater)可以在 20 秒内评阅 1.6 万篇作文。E.T.S. 每年开展和管理包括美国大学入学考试 SAT 在内的 5000 万次考试。
这就是结局了?阅卷机注定会接管整个地球吗?
麻省理工学院(MIT)写作项目部主任莱斯•佩雷尔曼(Les Perelman)的答案是否定的。
在给本科生上课之余,佩雷尔曼喜欢研究 E.T.S. 研究论文中提到的算法,从中了解电子评分器的思维方式。
他的研究有其局限性,因为 E.T.S. 是目前唯一允许他对其产品进行测试的教育机构。不过,他指出,自动阅卷机很容易骗,经过一些考前准备就很容易过关,它对什么是好作文设定了一个非常狭隘、僵化的标准,会迫使教师简化写作教学。
佩雷尔曼说,电子评分器的最大问题是不能鉴别内容的真实性。他告诉学生不必浪费时间去担心所写的内容是否准确,因为只要句子结构正确,随便写什么都行。他说:“如果你把 1812 年战争写成始于 1945 年,电子评分器也不会在意。”
佩雷尔曼发现,电子评分器喜欢长文章。他写了篇 716 个单词的文章,把十几句不知所云的话堆在一起,得到了最高分 6 分;而另外一篇逻辑通顺、行文优美的 567 个字的作文只得到了 5 分。
他说,自动阅卷机能够计数,因此它能设定一个好句子有多少个字、一个好段落有多少个句子。“一旦你了解了电子评分器的偏好,就不难提高你的考试成绩了。”他说。
他说,电子评分器不喜欢短句子或短的段落。
它们也不喜欢以“or”和“and ”开头的句子,或结构不完整的句子。
不过,佩雷尔曼说,它们喜欢连词,比如 “however”。根据程序设定,这类词汇显示了作者的思维复杂性。此外, “moreover” 也很好。
复杂的词汇在任何情况下都有效,因为电子评分器视其为词汇量丰富的表现。佩雷尔曼建议:“尽可能用大词。‘Egregious’比‘bad’要强。”
他说,论证的内容并不重要,只要让计算机看来论证结构严密就行。
有一道题目让学生们讨论为什么读大学的花费这么高,佩雷尔曼写头号原因就在于贪得无厌的助教们拿的薪酬过高。
“助教们的平均收入足有大学校长的 6 倍那么多,”他写道,“此外,他们还经常得到大量额外福利,比如乘坐私人飞机、去加勒比海度假,以及出任电影主演。”
电子评分器给了他6分。他又把艾伦•金斯堡(Allen Ginsberg)的《嚎叫》中的一句诗放进去,看看能否蒙混过关。
他过关了。
内容组合的可能性简直是无限的。如果用电子评分器来编辑报纸,罗杰•克莱门斯(Roger Clemens)可以高呼“不忘缅因号”;阿黛勒(Adele)可以演讲“不自由,毋宁死”;帕特里克•亨利(Patrick Henry)则会唱《像你这样的人》(Someone Like You)。
值得称道的是,E.T.S. 的研究人员让佩雷尔曼试用电子评分器一个月。威廉姆森说:“在 E.T.S.,我们为我们研究的透明度感到自豪。”
另外两家最大的营利性教育企业——卓越学习公司(Vantage Learning)和培生教育集团——则拒绝了我让佩雷尔曼测试他们产品的请求。
培生教育集团副总裁彼得•福尔兹(Peter Foltz)说:“他想证明阅卷机为什么不奏效。”
“是的,我持怀疑态度,”佩雷尔曼说,“这正是你们该让我测试它的原因。”
E.T.S. 的官员表示,佩雷尔曼给出的考前准备建议太过复杂,大多数学生都吸收不了;要是他们真能掌握,那他们用到的这种较高层次的复杂思维正是考试本身所希望奖励的。换句话说,如果学生们聪明到能够掌握如此复杂的考前准备方法,那么他们拿6分是理所应当的。
E.T.S. 也坦诚,辨别事实真假不是电子评分器的强项。该机构首席研究员保罗•迪恩(Paul Deane)说:“电子评分器不是设计来检查事实真假的。”
威廉姆斯补充说:“电子评分器也不懂得欣赏诗歌。”
他们说,佩雷尔曼设定了一个错误的前提,即把电子评分器当成人工阅卷员的代替品。他们指出,在使用电子评分器的重大考试比如研究生入学考试(GRE)中,作文试卷同时还会由一名阅卷员评分。如果人机评分之间出现差异,还会叫第二个人来查阅。
福尔兹表示,90% 的情况下,培生集团的智能作文评估软件(Intelligent Essay Assessor)都只是教师的课堂教学辅助工具。软件能即时把改进意见反馈给学生。学生们可以修改并重新提交作文。福尔兹说:“他们可能会写上 5 遍,然后再交给老师看。”
至于被机器评为好文章的通常是长文章,迪恩表示,这两者之间是存在关联的。写作好的人已经掌握了一些技能,可以写得更流畅,从而可以在有限的时间里写出更长的文章。
佩雷尔曼把“戏弄”电子评分器当作一大乐事。他写了一篇文章,然后从每个段落中随机砍掉一个句子,结果还是拿到了 6 分。
佩雷尔曼以前教过的两名计算机专业的学生告诉他说,他们可以设计一款安卓系统的应用程序来自动生成作文,并能从电子评分器拿到 6 分的满分。佩雷尔曼说,这件事情最妙的地方在于,智能手机可以直接把作文提交给电脑打分器,从头到尾根本不用人参与。
总之,可以套用已故伟人亚伯拉罕•林肯(Abraham Lincoln)说过的一句话:母马吃燕麦,雌鹿吃燕麦,小羊羔吃常春藤。
他接着说,小孩子也会吃常春藤,你不会吗?
B. 如何挑选网上阅卷系统
1、明确需求
在选择阅卷系统之前,学校和家长要清晰本身需求,只有确立本身要求,才了解挑选系统的实际效果,对比要求找寻系统,挑选的系统必需要能满足这些要求并达到预想的效果。要知道阅卷系统能给我们带来什么好处,是可以帮助老师减负增效、精准教学?还是可以帮助学生提高学习效率?这是要考虑的问题。
2、功能考查
功能做为关键点之首,在选择阅卷系统时,必须要对系统的功能充足的掌握,掌握其系统功能的健全性,以及其实际操作是不是简单无系统漏洞这些,这全是必须考虑到的。很多产品的功能都是吹嘘出来的,选购一款产品首先要学会看功能,要知道功能是否好用、实用、有用。一款阅卷系统拥有能够实际解决问题、真正帮助老师、学生和家长的功能才是好的智慧教育产品。
3、技术考查
网上阅卷系统功能的优劣、性能的好坏与开发商采用的开发技术及其利用技术实现目标的程度密切相关。经过十多年的发展,网上评卷部分的技术相对成熟,差距不断缩小,但是在基于普通纸答卷应用的扫描识别技术则存在相当大的差距。在某种程度上,我们可以说扫描识别技术是目前判断网上阅卷系统是否成熟的关键所在,因为它不但涉及到答卷制作的难易,而且还事关扫描识别的速度及其准确性,是需要特别关注的核心技术。
4、试用测试
由于软件产品的特殊性和复杂性,如果通过上述方法尚不能判定产品是否符合要求,最为稳妥的方法就是进行试用测试。
C. 怎么判定网上阅卷产品的好坏!
如何对网上阅卷进行产品的比较测试?
导购指南
由于不同厂家的网上阅卷系统存在着开发技术、开发依据的不同,因而不同产品的功能、性能及使用方法也必然存在差异。为更好地选择产品,作为用户方,对不同产品进行对比性测试是一个可行,而且也是最可靠的方法。
如何进行测试才能达到比较产品优劣的目的?对很多用户而言可能是一个比较陌生的问题,以下介绍的测试方法,期望能对广大的用户有所帮助。
一、测试内容
从网上阅卷系统的用途上看,能否快速、准确地扫描识别答卷,并实现简单、方便和人性化评卷,进而得到全面、准确的教学质量分析与评价结果是判别系统优劣的关键所在。为此,测试应包括如下内容:
1.答卷设计与印刷的方便性与灵活性;
2.扫描与识别的效率及准确性;
3.网上评卷的方便性与人性化程度;
4.对网络环境的要求及适应能力;
5.统计分析的科学性与完整性;
6.对不同系统答卷的兼容能力。
二、测试方法
1.为每家供应商安排相近规模、相同时间、相同环境的对比测试,并详细记录各供应商投入的系统、设备、人员及过程中各环节的情况。
2.要求利用常用的文字编辑软件(如Word)进行答卷设计,并利用用户现有的速印机进行印刷答卷。
3.现场监督答卷扫描与识别的过程,从扫描量、所需时间及设备与人员的投入等情况分析其效率;从识别结果的错误率判断其准确性。
4.现场监督网上评卷过程,从网上评卷的使用操作、辅助工具、辅助功能及质量控制措施等判断系统的完善程度;
5.通过对局域网(校园网)、广域网(教育城域网)及互联网(教师回家改卷)的网上阅卷测试系统的环境适应能力。
6、阅卷完成后,现场监督统计分析的操作过程及检查其统计结果(指标及报表)是否完整、准确及符合实际需要。
7.通过对常见的及不同种类的答卷扫描识别,测试系统对高考、中考及地区性统考答卷兼容能力。
8.如需实现跨地区联考网上阅卷的,还需要邀请不同地区用户通过互联网进行远程阅卷的测试。
三、结果分析
测试完成后,需要对过程记录及阅卷后的统计分析结果进行分析,并建议关注如下事项:
1.系统部署及操作使用是否简单、灵活和方便?
2.设备及人员投入是否相同?同等投入的工作效率谁高谁低?
3.对印刷设备、服务器及扫描仪等要求是否一样或相近?
4.扫描识别与统计分析结果是否准确,并满足教学需要?
5.对不同网络环境的适应能力和不同答卷的兼容能力如何?
6.能否满足用户独立使用,统考使用及跨地区的联考使用?
D. 阅卷机工作原理
工作原理:
机读卡是一种简单的光学字符识别(OCR)技术。光标阅读机(读卡机)只对黑色敏感,卡上印有黑色的条块,让阅读机确认卡的方向与位置,铅笔在卡上的填涂的黑块和印好的黑块共同组成了一个只有黑与白的图像。与二进制的“0”、“1”近似,读卡机扫描后与预先存储的信息生成的图像进行比较,从而得到结果。侧面有一条黑白相间的道,叫导引道。然后用光电元件测量光通量,再通过数字处理,就可以得出最终的结果。
填涂技巧:
1、使用前把铅笔的头在纸上磨成马蹄形(粗细根小格差不多),填涂的时候相较于小格就比较合适。
2、可以选择购买专用的机读卡填涂自动铅笔,因为这种自动铅笔的笔尖已经做成了马蹄形。
3、可以选择购买填涂用的尺子,尺子上有相同大小的小孔。直接在里面填涂。
E. 阅卷机的介绍
阅卷机又称光标阅卷机(Optical Mark Reader缩写OMR),它是一种集光、机、电于一体的计算机外设录入设备。是一种专用计算机输入设备,它能快速识别信息卡上的涂写内容,并传入计算机中处理。阅卷机的基本原理是发光器件发出的光照射在信息卡的信息位上,如该信息位被涂黑则部分光被吸收,反射光变弱,否则,反射光变强,由对应的接收管将强弱不同的光信号转移成电信号,再经A/D转换、数字滤波、模式识别后完成对信息卡中字符的识别。
F. 批改答题卡的机器是用什么方法鉴别选项的呢求
答题卡批阅一般用光标扫描的方式,当设置预订正确答案它会在指定地点扫描。当你多涂之类会报错,这时候阅卷人员会抽出该张试卷手改, 在我国大型考试中,一般是两遍阅读,用阅读机阅卷两次,把两次成绩做比对,如果出现不一致的情况,就启动三评,就是人工阅卷