考试作弊甄别技术的研究进展：团体作弊的甄别-高考直通车

摘要：随着标准化考试的普及，团体作弊现象越来越普遍，其危害程度远大于个体作弊。团体作弊可分为试题泄露导致的团体作弊、行政舞弊与高科技作弊3种。由于作弊方式不同，作弊考生表现出的作答特点差异较大，因此基于各自特点设计的作弊甄别方法也不同。系统梳理团体作弊甄别的形式、特点与相应的甄别方法，为考试机构开展作弊甄别工作提供技术参考。

关键词：考试作弊甄别；团体作弊；试题泄露；行政舞弊；高科技作弊；考试安全

　　随着标准化考试的日益普及，作弊的手段与方式越来越多，逐渐趋向组织化和产业化，团体作弊现象越来越普遍。一些作弊考生参与大规模的跨考场团体作弊，作弊呈现出隐蔽性强、抄袭率高、涉及面广等新特点^[1]。团体作弊不仅破坏了考试作为选拔手段的公信力，也破坏了社会公平，其危害程度远大于个体作弊。
　　团体作弊可分为试题泄露导致的团体作弊、行政舞弊与高科技作弊3种。3种作弊方式虽均形成跨考场的作弊团体，但作弊方式的差异导致它们表现出不同的特点。考后作弊甄别作为维护考试公平、确保考试分数可靠的必要手段之一，一直是教育和心理测量学的重要研究课题。随着科技的发展，作弊手段不断升级，对作弊甄别方法也提出新的挑战。本文针对不同类型的团体作弊，介绍目前的团体作弊甄别技术，以期为我国考试作弊甄别提供技术参考。

试题泄露甄别方法

　　试题泄露是指作弊考生在考试开始前获取部分试题的原题或答案，或者在参加形式较为固定的考试前询问已经参加过此类考试的考生来获得部分试题信息^[2-5]。如果试题大范围泄露，考试就变成对特定题目记忆的考查，无法考查考生的能力，影响考试的有效性。通过这种方式作弊的考生一般在泄露试题上的作答表现更好，与其他试题的作答表现有明显不同。一些研究者使用个人拟合检测指数来量化考生在泄露试题与其他试题上的作答差异程度，个人拟合检测指数异常的考生通常被认定为作弊考生^{[2, 6-7]}。下面介绍2个应用个人拟合检测指数的研究。
　　Zhang等提出甄别试题泄露导致团体作弊的方法：首先使用个人拟合指标lz与一个预先确定的阈值判断考生的作答模式是否存在异常；接着对标记为异常的考生建立题目异常分数矩阵，当考生对某些题目有预先了解时，正确回答这些题目的次数要比基于他们能力预测的次数多；最后计算考生对之间的相似性，并利用因素分析发现选定的考生之间的集群^[8]。在真实数据上使用这种方法时，2000名考生中，有4.2%的考生在第一阶段被标记为异常考生，这些异常考生中只有18%左右的考生被聚成团伙，因此使用这种方法需要事先对考生是否对试题有预先了解进行筛选，然后对异常考生进行分组，异常考生的筛选依赖于第一阶段，因此可能会出现检出率较低、误判率较高的现象^[8]。
　　Belov通过模拟研究检验了试题泄露检测指数的有效性，发现对于抄袭比率低的场合，检测率不佳^[7]。此外，当作弊考生获取全部的试题或答案时，不会表现出泄露试题与未泄露试题之间作答的差异，这种方法也就不再适用。

行政舞弊甄别方法

　　行政舞弊是指教师或管理人员参与的非法作弊活动。由于一些地区将对学校的评价、教师的薪酬与学生成绩紧密挂钩，因此在利益的刺激下，学校或者教师可能会通过考试前对考生进行培训、考试时提供答案或延长考试时间、考后更改考生的作答等手段帮助考生获取好成绩。
　　行政舞弊的特点是作弊团体的组成信息往往是已知的，教师或学校管理人员以班级或学校为单位进行作弊，研究者通常会基于自然班级和学校来筛选行政作弊团体。Jacob等提出一种利用异常分数波动和班级异常作答模式检测行政舞弊的方法^[9]。异常分数波动需要某班级连续3年特定学科成绩百分位数排名，其计算公式为：

SCOREcbt=(rank_gainc, b, t)²+(1-rank_gainc, b, t+1)²

其中rank_gainc, b, t代表班级c在科目b上t年的百分位数排名。在第一年取得大幅成绩进步，而在第二年成绩进步较小却获得较大SCOREcbt的班级，很可能是作弊班级。同时，他们还给出3个判断班级作答模式是否异常的指标：1）班级学生给出最不常见相同答案的可能性；2）班级学生作答间的相关及不同题目间相关的差异；3）同一分数考生间作答的差异^[9]。这种将异常分数波动和班级异常作答模式结合起来进行作弊团体甄别的效果较好，但甄别时需要同一科目连续3年的成绩限制了它的使用。

　　Vista提出一种用于大规模考试甄别行政舞弊的两阶段方法^[10]。在利用团体信息（学校、班级）对考生进行分组后，第一个阶段计算所有考生与本次考试中作答几乎全部正确的考生两两配对的ω指标，以较为宽松的α水平进行初步筛选，标记作弊嫌疑考生占比超过5%的组；第二阶段，对标记的组，在组内随机抽取500对考生，两两配对计算ω指标，以较为严格的α水平进行筛选，最终将作弊嫌疑考生占比过高的组判定为行政作弊团体，这种方法的检出率接近100%^[10]。
　　行政舞弊的甄别方法使用预先可以得到的分组信息，如班级、学校等，直接以团体为单位进行作弊甄别，检出率较高；但直接以团体为单位进行甄别无法确定所涉及的考生个体是否作弊，因此需要事后对考生本人是否参与作弊进行彻底调查。

高科技作弊甄别方法

　　高科技作弊是指在信息技术不断发展的背景下，利用多种电子设备通过无线网络与考场外枪手进行试题和答案传输的一种作弊行为^[11]。高科技作弊的手段包括（但不限于）使用手机、计算器、电子扫描笔、无线耳机等可连接互联网或通信的设备，考生通过短消息或电子邮件将试题快速传送给考场外部枪手，并且通过相同的方式接收枪手的答案^[12]。近年来，在全世界的各类考试尤其是高利害考试中，使用高科技设备作弊的事件时有发生，严重损害了考试的公平性。高科技作弊具有大规模、有组织、团体性、答案可以跨考场传播的特点，作弊团体内的考生作答之间存在异常相似性^[2]。
　　按照作答类型，试题可以分为客观题和主观题。在传统的抄袭作弊中，客观题比主观题更容易抄袭。在监考比较严格的情况下，主观题抄袭较难发生；但是在高科技作弊场景下，一些电子设备具有高度隐蔽性，主观题的答案要点可以通过语音和文字的方式传递给考生，主观题抄袭也逐渐成为普遍现象。
　　已有的作弊甄别指标多适用于一个考场内2个考生间的抄袭，将其运用到高科技作弊场景中使用时，需要根据高科技作弊的特点进行改进。以下介绍高科技作弊场景下客观题和主观题的甄别方法。

3.1　客观题的作弊甄别
　　Wollack等在相似性指标M4的基础上，提出使用最近邻聚类的方法筛选作弊团体。这种方法的检出率比较高，但是检测出的作弊团体可能是异质的，即不同的作弊团体考生被划分在同一个团体中，导致误判率较高^[13]。Belov等将图论的思想运用于作弊团体甄别，将每个考生视为图中的一个点，根据划定的相似性指标ω的阈值来判断2名考生，即2点之间是否连线（代表二者有抄袭关系），然后在图中基于考生之间的连线关系寻找作弊团体；他们将作弊团体定义为具有一定规模的团，团内所有考生两两间均须有线段连接，通过建立团大小的分布来选取阈值，从图中存在的最大团开始逐步筛选，大于或等于阈值的团均被认作作弊团体^[14]。这种方法的甄别效果比较稳定，误判率较低，但检出率也偏低。
　　上述2种方法为解决高科技客观题作弊甄别提供了参考：先筛选具有作弊嫌疑的考生对，再通过聚类或图论的方式寻找作弊团体，依据的原理都是作弊团体内部的作答相似性大于作弊团体与非作弊人员的相似性。2种方法共同的局限性在于使用相似性指标需要人为划定临界值，临界值选取不当会影响甄别效果。

3.2　主观题的作弊甄别
　　论述、写作等主观题一直是我国大规模考试的常用题型。主观题的作弊甄别一般是依靠评卷专家组来判定，对于同一科目，当考生作答的“错同率”达到一定比率，即认定为雷同卷。这种依靠专家判定的方式，费时费力，而且在大规模考试中，仅凭人力难以逐个核查数以万计的主观题。作业查重、论文查重、代码查重、邮件过滤和内容原创度审核等都属于文本抄袭检测的研究范畴，这些领域的研究成果对主观题作弊甄别有一定的借鉴意义。文本抄袭检测是指通过一定算法，利用不同的特征提取方式，使用合适的相似度计算方法，得到具体量化的相似度数值，并以此对词语、短文本、文档或者代码之间的相似程度进行衡量的方法。文本特征构建后，可以分为内部和外部2种检测模式。外部检测模式是指将待检测的文本与其他文本进行配对，以2个文本间的相似程度来衡量其是否存在抄袭嫌疑。内部检测模式是指不借助其他的外部文本，仅依靠该文本自身的内部风格特征，对每一个独立的文本进行抄袭检测的方法，内部风格特征差异越大，文本内容越异常。例如，有研究者曾选取古代常用的14个虚词，对《红楼梦》进行词频统计，分析全书的前后部分在14个虚词上的使用差异，发现前80回和后40回在14个常用虚词的使用上存在较大差异^[15]。

　　在参考内、外部检测模式的基础上，笔者提出相似度检测法和文本风格检测法。相似度检测法是利用Bert模型和余弦公式对考生的作答文本进行相似度计算，按照一定的阈值对考生作答进行聚类，构建类别相似度的Z分数矩阵，并将类别和相似度转化为类似于客观题的题目和选项，通过设定的指标来甄别作弊考生。文本风格检测法的思路是：如果一场考试是由考生独立完成的，那么不管是在得分的部分，还是根据要求结合材料论述和引申的部分，考生的写作风格都不会有较大的差异；因此如果一名考生在得分部分和引申部分存在较大的写作风格差异，说明该考生可能一部分是自己作答，另一部分则是抄袭枪手传输的答案。利用上述差异可以找出存在作答异常的考生。写作风格的差异有2种定义方法：第一种是比较考生在“个人引申”和“得分要点”2个部分使用虚词情况的差异程度，第二种是比较考生在2个部分的词汇丰富程度、停用词使用频率、平均句子长度、平均单词长度等方面的差异程度。
　　本研究发现，单独使用相似度检测法或文本风格检测法时，虽然都能达到较高的检出率，但是无法将误判率控制在可接受的范围内。进一步分析发现，内、外部检测法适用的范围不同：内部检测法对主观题作答字数较多、得分较高的考生更敏感，检测效果更好；外部检测法对主观题作答字数较少、得分相对较低的考生更敏感。基于这些特点，在主观题作答字数较多、得分较高的考生中，内部检测法权重设定为0.9，外部检测法权重为0.1；对于主观题作答字数较少、得分较低的考生，外部检测法权重设定为0.9，内部检测法权重为0.1；对中等水平考生的甄别，内部检测法指标权重设定为0.4，外部检测法权重为0.6。通过不同指标分配权重的设定，检测效果有较大提升，能够在检出率100%的情况下，将误判率控制在10%以下。

　　随着科技的发展，高科技作弊手段隐蔽性越来越强，越来越难以防范，例如大规模考试中往往存在多个作弊团体，枪手的能力水平往往较高，同一作弊团体内的考生收到相同的答案后可能会进行不同比率的抄袭，这都使得作弊甄别难上加难^[16]。因此，在未来的研究中，应将主观题和客观题的甄别方法结合使用，从而取得更好的甄别效果。

考试作弊甄别技术的研究进展： 团体作弊的甄别

相关图文

考试作弊甄别技术的研究进展：团体作弊的甄别