红杂比赛已落下帷幕,对计分规则的争议也较多。本文不谈对作品的争议。抛开制定规则是在活动之前还是活动之后的时机,简单谈谈剔除不可信分值的科学方法。
一组数据,相同的评判标准下,肯定符合正态分布,而且数据量越大,越明显。
这是科学。
一组样本中的一个或者几个值,离其他数值较远,表示不属于该样本群(是离群值),这样的数据,需要使用可学方法加以剔除,简单去掉最低值或者最高值,是不严谨不科学。表面看是懒惰的表现,深层次探究,有可能是利用数据操作来达到某个目标,这完全有可能。
数理统计学里,正太样本离群值的判断和处理的方法很多,最常用的有,一是Grubbs(格鲁布斯)检验法法,用于一组数据的一致性检验,剔除某一个离群值,这个离群值有可能是最大值,有可能是最小值;二是Dixon(狄克逊)检验法,用于剔除大于1个离群值的场合(不适用本次计分规则)。
用8.5,4,10,8.8,10这组数据举例说明——以下比较专业,看不明白的可以自行恶补一下该方面知识。
这组数据平均值为8.26,标准差为2.477.
用可疑最小值4减去平均值之后再除以标准差,结果是1.720。用1.720与格鲁布斯临界值表95%置信水平下5个样本数查到的数值1.672比较,1.720大于1.672,判定该数据为离群值,加以剔除;用可疑最大值10参与计算,结果为0.702,比1.672小,计算后判定为正常值,不必剔除。剔除数值4后,用剩余的4个数据进行最终计算。
以上仅为举例,有些需要剔除最大值。
因此,仅剔除最小值可能影响最终排名,是草率的、不科学的。再举办活动时,一定要注意避开这样的计分规则。
|