切换到宽版
北斗六星!·百事通·查看新帖·设为首页·手机版

北斗六星网

 找回密码
 立即注册

QQ登录

只需一步,快速开始

搜索
北斗六星网 六星时事 关天茶舍 六星赛场 数据分析:评委打分精准度及权重失衡对获奖的影响
查看: 1806|回复: 15
打印 上一主题 下一主题

数据分析:评委打分精准度及权重失衡对获奖的影响 [复制链接]

跳转到指定楼层
主楼
发表于 2023-2-10 08:19 |只看该作者 |倒序浏览 |
搜索本主题
本帖最后由 公理力 于 2023-2-10 08:31 编辑

注意到有版友发帖,呼吁大家给4位评委的工作也打打分。此事当然可以有,怎奈,应者寥寥。
还有版友建议,评委们就自己工作中的遗憾和有待改进之处谈谈看法,亦未见回应。

无需多少想象力,参赛者,赛事组织者,也包括关心赛事的不少版友,应该也关注下面两个问题:
1)4位评委打分的精准度究竟如何?
2)由评委打分区间差异悬殊导致的权重失衡,对作品排名,特别是获奖等级的影响究竟有多严重?

事实上,早在赛事进行期间,darling小芳就曾专门发帖,提出了第二个问题,并恳请组织者采取必要措施。公某在被点名的情况下,也曾回应一帖,提出过改进建议。
赛事结束,小芳再次提到相关问题,并点了公某的名。现在,就通过数据统计,来分析一下上面两个问题。
重点是,数据分析是得以屏蔽任何主观影响的客观性手段,舍此,几乎没有得出明确、公正结论的方法。

(一)  评委打分准确度数据分析



该表仅限于4位评委对12篇获奖作品的打分数据进行统计分析。通过每位评委对每篇作品打分与该作品平均得分对比获得打分偏差,然后统计每位评委对12篇作品的累计总偏差,就是各位评委打分精准度指标。

从表中不难看出,如果不是打分分布区间差异过于悬殊,这是一个相当不错的结果:4位评委的精准度都相当高,按顺序为:公孙小刀,黄河编辑,马缨花,道家传人。

应该指出的是,公孙和道人两位评委的12个偏差值各自在同一方向:公孙打分无一例外都偏低(红色);而道人正相反,全部偏高(黑色)。
这个现象对打分准确度的影响是正面的。这意味着,该两评委各自的打分标准具有相当高的前后一致性。

值得注意的是,评委们对46号作品的打分。除了马花评委给出了12篇作品的个人最低分(7分),另外三位都给了全部65篇作品中个人最高分。
但由于马花的最低分偏差高达1.97(或许是看走眼,导致这篇另3位评委一致认同的最佳作品,不仅无缘一等奖,二、三等奖也没份儿,仅获优秀作品奖。
从这一意外即可管窥:打分区间差异悬殊,所导致的评委间权重失衡有多严重:一位评委的影响抵消了3位评委的最高分。

而这一最低分同时也影响到黄河和道人打分精准度:这两位评委的最大偏差都出现于该作品(1.03和0.99)。

再仔细看一下马花的12个打分:5篇给了最高分(9.0),6篇给了次高分(8.5)。这与另外3位评委形成对比。
不应忽视的一个事实是,她是最早开始评论作品的,也最早开始受到质疑和批评。客观地看,这11个高分,显然是希望自己看好的作品都能获奖!这是出于缓解版友批评的目的吗?公某不猜测。

附件: 您需要 登录 才可以下载或查看,没有帐号?立即注册
分享到: QQ好友和群QQ好友和群 QQ空间QQ空间 腾讯微博腾讯微博 腾讯朋友腾讯朋友
分享分享0 收藏收藏0 顶0 踩0

使用道具 举报

沙发
发表于 2023-2-10 08:28 |只看该作者
公教授评的细,看来有后续

使用道具 举报

板凳
发表于 2023-2-10 08:29 |只看该作者
本帖最后由 公理力 于 2023-2-10 10:00 编辑

(二)评委权重失衡,对作品排名及获奖等级的影响有多大?

要回答这个问题,首先请注意上表中各位评委打分区间的悬殊差异:马花和黄河两位评委的分布区间均为2.0,道人的是0.8,而公孙对12篇作品的打分区间仅仅为0.3。这势必导致公孙的实际权重严重缩水。
下面就来具体分析每位评委的实际权重影响。

A)马花评委的权重影响有多大?
解答这个问题最简单方法是,假设去掉她的评分,仅取其余3位评委的打分结果,统计获奖作品的假定排名,结果如下表:



从该表不难看出,获奖作品及排名将发生很大变化。一等奖变成3位评委同时给出最高分的46号作品;没能入围的54号作品将获三等奖;38号将入围优秀奖;13号由一等奖顺延为二等奖;34号由二等奖变为三等奖;而62、49号将失去获奖机会,等等。
一句话,所有获奖作品的排名均将发生变化,足见马花权重影响之大。

B)公孙评委的权重影响有多大?
同样假设去掉她的评分,仅统计其余3位评委的打分,结果如下表:



显见,一、二、三等奖均无任何变化。唯一的变化是由未入围的38号作品取代49号获优秀奖。换句话说,公孙小刀辛辛苦苦的打分,对这次征文赛的影响,几可忽略不计。
当时,因那位导演评委临时不能分身,公孙才救急递补。其实,只让那三位评委完成,影响也微乎其微。这一点恐怕是她自己也始料未及的。
如果容许脑洞再打开一点,或可理解为她有意为之,以彰显黄河、道人两位客座评委的重要性。

C)黄河评委的权重影响有多大?
假如去掉黄河评委的打分,征文赛结果如下表:



一等奖没有变化;两个二等奖被23号和49号取代;65号将由原二等奖变为优秀奖;而3位评委给最高分的46号作品将变成第14名,连一个优秀奖都拿不到!45号作品将获优秀奖。如果去掉道人的打分,结果也是如此。换句话说,这两位中任何一位都不可或缺。还有其它一些名次或获奖等级变化,就不一一罗列了。
总之,黄河评委的实际权重只略小于马花。

最后,关于道家传人评委的权重,介于黄河与公孙之间,就不再赘述了。

附件: 您需要 登录 才可以下载或查看,没有帐号?立即注册

使用道具 举报

地板
发表于 2023-2-10 08:32 |只看该作者
诗意天涯 发表于 2023-2-10 08:28
公教授评的细,看来有后续

呵呵,第二部分还没弄完

使用道具 举报

5
发表于 2023-2-10 10:07 |只看该作者
论坛不缺有心人呀,弄的真仔细

使用道具 举报

6
发表于 2023-2-10 11:10 |只看该作者
很有趣~结论就是:马评委是来捣乱的,公孙评委是个鸡肋。
公教授你有没有发现,这四个评委虽然鉴美意见会有分歧,但是在鉴丑态度上却高度统一,知道哪个是垃圾邮件,直接过滤掉了,哈哈哈~

使用道具 举报

7
发表于 2023-2-10 11:29 |只看该作者
权重越大对结果影响越大,越能左右比赛,是这意思包?

使用道具 举报

8
发表于 2023-2-10 12:14 |只看该作者
与公教授商榷

我认为,“评委权重失衡”用在本次评委打分,是不准确的。
权重,指某一因素或指标相对于某一事物的重要程度。它不是一般的比重


百度的例子,比如学生期末总评,取平时成绩,期中考成绩,期末考成绩的综合评价,但是预设的这三个成绩所占期末总评成绩的比重不一样。若平时成绩占30%,期中考成绩占30%,期末考成绩占40%,那么期末总评=平时成绩*0.3+期中考成绩*0.3+期末考成绩*0.4


就本次评委打分来说,他们预设的权重是一样的,即每人25%。计算方法既然定了,那么评委结果累加和每个评委分数乘他的权重再累加,不会改变。这个,与评委权重失衡无关。只是他们的打分结果,对作品名次有一定程度的影响。


我认为,将评委与评委打分进行对比没有意义,每个人打分体系和标准不一样。只要评委自始至终按一以贯之的标准对待每一篇稿子,那么就不存在“失衡”问题。


如果样本数足够多,比如比赛有多名评委打分(七八名或10名以上),那么去掉一个最高分和最低分再累加排名,或许能从大多数体现公平。但一个四名评委的比赛,去掉一个评委分累加其它三个,再得出各种各样的排名结论,我觉得也没有意义。







使用道具 举报

9
发表于 2023-2-10 21:39 |只看该作者
不靠谱的酸菜鱼 发表于 2023-2-10 11:10
很有趣~结论就是:马评委是来捣乱的,公孙评委是个鸡肋。
公教授你有没有发现,这四个评委虽然鉴美意见会 ...

呵呵,你这一归纳,马花和公孙两位评委更难接受了
如黄河评委所言,精力主要放在挑选有获奖可能的作品上,对自认没有竞争力的作品,就不会太认真。


使用道具 举报

10
发表于 2023-2-10 21:40 |只看该作者
香樟树下 发表于 2023-2-10 10:07
论坛不缺有心人呀,弄的真仔细

嗯,要么不理会,要弄,就得认真到位

使用道具 举报

11
发表于 2023-2-10 21:41 |只看该作者
莫邪 发表于 2023-2-10 11:29
权重越大对结果影响越大,越能左右比赛,是这意思包?

完全正确

使用道具 举报

12
发表于 2023-2-10 22:03 |只看该作者
诗意天涯 发表于 2023-2-10 12:14
与公教授商榷

我认为,“评委权重失衡”用在本次评委打分,是不准确的。

呵呵,没错,在规则和概念意义上,4位评委不会,也不该有高下或重要度的区分,每位评委的权重都必须是25%

但是,在规则自身存在漏洞,或存在缺失的情况下,实际的权重影响就完全可能与理论不一回事。本次赛事正是如此。除了满分10分,起评分5分,规则对评委具体打分分布区间问题,并没有任何规定或要求。完全由各位评委自行裁量。
因此也才会出现极不正常的打分区间差异:最大区间是2.0,最小对的只有0.3,两者间是近7倍的差距!

另请注意主帖第二个问题的具体表述:

2)由评委打分区间差异悬殊导致的权重失衡,对作品排名,特别是获奖等级的影响究竟有多严重?



这里强调的是:不同评委实际打分区间差异悬殊,这个异常现象导致的实际统计权重的失衡问题,这与你百度和举例的情况,不是一回事。




使用道具 举报

13
发表于 2023-2-10 22:22 |只看该作者
本帖最后由 公理力 于 2023-2-11 00:38 编辑
诗意天涯 发表于 2023-2-10 12:14
与公教授商榷

我认为,“评委权重失衡”用在本次评委打分,是不准确的。
如果觉得,上面的解释还不够明晰,再给你举个具体例子。

公孙评委对12篇获奖作品的打分区间是0.3,马花评委给5篇作品最高分。
我们来假定另一场征文赛事,参赛作品超过120篇。
某位评委很希望自己喜欢的作品都能获奖,比马花和公孙走得更远。于是,对12篇心目中的好作品都给了最高分9分(占作品总数10%不到),这并不违犯现有规则。

再假如,这位评委如愿以偿,恰好这12篇作品就是最终的全部获奖作品。在这种情况下,这位评委在获奖作品中的实际权重是多少呢?

答案是零!—— 因为这位评委在获奖作品中的打分区间就是零。

换句话说,去掉这位评委的打分,对获奖作品的等级和排名,没有任何变化。

一句话,打分分布区间不统一,必然导致理论上完全相同的评委权重出现不同程度的实际权重失衡!

使用道具 举报

14
发表于 2023-2-10 23:35 |只看该作者
公理力 发表于 2023-2-10 22:03
呵呵,没错,在规则和概念意义上,4位评委不会,也不该有高下或重要度的区分,每位评委的权 ...

我大体明白教授的意思,但还是认为解决不了实际问题。

比如,组织方压缩每个评委的打分区间到1分,就是最低9分,教授认为会更公平?

如果评委用小数点后更多的尾数来变相拓展开“打分区间”呢?那时的0.01分可能就是个巨大差距。

这就相当于,把所谓的“打分区间”进行了物理压缩,密度变大了,但教授所说的“树重失衡”依然存在,不会改变最后统计结果


使用道具 举报

15
发表于 2023-2-11 00:05 |只看该作者
本帖最后由 公理力 于 2023-2-11 00:40 编辑
诗意天涯 发表于 2023-2-10 23:35
我大体明白教授的意思,但还是认为解决不了实际问题。
比如,组织方压缩每个评委的打分区间到1分,就 ...

呵呵,发这个数据分析帖的基本目的是总结经验教训,可作为未来举办类似文赛的借鉴。绝无跟谁过不去的意思。组织方和评委们本来就没有这方面的经验,出现失误,可以谅解。

组织方压缩每个评委的打分区间到1分,就是最低9分,教授认为会更公平?

不能压缩评委的打分区间。相反,今后的规则中应明确提出,评委应充分利用打分区间(如这次的5~10分),评分区间越大,对作品的区分度越好。
当然,评委心目中有希望获奖的作品,打分不可能低。这种情况下,可以建议评委,对自己评出的分数靠前的、获奖数两倍左右的作品,打分区间不小于某个值(如2.0),包括本人最高分限制为一个或两个。

如果评委用小数点后更多的尾数来变相拓展开“打分区间”呢?那时的0.01分可能就是个巨大差距。


小数点后增加位数,不会变相拓展打分区间。道人评委就是这样做的,他的实际权重并没有增加,比马花和黄河两位评委的影响都要小一些。

精确到小数点后两位,增加了区分度倒是真的(避免得分相同),道人评委的打分就没有出现相同分数的情况。

评委的基本责任,除了对每一作品给出恰当的分数,有较高的区分度——通过较大的打分区间和避免给相同分数,尤其是对排名靠前的作品,也是重要方面。




使用道具 举报

16
发表于 2023-2-11 00:30 |只看该作者
本帖最后由 公理力 于 2023-2-11 00:34 编辑
诗意天涯 发表于 2023-2-10 23:35
我大体明白教授的意思,但还是认为解决不了实际问题。

比如,组织方压缩每个评委的打分区间到1分,就 ...

当然,公某也认同黄河评委的做法和主张,这类赛事的重点应把主要精力放在评选出获奖作品上。

他对排名靠前的30余篇优秀作品(占获奖作品数的一倍多)给出一定区分度的打分(分布区间2.0),其余无望获奖作品统一给8分。
这样做,既不影响获奖作品的评选,又照顾了打分靠后作者的面子。

就公某个人之见,4位评委中,各方面均无可挑剔,表现最好的正是黄河君。他还是唯一一位敢于给自己最认同的作品打出满分10分的评委(另有两位评委也给同一作品打出最高分,但不是满分)。

顺便说一句,上次红袖杂谈举办小说赛,令箭评委对排名靠后的作品,统一给4分,道理与黄河评委完全相同。唯一的区别是,令箭不想给靠后的作者留面子,他想传达一个重要信息:没有写小说天赋的作者,还是别再浪费时间了。





使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

北斗六星文学网所有文字仅代表作者个人言论,本站不对其内容承负任何责任。

Copyright ©2011 bdlxbbs.cn All Right Reserved.  Powered by Discuz! 

本站信息均由会员发表,不代表本网站立场,如侵犯了您的权利请发帖投诉   

平平安安
TOP
返回顶部