已更新评测数据集,于dataset文件夹中。train与friends.csv为训练集,task1_dev,task2_dev为两个任务的验证集,task1_test,task2_test为两个任务的测试集。测试集于9月15日公布,第二阶段周期为两周。
本页面为CCL2022评测第四届“小牛杯”幽默计算——聊天机器人幽默感挑战赛的数据和成绩发布页面,评测详情请见官网。
为了方便各参赛队伍对任务二的结果进行评估,现在将提供任务二的各项子指标结果。
本次共收到两个参赛队伍提交的结果,成绩如下:
| 参赛队伍 | 任务一F1 | 任务一Acc | 任务一得分 | 任务二得分 |
|---|---|---|---|---|
| Tal 2022 | 0.2734 | 0.8078 | 1.0811 | 1.3953 |
| Bert 4ever | - | - | - | 0.7069 |
本次共收到三个参赛队伍提交的结果,成绩如下:
| 参赛队伍 | 任务一F1 | 任务一Acc | 任务一得分 | 任务二流畅度 | 任务二语义相似度 | 任务二雷同度 | 任务二得分 |
|---|---|---|---|---|---|---|---|
| Tal 2022 | 0.3110 | 0.8250 | 1.1360 | 0.9000 | 0.4500 | 0.0040 | 1.3460 |
| Bert 4ever | 0.3469 | 0.6943 | 1.0413 | 0.7000 | 0.6600 | 0.0052 | 1.3548 |
| new | 0.0000 | 0.8566 | 0.8566 | 0.8400 | 0.6100 | 0.0071 | 1.4429 |
本次共收到两个参赛队伍提交的结果,成绩如下:
| 参赛队伍 | 任务一F1 | 任务一Acc | 任务一得分 | 任务二流畅度 | 任务二语义相似度 | 任务二雷同度 | 任务二得分 |
|---|---|---|---|---|---|---|---|
| Tal 2022* | 0.3110 | 0.8250 | 1.1360 | 0.9000 | 0.4500 | 0.0040 | 1.3460 |
| new** | 0.2940 | 0.7207 | 1.0146 | 0.8400 | 0.6100 | 0.0071 | 1.4429 |
| Bert 4ever | 0.3602 | 0.7086 | 1.0688 | 0.7000 | 0.4800 | 0.0046 | 1.1754 |
*上次提交结果
**结果更正:因工作疏忽导致验证集ID出现问题,我们对部分参赛队伍的结果进行了重新处理。第一阶段各参赛队伍按照原来的ID提交结果即可,更新后的验证集会在第二阶段与测试集一起公布。
本次共收到三个参赛队伍提交的结果,成绩如下:
| 参赛队伍 | 任务一F1 | 任务一Acc | 任务一得分 | 任务二流畅度 | 任务二语义相似度 | 任务二雷同度 | 任务二得分 |
|---|---|---|---|---|---|---|---|
| Tal 2022 | 0.3477 | 0.7928 | 1.1406 | 0.7800 | 0.6400 | 0.0085 | 1.4115 |
| new | 0.2736 | 0.5943 | 0.8679 | 0.8400 | 0.6100 | 0.0071 | 1.4429 |
| TAL-JNU | 0.4014 | 0.8052 | 1.2066 | 0.4600 | 0.6400 | 0.0017 | 1.0983 |
| Bert 4ever* | 0.3602 | 0.7086 | 1.0688 | 0.7000 | 0.4800 | 0.0046 | 1.1754 |
*上次提交结果
本次共收到八个参赛队伍提交的结果,成绩如下:
| 参赛队伍 | 任务一F1 | 任务一Acc | 任务一得分 | 任务二流畅度 | 任务二语义相似度 | 任务二雷同度 | 任务二得分 | 总分 |
|---|---|---|---|---|---|---|---|---|
| TAL-JNU | 0.4036 | 0.7787 | 1.1823 | 0.7800 | 0.7000 | 0.0328 | 1.4472 | 1.3148 |
| run | 0.4115 | 0.7540 | 1.1655 | 0.8400 | 0.6100 | 0.0013 | 1.4487 | 1.3071 |
| Tal 2022 | 0.2630 | 0.7808 | 1.0438 | 0.8400 | 0.6500 | 0.0051 | 1.4849 | 1.2644 |
| new | 0.3353 | 0.6241 | 0.9594 | 0.8200 | 0.6600 | 0.0045 | 1.4755 | 1.2175 |
| 笑口常开 | 0.1711 | 0.7595 | 0.9306 | 0.5200 | 0.6900 | 0.0063 | 1.2037 | 1.0672 |
| 小新 | 0.1452 | 0.7459 | 0.8910 | 0.4000 | 0.6400 | 0.0051 | 1.0349 | 0.9630 |
| Bert 4ever | 0.4231 | 0.7018 | 1.1249 | 0.0600 | 0.6500 | 0.0045 | 0.7055 | 0.9152 |
| 小凡 | 0.1452 | 0.7459 | 0.8910 | 0.0200 | 0.5400 | 0.0040 | 0.5560 | 0.7235 |
本次共收到九个参赛队伍提交的结果,成绩如下:
| 参赛队伍 | 任务一F1 | 任务一Acc | 任务一得分 | 任务二流畅度 | 任务二语义相似度 | 任务二雷同度 | 任务二得分 | 总分 |
|---|---|---|---|---|---|---|---|---|
| TAL-JNU | 0.4274 | 0.7874 | 1.2149 | 0.8400 | 0.7400 | 0.0275 | 1.5525 | 1.3837 |
| Tal2022 | 0.3788 | 0.7813 | 1.1601 | 0.8400 | 0.6500 | 0.0051 | 1.4849 | 1.3225 |
| Bert 4ever | 0.4231 | 0.7018 | 1.1249 | 0.8200 | 0.6400 | 0.0054 | 1.4546 | 1.2898 |
| run | 0.3976 | 0.7416 | 1.1392 | 0.8400 | 0.4800 | 0.0017 | 1.3183 | 1.2288 |
| UIR-幽默组 | 0.2481 | 0.7207 | 0.9689 | 0.8400 | 0.6200 | 0.0040 | 1.4560 | 1.2125 |
| new | 0.2253 | 0.7071 | 0.9324 | 0.8200 | 0.6600 | 0.0045 | 1.4755 | 1.2040 |
| 笑口常开 | 0.1711 | 0.7595 | 0.9306 | 0.5600 | 0.6500 | 0.0033 | 1.2067 | 1.0687 |
| 小新 | 0.1766 | 0.7464 | 0.9229 | 0.4600 | 0.6400 | 0.0051 | 1.0949 | 1.0089 |
| 小凡 | 0.1223 | 0.7524 | 0.8747 | 0.4000 | 0.6300 | 0.0107 | 1.0193 | 0.9470 |
本次评测的最终分数取第二阶段两次提交结果中的较高者,最终排名如下:
| 参赛队伍 | 任务一得分 | 任务二得分 | 总分 |
|---|---|---|---|
| TAL-JNU | 1.2149 | 1.5525 | 1.3837 |
| Tal2022 | 1.1601 | 1.4849 | 1.3225 |
| run | 1.1655 | 1.4487 | 1.3071 |
| Bert 4ever | 1.1249 | 1.4546 | 1.2898 |
| new | 0.9594 | 1.4755 | 1.2175 |
| UIR-幽默组 | 0.9689 | 1.4560 | 1.2125 |
| 笑口常开 | 0.9306 | 1.2067 | 1.0687 |
| 小新 | 0.9229 | 1.0949 | 1.0089 |
| 小凡 | 0.8747 | 1.0193 | 0.9470 |