CCL2021
CCL-2021依存句法分析领域移植评测
评测报告PPT(评测研讨会顺序)
报告1. 依存句法分析的领域适应学习,李金龙(北京理工大学)(暂时不便公开)
报告2. 多源跨域依存分析场景下的交叉标注算法,林博达(北京邮电大学)
报告3. 多源零样本场景下的跨领域依存句法分析,郭培溟(天津大学)
报告4. 基于自监督对比学习的跨域依存句法分析,纪焘(华东师范大学)
评测结果
closed-test
封闭赛道测试集上的最终结果
模型 | FIN | LEG | PB | PC | ZX | AVG | ||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|
UAS | LAS | UAS | LAS | UAS | LAS | UAS | LAS | UAS | LAS | UAS | LAS | |
baseline-concat | 64.61 | 59.20 | 60.14 | 52.37 | 76.34 | 71.27 | 59.18 | 46.81 | 76.31 | 68.72 | 67.32 | 59.67 |
AntNLP(华东师范,一等奖) | 66.29 | 60.56 | 58.28 | 49.96 | 77.46 | 72.42 | 58.27 | 45.72 | 78.60 | 72.12 | 67.78 | 60.16 |
DynamicNLP(北邮,二等奖) | 59.52 | 53.14 | 51.51 | 42.17 | 72.88 | 67.08 | 50.54 | 37.73 | 76.37 | 70.14 | 62.16 | 54.05 |
拉胯也是跨(天大,二等奖) | 61.09 | 53.66 | 54.47 | 43.62 | 73.91 | 67.47 | 55.04 | 40.07 | 74.81 | 65.10 | 63.86 | 53.98 |
BIT-KE(北理工,三等奖) | 45.41 | 37.83 | 44.73 | 33.83 | 59.92 | 51.66 | 43.70 | 27.02 | 59.74 | 48.17 | 50.70 | 39.70 |
MAC对(广东外语外贸) | 25.38 | 10.74 | 25.69 | 10.91 | 39.24 | 23.57 | 32.08 | 13.53 | 36.64 | 17.99 | 31.81 | 15.35 |
baseline-dev
封闭\开放赛道开发集上的baseline结果
concat:closed-赛道baseline,拼接所有源领域数据进行训练,在目标领域数据上进行测试
concat-B:open-赛道baseline,使用bert-base-chinese的输出作为模型的输入特征
concat-FB:open-赛道baseline,使用我们提供的fine-tune-bert的输出作为模型的输入特征
模型 | FIN | LEG | PB | PC | ZX | AVG | ||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|
UAS | LAS | UAS | LAS | UAS | LAS | UAS | LAS | UAS | LAS | UAS | LAS | |
concat | 64.33 | 58.63 | 59.36 | 51.55 | 76.83 | 71.90 | 60.41 | 48.00 | 79.87 | 72.32 | 68.16 | 60.48 |
concat-B | 78.54 | 74.36 | 76.03 | 70.27 | 86.13 | 81.96 | 72.57 | 62.31 | 87.90 | 83.71 | 80.23 | 74.52 |
concat-FB | 79.41 | 74.79 | 76.53 | 70.59 | 86.48 | 82.63 | 74.71 | 65.47 | 88.57 | 84.72 | 81.14 | 75.64 |
baseline 简介
- baseline模型
是在经典的 Biaffine Parser的基础上实现的。大部分内容都与Biaffine Parser一样,只在输入层上做了些许改动。
词向量:使用我们提供的100维的词向量。
输入特征:对于封闭赛道,使用一层输出为100维的双向CharLSTM embedding 替换原来的 POS embedding;对于开放赛道,使用bert-base-chinese或我们提供的fine-tune-bert的输出向量(使用一个线性层映射为100维的向量)替换原来的 POS embedding。
其它层:与原 Biaffine Parser 保持一致。
- baseline 做法
拼接所有源领域数据进行训练,然后在目标领域数据上进行测试。
以ZX作目标领域为例:把BC\FIN\LEG\PB\PC的 train 混合(对所有领域不进行区分,把他们当作同一领域的数据)作为训练集,ZX dev 作为开发集,ZX test 作为测试集。即用 ZX dev 来选择在所有领域 train 上训练的模型,然后在 ZX test 上进行性能测试。
评测日程
2021.4.1-6.10 报名阶段
2021.4.15 公布相关训练数据
2021.7.13 公布无答案的测试集
2021.7.15 测试集结果提交截止
2021.7.20 评测报告提交
2021.7.30 公布结果
2021.8.13-8.15 CCL2021 评测研讨会
评测奖金
受中国中文信息学会资助,本次评测设置了2万元奖金,每个赛道各1万元
第一名:5000元
第二名:3000元
第三名:2000元
评测数据下载
数据使用协议
下载数据前需要签署数据使用协议,在收到数据使用协议后我们会发给您解压密码。
- CODT2.0数据使用协议下载(团队负责人签字,如果是公司,必须是公司法人签字并盖合同章)
- PB-PC-unlabeled数据使用协议下载 (机构、学院、学校或公司盖章)
- 请仔细阅读两个协议,并根据要求签署两个协议,然后统一发邮件给周明月同学(sudaccl2021dep@163.com)
- 请用机构的官方邮箱发送协议
- 由于版权保护问题,我们只面向机构、单位等团体开放数据;对于公司,我们仅面向从事句法分析研究的公司开放数据,签署协议前请先咨询我们是否有可能共享数据;解释权归我们课题组。
- 如果您不需要无标注数据,那么只需要签署标注数据使用协议。
训练集/开发集/无标注数据下载
- 数据说明Readme
- 训练集/开发集/无标注数据
预训练词向量下载
我们分别提供了50维、100维、300维的预训练词向量 预训练词向量下载
fine-tune-bert下载
我们提供了在bert-base-chinese上微调3轮的结果 fine-tune-bert下载
评价结果提交
提交结果时,请将测试文件打包(zip/tar.gz)发送给周明月同学(sudaccl2021dep@163.com)。压缩包内请按照如下目录/文件命名和组织形式(没有参加的子任务忽略即可),方便我们后续处理。请参考Dev数据及Readme,确保每个文件严格采用CoNLL格式。
subtask1-closed/PC-Test.out.conll subtask1-closed/PB-Test.out.conll subtask1-closed/ZX-Test.out.conll ... subtask2-open/PC-Test.out.conll subtask2-open/PB-Test.out.conll subtask2-open/ZX-Test.out.conll
评价报告提交
- 所有的参赛单位都需要提交一份简要的报告,介绍清楚评测中使用的方法。一方面我们需要确保您使用的方法符合我们的任务要求,另一方面我们提交overview文章时需要使用。请大家在7月15日前以PDF形式提交到周明月邮箱(sudaccl2021dep@163.com)
评价脚本下载
- 评价脚本下载
- 执行命令:python3 evaluate.py gold.conll sys.conll
- 数据集需要为CoNLL格式,与我们提供的数据集格式相同。
评测背景
近年来,随着深度学习技术的发展,尤其是预训练语言模型ELMo/BERT的提出,封闭领域规范文本上的句法分析性能已经达到了比较高的水平。但是,在跨领域文本,尤其是不规范的网络文本上,句法分析的性能会急剧下降。同时,如何在深度学习模型中利用结构化的句法信息也是NLP领域的重要研究问题之一,但是受到真实文本上句法性能的限制。因此,领域移植问题已经成为句法分析研究的重要挑战。为了更充分地支持句法分析领域移植研究,我们自2017年起标注了多领域句法数据集,并命名为汉语开放依存树库(CODT),目前包含16万句,涵盖10多个领域或来源的文本。2019年,我们依托NLPCC-2019会议,组织了第一届跨领域句法分析评测(Peng et al., 2019),针对“单源零样本”和“单源少样本”领域移植场景,发布了CODT1.0数据集,包含4万句、对应4个领域。 今年,我们依托CCL-2021会议,组织第二届跨领域句法分析评测,针对“多源零样本”领域移植场景,发布CODT2.0数据集,包含7万句,对应6个领域。其中,通过错误检测和人工校正,CODT2.0与CODT1.0重合的数据的质量进一步提升。
数据设置
在本次评测任务中,我们提供约29K句平衡语料(BC)、9K句产品博客(PB)、10K句产品评论(PC)、8K句财经资讯(FIN)、8K句法律资讯(LEG)和3K句网络小说(ZX)六个领域的数据。其中BC作为基础数据,只作为源领域。后五个领域既可以作为源领域,也可以作为目标领域。另外,针对后五个领域,我们还提供了大规模的无标注数据。
train | dev | test | unlabeled | |
---|---|---|---|---|
BC | 26.1K | 1K | 2K | 0 |
PB | 5K | 1.3K | 2.5K | 291K |
PC | 6.8K | 1.3K | 2.6K | 349K |
FIN | 5K | 1K | 1.8K | 118K |
LEG | 5K | 1K | 1.9K | 150K |
ZX | 1.5K | 0.5K | 1K | 33K |
任务设置
本次评测分为两个赛道:
(Closed):多源零样本领域移植(封闭)
(Open):多源零样本领域移植(开放)
含义如下:
- 多源的含义:可以使用其他领域的训练数据作为源领域数据。例如,当目标领域为ZX时,可以使用其他五个领域(包括BC)的训练数据,即BC/PB/PC/FIN/LEG-Train。
- 零样本的含义:不能使用对应领域的训练数据。例如,当目标领域为ZX时,那么ZX-Train不可作为训练数据使用。
- Closed赛道的要求:
1) 只能使用我们提供的数据和信息,包括:所有数据我们都提供分词、自动词性;我们会提供pre-trained word embedding (在Chinese Gigaword 3和所有领域Train/Unlabeled数据上训练word2vec得到)。
2) 不可以使用其他开源工具得到新的信息,如词性、词义等特征。
3) 不可以使用其他的资源,如词典、句法语义树库等。
4) 不可以使用大规模无标注数据上训练的预训练语言模型(任何开源的通用语言模型),但是可以通过预训练语言模型的技术来使用我们提供的无标注数据。即可以使用在我们提供的有标注和无标注数据上从头开始训练预训练模型。
5) 不可以使用NLPCC-2019 CODT1.0的数据。
- Open赛道的要求:
1) 可以使用任何可通过某种公开方式获取(包括购买)的数据、资源或工具。但是建议参赛者在系统报告中明确说明使用的外部资源以及这些外部资源对性能的影响。
- 注意事项
1) 开发集的使用:不允许将Dev加入到训练数据中。Dev数据只可以用来调参和选择模型。
2) 无标注数据(Unlabeled)的使用:不限制。同时,6个领域的Train中的句子,只要不使用句法标注信息,也都可以作为无标注数据使用。
3) 预训练语言模型微调:我们将Google发布的bert-base-chinese在所有无标注数据(6个领域的Train,5个领域的Unlabeled数据)进行多轮微调(3轮或10轮),即继续使用语言模型损失函数继续训练。这个模型仅限于Open赛道上的系统使用。我们做这个事情的目的是方便大家试试这个方向,避免大家浪费资源,重复训练。
如果您对规则有疑问,请随时联系我们确认。如果违反规则,发现后,成绩会直接取消。