“CCL2021”的版本间的差异

来自SUDA-HLT
跳到导航 跳到搜索
第1行: 第1行:
 
== '''CCL-2021依存句法分析领域移植评测''' ==
 
== '''CCL-2021依存句法分析领域移植评测''' ==
 
* [http://cips-cl.org/static/CCL2021/cclEval/tasks/index.html CCL-2021评测页面]
 
* [http://cips-cl.org/static/CCL2021/cclEval/tasks/index.html CCL-2021评测页面]
 +
<!--
 
* [http://hlt.suda.edu.cn/images/a/a9/%E4%BE%9D%E5%AD%98%E5%8F%A5%E6%B3%95%E9%A2%86%E5%9F%9F%E7%A7%BB%E6%A4%8D%E8%AF%84%E6%B5%8Bccl2021-cfp-v2.0.pdf 我们的参赛邀请函pdf]
 
* [http://hlt.suda.edu.cn/images/a/a9/%E4%BE%9D%E5%AD%98%E5%8F%A5%E6%B3%95%E9%A2%86%E5%9F%9F%E7%A7%BB%E6%A4%8D%E8%AF%84%E6%B5%8Bccl2021-cfp-v2.0.pdf 我们的参赛邀请函pdf]
 +
-->
  
 
== '''评测背景''' ==
 
== '''评测背景''' ==

2021年3月22日 (一) 06:37的版本

CCL-2021依存句法分析领域移植评测

评测背景

近年来,随着深度学习技术的发展,尤其是预训练语言模型ELMo/BERT的提出,封闭领域规范文本上的句法分析性能已经达到了比较高的水平。但是,在跨领域文本,尤其是不规范的网络文本上,句法分析的性能会急剧下降。同时,如何在深度学习模型中利用结构化的句法信息也是NLP领域的重要研究问题之一,但是受到真实文本上句法性能的限制。因此,领域移植问题已经成为句法分析研究的重要挑战。为了更充分地支持句法分析领域移植研究,我们自2017年起标注了多领域句法数据集,并命名为汉语开放依存树库(CODT),目前包含16万句,涵盖10多个领域或来源的文本。2019年,我们依托NLPCC-2019会议,组织了第一届跨领域句法分析评测(Peng et al., 2019),针对“单源零样本”和“单源少样本”领域移植场景,发布了CODT1.0数据集,包含4万句、对应4个领域。 今年,我们依托CCL-2021会议,组织第二届跨领域句法分析评测,针对“多源零样本”领域移植场景,发布CODT2.0数据集,包含7万句,对应6个领域。其中,通过错误检测和人工校正,CODT2.0与CODT1.0重合的数据的质量进一步提升。

数据设置

在本次评测任务中,我们提供约29K句平衡语料(BC)、9K句产品博客(PB)、10K句产品评论(PC)、8K句财经资讯(FIN)、8K句法律资讯(LEG)和3K句网络小说(ZX)六个领域的数据。其中BC作为基础数据,只作为源领域。后五个领域既可以作为源领域,也可以作为目标领域。另外,针对后五个领域,我们还提供了大规模的无标注数据。

train dev test unlabeled
BC 26.1K 1K 2K 0
PB 5K 1.3K 2.5K 291K
PC 6.8K 1.3K 2.6K 349K
FIN 5K 1K 1.8K 118K
LEG 5K 1K 1.9K 150K
ZX 1.5K 0.5K 1K 33K

任务设置

本次评测分为两个赛道:

(Closed):多源零样本领域移植(封闭)

(Open):多源零样本领域移植(开放)

含义如下:

  • 多源的含义:可以使用其他领域的训练数据作为源领域数据。例如,当目标领域为ZX时,可以使用其他五个领域(包括BC)的训练数据,即BC/PB/PC/FIN/LEG-Train。
  • 零样本的含义:不能使用对应领域的训练数据。例如,当目标领域为ZX时,那么ZX-Train不可作为训练数据使用。


  • Closed赛道的要求

1) 只能使用我们提供的数据和信息,包括:所有数据我们都提供分词、自动词性;我们会提供pre-trained word embedding (在Chinese Gigaword 3和所有领域Train/Unlabeled数据上训练word2vec得到)。

2) 不可以使用其他开源工具得到新的信息,如词性、词义等特征。

3) 不可以使用其他的资源,如词典、句法语义树库等。

4) 不可以使用大规模无标注数据上训练的预训练语言模型(任何开源的通用语言模型),但是可以通过预训练语言模型的技术来使用我们提供的无标注数据。即可以使用在我们提供的有标注和无标注数据上从头开始训练预训练模型。

5) 不可以使用NLPCC-2019 CODT1.0的数据。

  • Open赛道的要求

1) 可以使用任何可通过某种公开方式获取(包括购买)的数据、资源或工具。但是建议参赛者在系统报告中明确说明使用的外部资源以及这些外部资源对性能的影响。

  • 注意事项

1) 开发集的使用:不允许将Dev加入到训练数据中。Dev数据只可以用来调参和选择模型。

2) 无标注数据(Unlabeled)的使用:不限制。同时,6个领域的Train中的句子,只要不使用句法标注信息,也都可以作为无标注数据使用。

3) 预训练语言模型微调:我们将Google发布的bert-base-chinese在所有无标注数据(6个领域的Train,5个领域的Unlabeled数据)进行多轮微调(3轮或10轮),即继续使用语言模型损失函数继续训练。这个模型仅限于Open赛道上的系统使用。我们做这个事情的目的是方便大家试试这个方向,避免大家浪费资源,重复训练。


如果您对规则有疑问,请随时联系我们确认。如果违反规则,发现后,成绩会直接取消。

评测日程

2021.4.1 开始并公布训练集、开发集、无标注数据

2021.** 公布无答案测试集

2021.** 公布有答案的测试集

2021.** 提交截止

2021.** 公布结果

2021.7.1 评测结束

评测奖金

受中国中文信息学会资助,本次评测设置了2万元奖金,每个赛道各1万元

第一名:5000元

第二名:3000元

第三名:2000元

评测数据下载

数据使用协议

下载数据前需要签署数据使用协议,在收到数据使用协议后我们会发给您解压密码。 请您仔细阅读如下两个协议,并根据要求签署两个协议,然后统一发邮件给周明月同学

  • [标注数据使用协议下载](团队负责人签字,如果是公司,必须是公司法人签字)
  • [无标注数据使用协议下载] (机构、学院、学校或公司盖章)


训练集/开发集/无标注数据

[数据说明Readme]


预训练词向量下载

我们分别提供了50维、100维、300维的预训练词向量


fine-tune-bert

我们分别提供了在bert-base-chinese上微调3轮、10轮的结果

评价脚本下载

  • 评价脚本下载
    • 执行命令:python3 evaluate.py gold.conll sys.conll
    • 数据集需要为CoNLL格式,与我们提供的数据集格式相同。