Discussion2021-2-22

大部分内容都可以和NLPCC2019的一样，这里只写一个大概

本次评测中，BC作为源领域，PC、ZX、PB、FIN、LEG 作为目标领域，划分两个子任务：多源领域零样本句法分析领域移植（封闭或开放）

任务内容

本次评测包含两个子任务：

un-closed: 多源领域零样本句法分析领域移植（封闭）

un-open: 多源领域零样本句法分析领域移植（开放）

含义如下：

多源领域零样本句法分析领域移植（封闭）：以目标领域为PC源领域为BC、PB、ZX、FIN、LEG为例，则PC-train不存在，PC-dev/unlabeled可以使用，不可以使用我们提供的数据之外的任何资源。
多源领域零样本句法分析领域移植（开放）：可以使用任何资源

UAS、LAS

六个领域：BC PB PC ZX FIN LEG

数据说明、数据使用协议：使用NLPCC2019的

word2vec：在Chinese Gigaword V3（约1100万句、自动分词）和所有领域Train/Unlabeled上训练10次迭代得到（需要重新跑一下）

2021.3.15：公布评测任务并征求参与者（评测邀请函待定）

2021.4.1：评测开始；公布任务细节和训练集；（registration deadline 2021.5.1）

2021.5.10：发布测试集

2021.5.20：评测结果提交截止日期

2021.5.30：公布评测结果

CCL2021整体评测时间（拟）：2021年4月1日—2021年7月31日

1.不考虑semi-supervised:
semi-supervised 任务比 unsupervised 任务简单
实用意义不大

2. 不提供fine-tune-bert:
参赛者使用BERT的方式可能各不相同，如果我们提供了fine-tune-bert模型，那么很有可能先入为主进而限制了参赛者的想象力。

3. BC-train-partial补全不合适：
选数据的模型和BC-train-partial模型选出来的置信度低的词可能不一致
NLPCC2019好像是使用全标注数据训练的模型进行补全

4. baseline
暂定为concat 和 self-training
先不考虑 domain embedding 和 corpus weighting