“CCL2021 data readme”的版本间的差异

2021年4月2日 (五) 09:38的版本

Unlabeled文件夹：
- 包括PB-Unlabeled.conll、PC-Unlabeled.conll、ZX-Unlabeled.conll、FIN-Unlabeled.conll、LEG-Unlabeled.conll五个文件；
- 无标注数据仅提供分词和词性（第四列）信息；
Train文件夹：
- 包括BC-Train-full.conll、PB-Train-full.conll、PC-Train-full.conll、ZX-Train-full.conll、FIN-Train-full.conll、LEG-Train-full.conll六个文件；
- 文件中最后一列为依存弧的概率，如果概率为2，则对应弧为人工标注，否则为模型补全；
Dev文件夹：
- 包括BC-Dev.conll、PB-Dev.conll、PC-Dev.conll、ZX-Dev.conll、FIN-Dev.conll、LEG-Dev.conll六个文件；
- 文件中第7列为“-1”且第8列为“none”,代表该弧未进行人工标注。

Train/Dev/Unlabeled数据文件均为“CoNLL”格式，在CoNLL格式中，每个词语占一行，每行10列，无值列用下划线 '_' 代替，列的分隔符为制表符'\t'，行的分隔符为换行符'\n'；句子与句子之间用空行'\n'分隔。下面介绍一下我们本次评测使用到的列：

Word Embedding是通过word2vec在Chinese Gigaword V3（约1100万句、自动分词）和目标领域Train/Unlabeled上训练10次迭代得到。
Word Embedding文件均采用UTF-8编码。

我们基于 Peng et al. (2019)中描述的预训练语言模型微调的方法，将 Google 发布的 bert-base-chinese 在所有无标注数据（6 个领域的Train，5 个领域的 Unlabeled 数据）进行多轮微调（3 轮），即继续使用语言模型损失函数继续训练。

2021年4月2日 (五) 09:36的版本（查看源代码） Myzhou（讨论 \| 贡献）（→‎Word Embedding预训练） ←上一编辑		2021年4月2日 (五) 09:38的版本（查看源代码） Myzhou（讨论 \| 贡献）（→‎fine-tune-bert）下一编辑→
第26行：		第26行：

	== fine-tune-bert ==		== fine-tune-bert ==
		+	* 我们基于 Peng et al. (2019)中描述的预训练语言模型微调的方法，将 Google 发布的 bert-base-chinese 在所有无标注数据（6 个领域的Train，5 个领域的 Unlabeled 数据）进行多轮微调（3 轮），即继续使用语言模型损失函数继续训练。