查看“CCL2021 data readme”的源代码


== train_dev_unlabeled==
* Unlabeled文件夹：
**包括PB-Unlabeled.conll、PC-Unlabeled.conll、ZX-Unlabeled.conll、FIN-Unlabeled.conll、LEG-Unlabeled.conll五个文件；
**无标注数据仅提供分词和词性（第四列）信息；
* Train文件夹：
**包括BC-Train-full.conll、PB-Train-full.conll、PC-Train-full.conll、ZX-Train-full.conll、FIN-Train-full.conll、LEG-Train-full.conll六个文件；
**文件中最后一列为依存弧的概率，如果概率为2，则对应弧为人工标注，否则为模型补全；
* Dev文件夹：
**包括BC-Dev.conll、PB-Dev.conll、PC-Dev.conll、ZX-Dev.conll、FIN-Dev.conll、LEG-Dev.conll六个文件；
**文件中第7列为“-1”且第8列为“none”,代表该弧未进行人工标注。

== 文件格式说明 ==
所有文件均采用utf-8编码

Train/Dev/Unlabeled数据文件均为“CoNLL”格式，在CoNLL格式中，每个词语占一行，每行10列，无值列用下划线 '_' 代替，列的分隔符为制表符'\t'，行的分隔符为换行符'\n'；句子与句子之间用空行'\n'分隔。
下面介绍一下我们本次评测使用到的列：
*1.当前词在句子中的序号，从1开始；
*2.当前词语或标点；
*4.当前词语的词性；
*7.当前词语的核心词；
*8.当前词语与核心词的依存关系；
*10.依存弧的概率；

== Word Embedding预训练 ==
*是通过word2vec在Chinese Gigaword V3（约1100万句、自动分词）和所有领域Train/Unlabeled上训练10词迭代得到。

== fine-tune-bert ==
* 使用hugging face的脚本（transformers==3.3.1）在所有领域Train/Unlabeled上训练fine-tune bert 3轮。