“CCL2021 data readme”的版本间的差异

来自SUDA-HLT
跳到导航 跳到搜索
 
(未显示同一用户的4个中间版本)
第12行: 第12行:
  
 
== 文件格式说明 ==
 
== 文件格式说明 ==
 +
所有文件均采用utf-8编码
 +
 
Train/Dev/Unlabeled数据文件均为“CoNLL”格式,在CoNLL格式中,每个词语占一行,每行10列,无值列用下划线 '_' 代替,列的分隔符为制表符'\t',行的分隔符为换行符'\n';句子与句子之间用空行'\n'分隔。
 
Train/Dev/Unlabeled数据文件均为“CoNLL”格式,在CoNLL格式中,每个词语占一行,每行10列,无值列用下划线 '_' 代替,列的分隔符为制表符'\t',行的分隔符为换行符'\n';句子与句子之间用空行'\n'分隔。
 
下面介绍一下我们本次评测使用到的列:
 
下面介绍一下我们本次评测使用到的列:
第22行: 第24行:
  
 
== Word Embedding预训练 ==
 
== Word Embedding预训练 ==
*Word Embedding是通过word2vec在Chinese Gigaword V3(约1100万句、自动分词)和目标领域Train/Unlabeled上训练10次迭代得到。
+
*是通过word2vec在Chinese Gigaword V3(约1100万句、自动分词)和所有领域Train/Unlabeled上训练10词迭代得到。
*Word Embedding文件均采用UTF-8编码。
 
  
 
== fine-tune-bert ==
 
== fine-tune-bert ==
* 我们基于 Peng et al. (2019)中描述的预训练语言模型微调的方法,将 Google 发布的 bert-base-chinese 在所有无标注数据(6 个领域的Train,5 个领域的 Unlabeled 数据)进行多轮微调(3 轮),即继续使用语言模型损失函数继续训练。
+
* 使用hugging face的脚本(transformers==3.3.1)在所有领域Train/Unlabeled上训练fine-tune bert 3轮。

2021年4月2日 (五) 09:50的最新版本

train_dev_unlabeled

  • Unlabeled文件夹:
    • 包括PB-Unlabeled.conll、PC-Unlabeled.conll、ZX-Unlabeled.conll、FIN-Unlabeled.conll、LEG-Unlabeled.conll五个文件;
    • 无标注数据仅提供分词和词性(第四列)信息;
  • Train文件夹:
    • 包括BC-Train-full.conll、PB-Train-full.conll、PC-Train-full.conll、ZX-Train-full.conll、FIN-Train-full.conll、LEG-Train-full.conll六个文件;
    • 文件中最后一列为依存弧的概率,如果概率为2,则对应弧为人工标注,否则为模型补全;
  • Dev文件夹:
    • 包括BC-Dev.conll、PB-Dev.conll、PC-Dev.conll、ZX-Dev.conll、FIN-Dev.conll、LEG-Dev.conll六个文件;
    • 文件中第7列为“-1”且第8列为“none”,代表该弧未进行人工标注。

文件格式说明

所有文件均采用utf-8编码

Train/Dev/Unlabeled数据文件均为“CoNLL”格式,在CoNLL格式中,每个词语占一行,每行10列,无值列用下划线 '_' 代替,列的分隔符为制表符'\t',行的分隔符为换行符'\n';句子与句子之间用空行'\n'分隔。 下面介绍一下我们本次评测使用到的列:

  • 1.当前词在句子中的序号,从1开始;
  • 2.当前词语或标点;
  • 4.当前词语的词性;
  • 7.当前词语的核心词;
  • 8.当前词语与核心词的依存关系;
  • 10.依存弧的概率;

Word Embedding预训练

  • 是通过word2vec在Chinese Gigaword V3(约1100万句、自动分词)和所有领域Train/Unlabeled上训练10词迭代得到。

fine-tune-bert

  • 使用hugging face的脚本(transformers==3.3.1)在所有领域Train/Unlabeled上训练fine-tune bert 3轮。