查看“CCL2021 data readme”的源代码
←
CCL2021 data readme
跳到导航
跳到搜索
因为以下原因,您没有权限编辑本页:
您所请求的操作仅限于该用户组的用户使用:
用户
您可以查看和复制此页面的源代码。
== train_dev_unlabeled== * Unlabeled文件夹: **包括PB-Unlabeled.conll、PC-Unlabeled.conll、ZX-Unlabeled.conll、FIN-Unlabeled.conll、LEG-Unlabeled.conll五个文件; **无标注数据仅提供分词和词性(第四列)信息; * Train文件夹: **包括BC-Train-full.conll、PB-Train-full.conll、PC-Train-full.conll、ZX-Train-full.conll、FIN-Train-full.conll、LEG-Train-full.conll六个文件; **文件中最后一列为依存弧的概率,如果概率为2,则对应弧为人工标注,否则为模型补全; * Dev文件夹: **包括BC-Dev.conll、PB-Dev.conll、PC-Dev.conll、ZX-Dev.conll、FIN-Dev.conll、LEG-Dev.conll六个文件; **文件中第7列为“-1”且第8列为“none”,代表该弧未进行人工标注。 == 文件格式说明 == 所有文件均采用utf-8编码 Train/Dev/Unlabeled数据文件均为“CoNLL”格式,在CoNLL格式中,每个词语占一行,每行10列,无值列用下划线 '_' 代替,列的分隔符为制表符'\t',行的分隔符为换行符'\n';句子与句子之间用空行'\n'分隔。 下面介绍一下我们本次评测使用到的列: *1.当前词在句子中的序号,从1开始; *2.当前词语或标点; *4.当前词语的词性; *7.当前词语的核心词; *8.当前词语与核心词的依存关系; *10.依存弧的概率; == Word Embedding预训练 == *是通过word2vec在Chinese Gigaword V3(约1100万句、自动分词)和所有领域Train/Unlabeled上训练10词迭代得到。 == fine-tune-bert == * 使用hugging face的脚本(transformers==3.3.1)在所有领域Train/Unlabeled上训练fine-tune bert 3轮。
返回至
CCL2021 data readme
。
导航菜单
个人工具
登录
名字空间
页面
讨论
变种
视图
阅读
查看源代码
查看历史
更多
搜索
导航
首页
新闻
成员介绍
研究组
科研项目
发表论文
在线演示
工具
链入页面
相关更改
特殊页面
页面信息