CCL2021-discussion

来自SUDA-HLT

跳到导航跳到搜索

2021.2.22

Bert-fine-tune

 在base基础上，在所有的unlabeled/labeled data上只用LM-loss去finetune3轮/10轮（给两个fine-tune的bert model，pytorch）。将来我们给基准结果时，也可以给两个有bert-finetune的结果。

预训练word embedding，我们也要提供

 借鉴去年的做法，也重新训练下，帅克

CODT-2.0的数据处理

全角转半角
标点符号的处理
proj/non-proj不用管

train数据的补全

 在所有train（6个领域，包括BC）合并的train-all数据集上，训练一个supar-crf1o-with-finetune-bert的模型，开发集用dev-all（6个领域）。然后对train-all进行补全。补全的head/label的概率相乘，也放到某一列；如果是人工标注的head，概率写成2.0
 dev和test不补全，没有人工标注的，父亲节点为-1

分成开放和封闭两个track？待定

 封闭：只能用我们提供的有标注和无标注数据、我们提供的word embedding
 开放：用任何数据、资源、工具都可以，只要大家能够通过某种方式公开获取（包括购买）到就可以。

给一些基础的结果（帅克）

 concat：baseline, +bert, +bert-ft-3, +bert-ft-10 (supar)

2021.1.25

CCL-2021句法领域移植评测，发布CODT 2.0
增加两个领域的数据：法律、金融（无标注数据分别给15万句，分好词）；规范通用领域的训练集增大为3万句
所有领域的训练集，都由BC-train-partial上训练的SuPar-BERT-CRF-1o补全。【明月指导帅克做】
苏大跑一些基准实验，主要就用SuPar。帅克来跑。包括self-training tri-training
数据处理过程:网址
2021-2-22讨论：网址

如何验证补全的正确性？如何验证每一件事的正确性
最终补全，要用bert-finetune增强的模型做补全
不可以用codt1.0的数据
要做哪些基础实验，来帮助我们了解数据，了解codt1.0和2.0的差别；不同领域的差别
基础实验做完之后，就以参赛者的标准，来打比赛，主要的方法就是self-training（数据增强？知识蒸馏？异构数据？）
open（只能用大家都可以公开获取的工具、数据资源等）和closed track（只能用我们提供的embedding/bert/unlabeled data）；不确定可以咨询我们，有新的规定会通知大家，并写到评测主页上。

取自“http://hlt.suda.edu.cn/index.php?title=CCL2021-discussion&oldid=3642”