CCL2021-discussion

来自SUDA-HLT
跳到导航 跳到搜索

2021.2.22

  • Bert-fine-tune
 在base基础上,在所有的unlabeled/labeled data上只用LM-loss去finetune3轮/10轮(给两个fine-tune的bert model,pytorch)。将来我们给基准结果时,也可以给两个有bert-finetune的结果。
  • 预训练word embedding,我们也要提供
 借鉴去年的做法,也重新训练下,帅克
  • CODT-2.0的数据处理
全角转半角
标点符号的处理
proj/non-proj不用管
  • train数据的补全
 在所有train(6个领域,包括BC)合并的train-all数据集上,训练一个supar-crf1o-with-finetune-bert的模型,开发集用dev-all(6个领域)。然后对train-all进行补全。补全的head/label的概率相乘,也放到某一列;如果是人工标注的head,概率写成2.0
 dev和test不补全,没有人工标注的,父亲节点为-1
  • 分成开放和封闭两个track?待定
 封闭:只能用我们提供的有标注和无标注数据、我们提供的word embedding
 开放:用任何数据、资源、工具都可以,只要大家能够通过某种方式公开获取(包括购买)到就可以。
  • 给一些基础的结果(帅克)
 concat:baseline, +bert, +bert-ft-3, +bert-ft-10 (supar)

2021.1.25

  • CCL-2021句法领域移植评测,发布CODT 2.0
  • 增加两个领域的数据:法律、金融(无标注数据分别给15万句,分好词);规范通用领域的训练集增大为3万句
  • 所有领域的训练集,都由BC-train-partial上训练的SuPar-BERT-CRF-1o补全。【明月指导帅克做】
  • 苏大跑一些基准实验,主要就用SuPar。帅克来跑。包括self-training tri-training
  • 数据处理过程:网址
  • 2021-2-22讨论:网址
如何验证补全的正确性?如何验证每一件事的正确性
最终补全,要用bert-finetune增强的模型做补全
不可以用codt1.0的数据
要做哪些基础实验,来帮助我们了解数据,了解codt1.0和2.0的差别;不同领域的差别
基础实验做完之后,就以参赛者的标准,来打比赛,主要的方法就是self-training(数据增强?知识蒸馏?异构数据?)
open(只能用大家都可以公开获取的工具、数据资源等)和closed track(只能用我们提供的embedding/bert/unlabeled data);不确定可以咨询我们,有新的规定会通知大家,并写到评测主页上。