“CCL2021”的版本间的差异

2021年3月9日 (二) 09:42的版本

News （最新消息）

2019.6.24：发布最新测试数据（有答案）
2019.5.15：发布最新测试数据（无答案）
2019.5.20：提交结果deadline

NLPCC-2019依存句法分析领域移植评测

汉语开放依存句法树库（CODT）标注情况介绍

网址

数据使用协议

标注数据使用协议下载（团队负责人签字，如果是公司，必须是公司法人签字）
无标注数据使用协议下载 (机构、学院、学校或公司盖章）
请仔细阅读两个协议，并根据要求签署两个协议，然后统一发邮件给周明月同学
请用机构的官方邮箱发送协议
- 由于版权保护问题，我们只面向机构、单位等团体开放数据；对于公司，我们仅面向从事句法分析研究的公司开放数据，签署协议前请先咨询我们是否有可能共享数据；解释权归我们课题组。
- 如果您不需要无标注数据，那么只需要签署标注数据使用协议。
您还需要将NLPCC评测报名表发送给NLPCC评测组织方，也请同时发给周明月同学。

评测数据下载

数据说明Readme
训练集/开发集/无标注数据
- 训练集开发集数据下载
- 无标注数据下载
- 解压密码，我们收到数据使用协议后回复邮件告知
测试集数据
- 无答案测试集数据下载
  - 无答案测试集密码与“训练集开发集数据”解压密码相同
- 有答案测试集数据下载
预训练词向量下载：我们分别提供了50维、100维、300维的预训练词向量：

结果提交（2019.5.25 deadline）

请在2019年5月25日23：59之前提交您的最终结果，您在提交时请注意以下几点
- 测试结果文件请参考 Dev 数据及 Readme，确保每个文件严格采用 CoNLL 格式；
- 测试结果文件中除了包含原有的信息外，还需要在对应列给出您预测出的对应词的核心词head及其依存关系标签label；
- 提交结果时，请将所有测试结果文件打包成一个压缩文件后（zip/tar.gz）发送给彭雪同学（xpeng1117@qq.com），压缩文件的名字为 “队伍名.tar.gz”或“队伍名.zip”，队伍名为英文；
- 压缩文件内请严格按照如下目录/文件命名和组织形式（没有参加的子任务忽略即可），方便我们后续处理：
  - subtask1-un-closed/PC-Test.out.conll
  - subtask1-un-closed/PB-Test.out.conll
  - subtask1-un-closed/ZX-Test.out.conll
  - subtask2-semi-closed/PC-Test.out.conll
  - ...
  - subtask3-un-open/PC-Test.out.conll
  - ...
  - subtask4-semi-open/PC-Test.out.conll
  - ...
- 对于任何一个子任务，所有参赛队伍必须提交PC、PB、ZX 3 个目标领域的测试结果。

评测结果

每个subTask的Average_LAS 为对应subtask下3个领域数据LAS的平均值,Average_LAS = (PC_LAS+PB_LAS+ZX_Las)/3
我们根据Average_LAS 排名，每个subtask的第一名已用红色标出
所有参加本次评测的单位都可以撰写“系统报告”文章，结果好的单位“系统报告”文章可以直接按照nlpcc投稿格式撰写，其他的单位也请务必简单的撰写一份report，描述您参加比赛时，使用方法的详细介绍。请大家尽快写完并以PDF格式发到彭雪邮箱（654905417@qq.com）。

所有的参赛单位不论是否写评测论文，都需要提交一份简要的报告,介绍清楚评测中使用的方法。一方面我们需要确保您使用的方法符合我们的任务要求，另一方面我们提交overview文章时需要使用。请大家在6月20日前以PDF形式提交到彭雪邮箱

	subtask1-un-closed				subtask2-semi-closed				subtask3-un-open				subtask4-semi-open
	PC(UAS/LAS)	PB(UAS/LAS)	ZX(UAS/LAS)	Average_LAS	PC(UAS/LAS)	PB(UAS/LAS)	ZX(UAS/LAS)	Average_LAS	PC(UAS/LAS)	PB(UAS/LAS)	ZX(UAS/LAS)	Average_LAS	PC(UAS/LAS)	PB(UAS/LAS)	ZX(UAS/LAS)	Average_LAS
SJ_superLZ	35.6296/21.3299	62.5491/54.3544	50.0359/38.3082	37.9975	69.8770/59.4298	77.5249/71.3260	77.8376/71.5517	67.4358	72.0100/63.8807	80.2464/75.7409	82.1659/77.4425	72.3547	72.4018/64.3704	80.7907/76.1340	83.1537/78.6099	73.0381
SJ_superLZ(更新subtask3、4)	-	-	-	-	-	-	-	-	60.50/49.49	81.61/76.77	79.74/74.32	66.86	75.25/67.77	85.53/81.51	86.14/81.65	76.98
PRIS_DP	39.8193 /26.2705	67.3118 /60.4097	69.5582 /61.5122	49.3975	69.3003/60.3548	77.3738/72.1046	74.3534/68.2830	66.9141	39.8193/26.2705	67.3118 /60.4097	69.5582/61.5122	49.3975	69.3003/60.3548	77.3738/72.1046	74.3534/68.2830	66.9141
SyntaxError	49.8204/36.8593	71.4772/65.4294	73.9045/66.5409	56.2765	72.1841/64.1201	82.5748/77.8273	80.5316/75.8441	72.5972
AntNLP	43.6391/30.4712	70.5020/63.8343	72.8807/65.0682	53.1246	72.2277/63.9569	81.9398/77.2679	79.8851/74.8024	72.0091
14yhl9days	26.7167/10.9152	41.4953/27.3813	40.4454/26.4368	21.5778	47.3827/26.2597	47.2558/32.8772	45.4023/32.0043	30.3804
BLCU_Parser					70.8891/61.7151	79.3015/74.2516	77.8376 /72.5754	69.5140
Nanjing Normal University													70.9653/61.8239	80.5866/75.8542	79.3283/74.3534	70.6772

评价脚本下载

评价脚本下载
- 执行命令：python3 evaluate.py gold.conll sys.conll
- 数据集需要为CoNLL格式，与我们提供的数据集格式相同。

@@ 第1行： / 第1行： @@
-== 讨论 ==
+== <font color="#FF0000">News </font> <font style="background-color:yellow">（最新消息）</font> ==
-* CCL-2021句法领域移植评测，发布CODT 2.0
+* 2019.6.24：发布最新测试数据（有答案）
-* 增加两个领域的数据：法律、金融（无标注数据分别给15万句，分好词）；规范通用领域的训练集增大为3万句
+* 2019.5.15：发布最新测试数据（无答案）
-* 所有领域的训练集，都由BC-train-partial上训练的SuPar-BERT-CRF-1o补全。【明月指导帅克做】
+* 2019.5.20：提交结果deadline
-* 苏大跑一些基准实验，主要就用SuPar。帅克来跑。包括self-training tri-training
-* 数据处理过程:[http://hlt.suda.edu.cn/index.php/CCL2021Data 网址]
-* 2021-2-22讨论：[http://hlt.suda.edu.cn/index.php/Discussion2021-2-22 网址]
-  如何验证补全的正确性？如何验证每一件事的正确性
+== NLPCC-2019依存句法分析领域移植评测 ==
-  最终补全，要用bert-finetune增强的模型做补全
+* [http://tcci.ccf.org.cn/conference/2019/cfpt.php NLPCC-2019评测页面]
-  不可以用codt1.0的数据
+* [http://hlt.suda.edu.cn/~zhli/nlpcc2019-shared-task/cfp-v2.0.pdf 我们的参赛邀请函pdf]
- 要做哪些基础实验，来帮助我们了解数据，了解codt1.0和2.0的差别；不同领域的差别
- 基础实验做完之后，就以参赛者的标准，来打比赛，主要的方法就是self-training（数据增强？知识蒸馏？异构数据？）
+== 汉语开放依存句法树库（CODT）标注情况介绍 ==
- open（只能用大家都可以公开获取的工具、数据资源等）和closed track（只能用我们提供的embedding/bert/unlabeled data）；不确定可以咨询我们，有新的规定会通知大家，并写到评测主页上。
+* [http://hlt.suda.edu.cn/index.php/CODT 网址]
+==数据使用协议==
+* [http://hlt.suda.edu.cn/~zhli/codt/codt-sharing-agreement.pdf 标注数据使用协议下载]（团队负责人签字，如果是公司，必须是公司法人签字）
+* [http://hlt.suda.edu.cn/~zhli/nlpcc2019-shared-task/alibaba-unlabeled-data-share-2019.4.4.doc 无标注数据使用协议下载] (机构、学院、学校或公司盖章）
+* <font style="background-color:yellow">请仔细阅读两个协议，并根据要求签署两个协议，然后统一发邮件给周明月同学</font>
+* <font style="background-color:yellow">请用机构的官方邮箱发送协议</font>
+** <font color="#FF0000">由于版权保护问题，我们只面向机构、单位等团体开放数据；对于公司，我们仅面向从事句法分析研究的公司开放数据，签署协议前请先咨询我们是否有可能共享数据；解释权归我们课题组。</font>
+** <font color="#FF0000">如果您不需要无标注数据，那么只需要签署标注数据使用协议。</font>
+* <font style="background-color:yellow">您还需要将[http://tcci.ccf.org.cn/conference/2019/dldoc/SharedTaskRegistrationForm.docx NLPCC评测报名表]发送给NLPCC评测组织方，也请同时发给周明月同学。</font>
+== 评测数据下载 ==
+* [http://hlt.suda.edu.cn/index.php/Nlpcc-2019-shared-task-Readme 数据说明Readme]
+* 训练集/开发集/无标注数据
+** [http://hlt.suda.edu.cn/~zhli/nlpcc2019-shared-task/train_dev_2019.4.8.zip 训练集开发集数据 下载]
+** [http://hlt.suda.edu.cn/~zhli/nlpcc2019-shared-task/unlabeled_2019.4.8.zip 无标注数据 下载]
+** 解压密码，我们收到数据使用协议后回复邮件告知
+* <font color="#FF0000">测试集数据 </font>
+** [http://hlt.suda.edu.cn/~zhli/nlpcc2019-shared-task/test_2019.5.15.zip 无答案测试集数据 下载]
+*** 无答案测试集密码与“训练集开发集数据”解压密码相同
+** [http://hlt.suda.edu.cn/~zhli/nlpcc2019-shared-task/test_answer_2019.6.24.zip 有答案测试集数据 下载]
+* 预训练词向量下载：我们分别提供了50维、100维、300维的预训练词向量：
+** [http://hlt.suda.edu.cn/~zhli/nlpcc2019-shared-task/word_embedding50.zip 50维下载]
+** [http://hlt.suda.edu.cn/~zhli/nlpcc2019-shared-task/word_embedding100.zip 100维下载]
+** [http://hlt.suda.edu.cn/~zhli/nlpcc2019-shared-task/word_embedding300.zip 300维下载]
+== <font color="#FF0000">结果提交（2019.5.25 deadline）</font>  ==
+*请在2019年5月25日23：59之前提交您的最终结果，您在提交时请注意以下几点
+** 测试结果文件请参考 Dev 数据及 Readme，确保每个文件严格采用 CoNLL 格式；
+** 测试结果文件中除了包含原有的信息外，还需要在对应列给出您预测出的对应词的核心词head及其依存关系标签label；
+** 提交结果时，请将所有测试结果文件打包成一个压缩文件后（zip/tar.gz）发送给彭雪同学（xpeng1117@qq.com），压缩文件的名字为 “队伍名.tar.gz”或“队伍名.zip”，队伍名为英文；
+** 压缩文件内请严格按照如下目录/文件命名和组织形式（没有参加的子任务忽略即可），方便我们后续处理：
+*** subtask1-un-closed/PC-Test.out.conll
+*** subtask1-un-closed/PB-Test.out.conll
+*** subtask1-un-closed/ZX-Test.out.conll
+*** subtask2-semi-closed/PC-Test.out.conll
+*** ...
+*** subtask3-un-open/PC-Test.out.conll
+*** ...
+*** subtask4-semi-open/PC-Test.out.conll
+*** ...
+** 对于任何一个子任务，所有参赛队伍必须提交PC、PB、ZX 3 个目标领域的测试结果。
+== <font color="#FF0000">评测结果</font>  ==
+*每个subTask的Average_LAS 为对应subtask下3个领域数据LAS的平均值,Average_LAS  = (PC_LAS+PB_LAS+ZX_Las)/3
+*我们根据Average_LAS 排名，每个subtask的第一名已用<font color="#FF0000">红色</font> 标出
+*所有参加本次评测的单位都可以撰写“系统报告”文章，结果好的单位“系统报告”文章可以直接按照nlpcc投稿格式撰写，其他的单位也请务必简单的撰写一份report，描述您参加比赛时，使用方法的详细介绍。请大家尽快写完并以PDF格式发到彭雪邮箱（654905417@qq.com）。
+*<font color="#FF0000">所有的参赛单位不论是否写评测论文，都需要提交一份简要的报告,介绍清楚评测中使用的方法。</font>一方面我们需要确保您使用的方法符合我们的任务要求，另一方面我们提交overview文章时需要使用。<font color="#FF0000">请大家在6月20日前以PDF形式提交到彭雪邮箱</font>
+{| class="wikitable" style="text-align: center;"
+|-
+!
+! colspan="4" | subtask1-un-closed|| colspan="4" | subtask2-semi-closed || colspan="4" | subtask3-un-open || colspan="4" | subtask4-semi-open
+|-
+!
+!  PC(UAS/LAS) ||PB(UAS/LAS) || ZX(UAS/LAS)  || <font color="#FF0000">Average_LAS </font>||  PC(UAS/LAS) ||PB(UAS/LAS) || ZX(UAS/LAS) ||<font color="#FF0000">Average_LAS </font>|| PC(UAS/LAS) ||PB(UAS/LAS) || ZX(UAS/LAS) || <font color="#FF0000">Average_LAS </font>|| PC(UAS/LAS) ||PB(UAS/LAS) || ZX(UAS/LAS) ||<font color="#FF0000">Average_LAS </font>
+|-
+| SJ_superLZ ||35.6296/21.3299 ||62.5491/54.3544||50.0359/38.3082||37.9975 ||69.8770/59.4298||77.5249/71.3260||77.8376/71.5517||67.4358||72.0100/63.8807||80.2464/75.7409||82.1659/77.4425||72.3547||72.4018/64.3704||80.7907/76.1340||83.1537/78.6099||73.0381
+|-
+| SJ_superLZ(更新subtask3、4) || - || - || - || - || - || - || - || - || 60.50/49.49 ||81.61/76.77||79.74/74.32||<font color="#FF0000">66.86</font>||75.25/67.77||85.53/81.51||86.14/81.65||<font color="#FF0000">76.98</font>
+|-
+| PRIS_DP ||39.8193 /26.2705 ||67.3118 /60.4097 ||69.5582 /61.5122 ||49.3975 ||69.3003/60.3548 ||77.3738/72.1046 ||74.3534/68.2830 ||66.9141 ||39.8193/26.2705 || 67.3118 /60.4097 ||69.5582/61.5122 ||49.3975 ||69.3003/60.3548 ||77.3738/72.1046 ||74.3534/68.2830 ||66.9141
+|-
+|SyntaxError ||49.8204/36.8593||71.4772/65.4294 ||73.9045/66.5409 ||<font color="#FF0000">56.2765</font>||72.1841/64.1201||82.5748/77.8273||80.5316/75.8441||<font color="#FF0000">72.5972</font>|| || || || || || || ||
+|-
+| AntNLP ||43.6391/30.4712 ||70.5020/63.8343 ||72.8807/65.0682 ||53.1246 ||72.2277/63.9569 ||81.9398/77.2679 ||79.8851/74.8024 ||72.0091|| || || || || || || ||
+|-
+| 14yhl9days ||26.7167/10.9152 ||41.4953/27.3813 ||40.4454/26.4368 || 21.5778 ||47.3827/26.2597 ||47.2558/32.8772 ||45.4023/32.0043 ||30.3804|| || || || || || || ||
+|-
+| BLCU_Parser || || || || ||70.8891/61.7151 ||79.3015/74.2516 ||77.8376 /72.5754||69.5140|| || || || || || || ||
+|-
+| Nanjing Normal University || || || || || || || || || || || || ||70.9653/61.8239 ||80.5866/75.8542||79.3283/74.3534||70.6772
+|-
+|}
+== 评价脚本下载 ==
+* [http://hlt.suda.edu.cn/~zhli/nlpcc2019-shared-task/evaluate.py 评价脚本下载]
+** 执行命令：python3 evaluate.py gold.conll sys.conll
+** 数据集需要为CoNLL格式，与我们提供的数据集格式相同。

“CCL2021”的版本间的差异

2021年3月9日 (二) 09:42的版本

目录

News （最新消息）

NLPCC-2019依存句法分析领域移植评测

汉语开放依存句法树库（CODT）标注情况介绍

数据使用协议

评测数据下载

结果提交（2019.5.25 deadline）

评测结果

评价脚本下载

导航菜单

搜索