CODT

来自SUDA-HLT
跳到导航 跳到搜索

本页面目前由彭雪、周明月同学维护。

汉语开放依存句法树库(Chinese Open Dependency Treebank, CODT)

  • 读音:[kəʊ'di:ti:] (CO -> [co]operate D T)
  • Open的含义:1)开放数据,规范和数据均公开并不断完善,欢迎大家一起按照我们的规范标注数据,或者邀请我们标注你们感兴趣的数据;2)开放领域,覆盖不同领域和来源文本
  • 2019年8月从SUCDT改名为CODT
  • This treebank construction project aims to continually build a large-scale Chinese dependency treebank that covers up-to-date texts from different domains and sources, and hence promote the wide application of syntactic analysis techniques.

依存句法分析领域移植评测

  • 我们正在NLPCC-2019会议上组织评测,发布了约4万句人工标注数据,欢迎大家参与:网址
  • CCL-2021句法领域移植评测,发布CODT 2.0 网址

标注人员培训流程

招聘信息(长期、寒暑假兼职)

培训经验

  • 定期招新,形成稳定的高质量标注人员更迭。
  • 招新时,全面介绍标注工作内容,说明标注工作的优势,提高标注工作的兼职竞争力。
  • 提高入职门槛,聘用经面试了解较为适合标注工作的人员,培训时增加高正确率标注人员分享经验的环节,不断更新培训视频和PPT。
  • 公开所有标注人员的标注明细,形成良好的竞争监督机制。
  • 精简标注人员,过滤标注时间不够或标注准确率太低超过两次的人员。
  • 一起认真维护、完善规范,认真培训,认真审核和投诉,给出审核和投诉意见。


标注规范

已标注数据列表(2019.12;以句子为单位,K表示1000)

  • 总共:40+11+10+3+18+9+11+7+10+7=126K
  • 规范平衡语料:14+15+11=40K (HIT CTB PMT)
  • 商品评论PC:11K
  • 产品博客PB:10K
  • 网络小说(ZX诛仙):3K
  • 人人对话:7+11=18K
  • 财经:9K
  • 法律:11K
  • 体育:7K
  • 医学:10K
  • 军事:7K

数据共享

  • 大部分数据向学术界免费共享,支持研究使用。少数数据由于项目或合同约束,需要延迟一些时间后向学术界共享。
  • 企业界需要有偿购买使用权。
  • 数据共享协议下载:PDF下载链接


论文引用

  • Xue Peng, Zhenghua Li, Min Zhang, Rui Wang, Yue Zhang, Luo Si. 2019. Overview of the NLPCC 2019 Shared Task: Cross-Domain Dependency Parsing. In Proceedings of NLPCC-2019. pdf
  • Zhenghua Li, Xue Peng, Min Zhang, Rui Wang, Luo Si. 2019. Semi-supervised Domain Adaptation for Dependency Parsing. Proceedings of ACL-2019, pp. 2386-2395. Florence, Italy, 28 Jul. - 2 Aug. 2019. pdf
  • Xinzhou Jiang, Bo Zhang, Zhenghua Li, Min Zhang, Sheng Li, Luo Si. 2018. Supervised Treebank Conversion: Data and Approaches. Proceedings of ACL-2018, pp. 2706-2716. Melbourne, Australia. 15-20 Jul. 2018 pdf
  • 郭丽娟, 彭雪, 李正华, 张民. 2019. 面向多领域多来源文本的汉语依存句法树库构建. 中文信息学报. 2019, 33(2):34-42 pdf
  • 郭丽娟, 李正华, 彭雪, 张民. 2018. 适应多领域多来源文本的汉语依存句法数据标注规范. 中文信息学报. 2018, 32(10):28-35-52 pdf