“CODT”的版本间的差异
跳到导航
跳到搜索
| 第6行: | 第6行: | ||
* Open的含义:公开、共享;通用领域,覆盖不同领域和来源文本 | * Open的含义:公开、共享;通用领域,覆盖不同领域和来源文本 | ||
* 2019年8月从SUCDT改名为CODT | * 2019年8月从SUCDT改名为CODT | ||
| − | * | + | * This treebank construction project aims to continually build a large-scale Chinese dependency treebank that covers up-to-date texts from different domains and sources, and hence promote the wide application of syntactic analysis techniques. |
== 依存句法分析领域移植评测 == | == 依存句法分析领域移植评测 == | ||
2019年8月24日 (六) 03:05的版本
本页面目前由彭雪同学维护。
汉语开放依存句法树库(Chinese Open Dependency Treebank, CODT)
- 读音:CO -> [co]operate D(letter) T(letter)
- Open的含义:公开、共享;通用领域,覆盖不同领域和来源文本
- 2019年8月从SUCDT改名为CODT
- This treebank construction project aims to continually build a large-scale Chinese dependency treebank that covers up-to-date texts from different domains and sources, and hence promote the wide application of syntactic analysis techniques.
依存句法分析领域移植评测
- 我们正在NLPCC-2019会议上组织评测,发布了约4万句人工标注数据,欢迎大家参与:网址
标注人员培训流程
招聘信息(长期、寒暑假兼职)
- 2018年12月招聘
- 旧的:2018年5月招聘
- 旧的:2017年6月招聘信息
培训经验
- 定期招新,形成稳定的高质量标注人员更迭。
- 招新时,全面介绍标注工作内容,说明标注工作的优势,提高标注工作的兼职竞争力。
- 提高入职门槛,聘用经面试了解较为适合标注工作的人员,培训时增加高正确率标注人员分享经验的环节,不断更新培训视频和PPT。
- 公开所有标注人员的标注明细,形成良好的竞争监督机制。
- 精简标注人员,过滤标注时间不够或标注准确率太低超过两次的人员。
- 一起认真维护、完善规范,认真培训,认真审核和投诉,给出审核和投诉意见。
标注规范
已标注数据列表(以句子为单位,K表示1000)
- HIT-CDT(规范平衡语料库):14K
- 宾大树库(CTB7,规范平衡语料库):15K
- 北大多视图树库(PKU-CDT、规范平衡语料库)数据:11K
- 商品评论PC:11K
- 产品博客PB:10K
- 小说(ZX诛仙):3K
- 等等
数据共享
- 大部分数据向学术界免费共享,支持研究使用。少数数据由于项目或合同约束,需要延迟一些时间后向学术界共享。
- 企业界需要有偿购买使用权。
- 数据共享协议下载:word下载链接
论文引用
- NLPCC overview文章:
相关论文
- 郭丽娟, 彭雪, 李正华, 张民. 2019. 面向多领域多来源文本的汉语依存句法树库构建. 中文信息学报. 2019, 33(2):34-42
- 郭丽娟, 李正华, 彭雪, 张民. 2018. 适应多领域多来源文本的汉语依存句法数据标注规范. 中文信息学报. 2018, 32(10):28-35-52