查看“CODT”的源代码
←
CODT
跳到导航
跳到搜索
因为以下原因,您没有权限编辑本页:
您所请求的操作仅限于该用户组的用户使用:
用户
您可以查看和复制此页面的源代码。
本页面目前由彭雪、周明月同学维护。 == 汉语开放依存句法树库(Chinese Open Dependency Treebank, CODT)== * 读音:[kəʊ'di:ti:] (CO -> [co]operate D T) * Open的含义:1)开放数据,规范和数据均公开并不断完善,欢迎大家一起按照我们的规范标注数据,或者邀请我们标注你们感兴趣的数据;2)开放领域,覆盖不同领域和来源文本 * 2019年8月从SUCDT改名为CODT * This treebank construction project aims to continually build a large-scale Chinese dependency treebank that covers up-to-date texts from different domains and sources, and hence promote the wide application of syntactic analysis techniques. == 依存句法分析领域移植评测 == * 我们正在NLPCC-2019会议上组织评测,发布了约4万句人工标注数据,欢迎大家参与:[http://hlt.suda.edu.cn/index.php/Nlpcc-2019-shared-task 网址] * CCL-2021句法领域移植评测,发布CODT 2.0 [http://hlt.suda.edu.cn/index.php/CCL2021 网址] == 标注人员培训流程 == * [http://hlt.suda.edu.cn/index.php/SUCDT-Personnel_Training 人员培训流程] == 招聘信息(长期、寒暑假兼职) == * [http://hlt.suda.edu.cn/index.php/CODT-2019-9-recruiting 2019年9月招聘] * 旧的:[http://hlt.suda.edu.cn/index.php/SUCDT-2018-12-recruiting 2018年12月招聘] * 旧的:[http://hlt.suda.edu.cn/index.php/SUCDT-2018-5-recruiting 2018年5月招聘] * 旧的:[http://hlt.suda.edu.cn/~zhli/nlp-anno-recruit.html 2017年6月招聘信息] == 培训经验 == * 定期招新,形成稳定的高质量标注人员更迭。 * 招新时,全面介绍标注工作内容,说明标注工作的优势,提高标注工作的兼职竞争力。 * 提高入职门槛,聘用经面试了解较为适合标注工作的人员,培训时增加高正确率标注人员分享经验的环节,不断更新培训视频和PPT。 * 公开所有标注人员的标注明细,形成良好的竞争监督机制。 * 精简标注人员,过滤标注时间不够或标注准确率太低超过两次的人员。 * 一起认真维护、完善规范,认真培训,认真审核和投诉,给出审核和投诉意见。 == 标注规范 == * 最新版:[http://hlt.suda.edu.cn/index.php/%E6%96%87%E4%BB%B6:%E6%A0%87%E6%B3%A8%E8%A7%84%E8%8C%832020%E5%B9%B46%E6%9C%886%E6%97%A5%E7%89%88_.pdf 标注规范2020年6月6日版.pdf] * [http://hlt.suda.edu.cn/index.php/CODT-data-annotation-guideline-past 旧版本标注规范] == 已标注数据列表(2019.12;以句子为单位,K表示1000) == * 总共:40+11+10+3+18+9+11+7+10+7=126K * 规范平衡语料:14+15+11=40K (HIT CTB PMT) * 商品评论PC:11K * 产品博客PB:10K * 网络小说(ZX诛仙):3K * 人人对话:7+11=18K * 财经:9K * 法律:11K * 体育:7K * 医学:10K * 军事:7K == 数据共享 == * 大部分数据向学术界免费共享,支持研究使用。少数数据由于项目或合同约束,需要延迟一些时间后向学术界共享。 * 企业界需要有偿购买使用权。 *数据共享协议下载:[http://hlt.suda.edu.cn/images/b/b6/Codt-sharing-agreement-2023.9-v3.pdf PDF下载链接] <!-- 数据共享协议下载:[http://hlt.suda.edu.cn/images/b/b6/Codt-sharing-agreement-2021.3-v2.pdf PDF下载链接]--> == 论文引用 == * Xue Peng, Zhenghua Li, Min Zhang, Rui Wang, Yue Zhang, Luo Si. 2019. '''Overview of the NLPCC 2019 Shared Task: Cross-Domain Dependency Parsing'''. In Proceedings of NLPCC-2019. [http://hlt.suda.edu.cn/~zhli/papers/nlpcc19_shared_task_overview.pdf pdf] * Zhenghua Li, Xue Peng, Min Zhang, Rui Wang, Luo Si. 2019. '''Semi-supervised Domain Adaptation for Dependency Parsing'''. Proceedings of '''ACL-2019''', pp. 2386-2395. Florence, Italy, 28 Jul. - 2 Aug. 2019. [http://hlt.suda.edu.cn/~zhli/papers/zhenghua_acl19_dp_figure_1_good.pdf pdf] * Xinzhou Jiang, Bo Zhang, Zhenghua Li, Min Zhang, Sheng Li, Luo Si. 2018. '''Supervised Treebank Conversion: Data and Approaches'''. Proceedings of '''ACL-2018''', pp. 2706-2716. Melbourne, Australia. 15-20 Jul. 2018 [http://hlt.suda.edu.cn/~zhli/papers/zhenghua-acl18.pdf pdf] * 郭丽娟, 彭雪, 李正华, 张民. 2019. '''面向多领域多来源文本的汉语依存句法树库构建'''. 中文信息学报. 2019, 33(2):34-42 [http://hlt.suda.edu.cn/~zhli/papers/lijuan-cip19-treebank.pdf pdf] * 郭丽娟, 李正华, 彭雪, 张民. 2018. '''适应多领域多来源文本的汉语依存句法数据标注规范'''. 中文信息学报. 2018, 32(10):28-35-52 [http://hlt.suda.edu.cn/~zhli/papers/lijuan-jocip18-guideline.pdf pdf]
返回至
CODT
。
导航菜单
个人工具
登录
名字空间
页面
讨论
变种
视图
阅读
查看源代码
查看历史
更多
搜索
导航
首页
新闻
成员介绍
研究组
科研项目
发表论文
在线演示
工具
链入页面
相关更改
特殊页面
页面信息