“SUCDT”的版本间的差异

来自SUDA-HLT
跳到导航 跳到搜索
 
(未显示2个用户的8个中间版本)
第1行: 第1行:
本页面由郭丽娟和彭雪同学维护。
+
2019年8月改名为[http://hlt.suda.edu.cn/index.php/CODT  CODT]
 
 
== 依存句法分析领域移植评测 ==
 
* 我们正在NLPCC-2019会议上组织评测,发布了约4万句人工标注数据,欢迎大家参与:[http://hlt.suda.edu.cn/index.php/Nlpcc-2019-shared-task 网址]
 
 
 
== 标注人员培训流程 ==
 
* [http://hlt.suda.edu.cn/index.php/SUCDT-Personnel_Training 人员培训流程]
 
 
 
== 招聘信息(长期、寒暑假兼职) ==
 
* [http://hlt.suda.edu.cn/index.php/SUCDT-2018-12-recruiting 2018年12月招聘]
 
* 旧的:[http://hlt.suda.edu.cn/index.php/SUCDT-2018-5-recruiting 2018年5月招聘]
 
* 旧的:[http://hlt.suda.edu.cn/~zhli/nlp-anno-recruit.html 2017年6月招聘信息]
 
 
 
== 标注规范 ==
 
 
 
* 最新版:[[:File:标注规范-2019年4月1日版.pdf| 标注规范-2019年4月1日版.pdf]]
 
* [http://hlt.suda.edu.cn/index.php/SUCDT-data-annotation-guideline-past 旧版本标注规范]
 
 
 
== 已标注数据列表(以句子为单位,K表示1000) ==
 
* HIT-CDT(规范平衡语料库):14K
 
* 宾大树库(CTB7,规范平衡语料库):15K
 
* 北大多视图树库(PKU-CDT、规范平衡语料库)数据:11K
 
* 商品评论PC:11K
 
* 产品博客PB:10K
 
* 小说(ZX诛仙):3K
 
* 等等
 
 
 
== 数据共享或购买 ==
 
 
 
大部分数据向学术界免费共享,支持研究使用。少数数据由于项目或合同约束,需要延迟一些时间后向学术界共享。
 
 
 
企业界需要有偿购买使用权。
 
 
 
word版本数据共享协议(链接以后发布)
 
 
 
如需共享或购买,请发邮件至:[http://hlt.suda.edu.cn/~zhli 李正华]
 
 
 
== 论文引用 ==
 
 
 
* 郭丽娟, 李正华, 彭雪, 张民. 2018. 适应多领域多来源文本的汉语依存句法数据标注规范. 中文信息学报. 2018, 32(10):28-35-52
 
* Xinzhou Jiang, Bo Zhang, Zhenghua Li, Min Zhang, Sheng Li, Luo Si. 2018. Supervised Treebank Conversion: Data and Approaches. Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics (ACL-2018), pp. 2706-2716. Melbourne, Australia. 15-20 Jul. 2018
 

2019年8月24日 (六) 01:48的最新版本

2019年8月改名为CODT