“SUCDT”的版本间的差异

来自SUDA-HLT
跳到导航 跳到搜索
第14行: 第14行:
 
* [http://hlt.suda.edu.cn/index.php/SUCDT-data-annotation-guideline-past 旧版本标注规范]
 
* [http://hlt.suda.edu.cn/index.php/SUCDT-data-annotation-guideline-past 旧版本标注规范]
  
== 已标注数据列表 ==
+
== 已标注数据列表(以句子为单位,K表示1000) ==
  
* [http://hlt.suda.edu.cn/index.php/SUCDT-data-annotation 已标注数据]
+
* HIT-CDT(规范平衡语料库):14K
* [http://hlt.suda.edu.cn/index.php/SUCDT-data-annotation-detailed 已标注数据详细说明]
+
* 宾大树库(CTB7,规范平衡语料库):15K
 +
* 北大多视图树库(PKU-CDT、规范平衡语料库)数据:11K
 +
* 商品评论:11K
 +
* 产品博客PB:10K
 +
* 人机对话(聊天、客服):7K
 +
* 人机对话(聊天):615
 +
* 人与人对话:10K
 +
* 小说(ZX诛仙):3K
 +
* UD简体中文树库:451
 +
* 财经(股票)新闻和博客:12K
 +
* 法律新闻和博客:
 +
* 体育新闻和博客:
  
 
== 数据共享或购买 ==  
 
== 数据共享或购买 ==  

2019年1月28日 (一) 03:42的版本

本页面由郭丽娟和彭雪同学维护。

标注人员培训流程

招聘信息(长期、寒暑假兼职)

标注规范

已标注数据列表(以句子为单位,K表示1000)

  • HIT-CDT(规范平衡语料库):14K
  • 宾大树库(CTB7,规范平衡语料库):15K
  • 北大多视图树库(PKU-CDT、规范平衡语料库)数据:11K
  • 商品评论:11K
  • 产品博客PB:10K
  • 人机对话(聊天、客服):7K
  • 人机对话(聊天):615
  • 人与人对话:10K
  • 小说(ZX诛仙):3K
  • UD简体中文树库:451
  • 财经(股票)新闻和博客:12K
  • 法律新闻和博客:
  • 体育新闻和博客:

数据共享或购买

大部分数据向学术界免费共享,支持研究使用。少数数据由于项目或合同约束,需要延迟一些时间后向学术界共享。

企业界需要有偿购买使用权。

word版本数据共享协议(链接以后发布)

如需共享或购买,请发邮件至:李正华