“COPAD”的版本间的差异

来自SUDA-HLT
跳到导航 跳到搜索
第23行: 第23行:
  
 
== 已标注数据列表(K表示1000) ==
 
== 已标注数据列表(K表示1000) ==
* 共10.3+6.7+3.8+3.9+1.6=26.3K个句子;16.5+24.5+11.3+17.1+5.9=75.3K个谓词
+
* 共10.3+6.7+3.8+3.9+1.6+2.8+2=31.1K个句子;16.5+24.5+11.3+17.1+5.9+12.1+6.5=93.9K个谓词
 
* Peking (10.3K句,共16.5K个谓词)
 
* Peking (10.3K句,共16.5K个谓词)
 
* CoNLL09 (6.7K句,共24.5K个谓词)
 
* CoNLL09 (6.7K句,共24.5K个谓词)
第29行: 第29行:
 
* PC (3.9K句,共17.1K个谓词)
 
* PC (3.9K句,共17.1K个谓词)
 
* ZX (1.6K句,共5.9K个谓词)
 
* ZX (1.6K句,共5.9K个谓词)
 +
* 法研杯 (2.8K句,共12.1K个谓词)
 +
* Medicine (2K句,共6.5K个谓词)
  
 
== 数据共享 ==  
 
== 数据共享 ==  

2020年10月10日 (六) 15:28的版本

本页面由刘亚慧和杨浩苹同学维护。

汉语开放谓词论元数据集(Chinese Open Predicate Argument Dataset)

标注人员培训流程

招聘信息(长期、寒暑假兼职)

培训经验

  • 定期招新,形成稳定的高质量标注人员更迭。
  • 招新时,全面介绍标注工作内容,说明标注工作的优势,提高标注工作的兼职竞争力。
  • 提高入职门槛,聘用经面试了解较为适合标注工作的人员,培训时增加高正确率标注人员分享经验的环节,不断更新培训PPT。
  • 公开所有标注人员的标注明细,形成良好的竞争监督机制。
  • 精简标注人员,过滤标注时间不够或标注准确率太低超过两次的人员。
  • 一起认真维护、完善规范,认真培训,认真审核和投诉,给出审核和投诉意见。

标注规范

已标注数据列表(K表示1000)

  • 共10.3+6.7+3.8+3.9+1.6+2.8+2=31.1K个句子;16.5+24.5+11.3+17.1+5.9+12.1+6.5=93.9K个谓词
  • Peking (10.3K句,共16.5K个谓词)
  • CoNLL09 (6.7K句,共24.5K个谓词)
  • PB (3.8K句,共11.3K个谓词)
  • PC (3.9K句,共17.1K个谓词)
  • ZX (1.6K句,共5.9K个谓词)
  • 法研杯 (2.8K句,共12.1K个谓词)
  • Medicine (2K句,共6.5K个谓词)

数据共享

  • 大部分数据向学术界免费共享,支持研究使用。少数数据由于项目或合同约束,需要延迟一些时间后向学术界共享。
  • 企业界需要有偿购买使用权。
  • 数据共享协议下载:待定。

论文引用

  • 刘亚慧,杨浩苹,李正华,张民. 一种轻量级的汉语语义角色标注规范[J]. 中文信息学报, 2020, 34(4): 10-20. pdf