“COPAD”的版本间的差异
跳到导航
跳到搜索
| (未显示2个用户的36个中间版本) | |||
| 第1行: | 第1行: | ||
| − | + | 本页面由刘亚慧和杨浩苹同学维护。 | |
| + | <!-- == 汉语开放谓词论元数据集(Chinese Open Predicate Argument Dataset) == --> | ||
| + | == 汉语开放谓词论元数据集(Chinese Open Predicate Argument Dataset) == | ||
== 标注人员培训流程 == | == 标注人员培训流程 == | ||
| 第6行: | 第8行: | ||
== 招聘信息(长期、寒暑假兼职) == | == 招聘信息(长期、寒暑假兼职) == | ||
| + | * [http://hlt.suda.edu.cn/index.php/SUSRL-2020-04-recruiting 2020年4月招聘] | ||
* [http://hlt.suda.edu.cn/index.php/SUSRL-2019-06-recruiting 2019年6月招聘] | * [http://hlt.suda.edu.cn/index.php/SUSRL-2019-06-recruiting 2019年6月招聘] | ||
| 第18行: | 第21行: | ||
== 标注规范 == | == 标注规范 == | ||
| − | * | + | * [[:File:COPAD语义标注规范.pdf| 语义标注规范(请看最新版)]] |
| − | == | + | == 已标注数据列表(K表示1000) == |
| − | * | + | * 共10.3+6.7+3.8+3.9+1.6+2.8+2+1.8+1.8=34.7K个句子;16.5+24.5+11.3+17.1+5.9+12.1+6.5+4.1+5.2=103.2K个谓词 |
| − | * | + | * Peking (10.3K句,共16.5K个谓词) |
| + | * CoNLL09 (6.7K句,共24.5K个谓词) | ||
| + | * PB (3.8K句,共11.3K个谓词) | ||
| + | * PC (3.9K句,共17.1K个谓词) | ||
| + | * ZX (1.6K句,共5.9K个谓词) | ||
| + | * 法研杯 (2.8K句,共12.1K个谓词) | ||
| + | * Medicine (2K句,共6.5K个谓词) | ||
| + | * Sports(1.8K句,共4.1K个谓词) | ||
| + | * Finance(1.8K句,共5.2K个谓词) | ||
== 数据共享 == | == 数据共享 == | ||
| 第31行: | 第42行: | ||
== 论文引用 == | == 论文引用 == | ||
| + | |||
| + | * 刘亚慧,杨浩苹,李正华,张民. 一种轻量级的汉语语义角色标注规范[J]. 中文信息学报, 2020, 34(4): 10-20.[[:File:一种轻量级的汉语语义角色标注规范.pdf | pdf]] | ||
| + | * Yahui Liu, Haoping Yang, Chen Gong*, Qingrong Xia, Zhenghua Li, Min Zhang. 2022. MuCPAD: A Multi-Domain Chinese Predicate-Argument Dataset. In '''NAACL''', pages 1707-1717. [http://arxiv.org/abs/2205.06703 arxiv][https://aclanthology.org/2022.naacl-main.123.pdf official pdf] | ||
2023年8月23日 (三) 05:28的最新版本
本页面由刘亚慧和杨浩苹同学维护。
汉语开放谓词论元数据集(Chinese Open Predicate Argument Dataset)
标注人员培训流程
招聘信息(长期、寒暑假兼职)
培训经验
- 定期招新,形成稳定的高质量标注人员更迭。
- 招新时,全面介绍标注工作内容,说明标注工作的优势,提高标注工作的兼职竞争力。
- 提高入职门槛,聘用经面试了解较为适合标注工作的人员,培训时增加高正确率标注人员分享经验的环节,不断更新培训PPT。
- 公开所有标注人员的标注明细,形成良好的竞争监督机制。
- 精简标注人员,过滤标注时间不够或标注准确率太低超过两次的人员。
- 一起认真维护、完善规范,认真培训,认真审核和投诉,给出审核和投诉意见。
标注规范
已标注数据列表(K表示1000)
- 共10.3+6.7+3.8+3.9+1.6+2.8+2+1.8+1.8=34.7K个句子;16.5+24.5+11.3+17.1+5.9+12.1+6.5+4.1+5.2=103.2K个谓词
- Peking (10.3K句,共16.5K个谓词)
- CoNLL09 (6.7K句,共24.5K个谓词)
- PB (3.8K句,共11.3K个谓词)
- PC (3.9K句,共17.1K个谓词)
- ZX (1.6K句,共5.9K个谓词)
- 法研杯 (2.8K句,共12.1K个谓词)
- Medicine (2K句,共6.5K个谓词)
- Sports(1.8K句,共4.1K个谓词)
- Finance(1.8K句,共5.2K个谓词)
数据共享
- 大部分数据向学术界免费共享,支持研究使用。少数数据由于项目或合同约束,需要延迟一些时间后向学术界共享。
- 企业界需要有偿购买使用权。
- 数据共享协议下载:待定。
论文引用
- 刘亚慧,杨浩苹,李正华,张民. 一种轻量级的汉语语义角色标注规范[J]. 中文信息学报, 2020, 34(4): 10-20. pdf
- Yahui Liu, Haoping Yang, Chen Gong*, Qingrong Xia, Zhenghua Li, Min Zhang. 2022. MuCPAD: A Multi-Domain Chinese Predicate-Argument Dataset. In NAACL, pages 1707-1717. arxivofficial pdf