“SUCDT”的版本间的差异
跳到导航
跳到搜索
| 第14行: | 第14行: | ||
* [http://hlt.suda.edu.cn/index.php/SUCDT-data-annotation-guideline-past 旧版本标注规范] | * [http://hlt.suda.edu.cn/index.php/SUCDT-data-annotation-guideline-past 旧版本标注规范] | ||
| − | + | == 已标注数据列表 == | |
| − | + | 不断更新(数据资源文件,只提供少量sample数据) | |
| − | |||
| − | * | + | *注意一点:我们标注数据的时候,要做好备份工作。 |
| − | + | ** 1. 选数据的最原始文本 | |
| − | + | ** 2. 经过处理过的有分词、词性、句法(包括概率)的文本 | |
| − | * | + | ** 3. 选择过程中产生的数据 |
| − | + | ** 对应的运行脚本等 | |
| − | + | ** 都要备份好。不要怕占磁盘空间。 | |
| + | |||
| + | *目前所有数据,尤其下面两个数据,要看一下,确认一下,是否都备份好了,别过一段时间找不到了。 | ||
| + | ** 阿里的内容搜数据(记录一下) | ||
| + | ** 正在标注的对话数据 | ||
== 数据共享或购买 == | == 数据共享或购买 == | ||
2018年6月25日 (一) 13:31的版本
本页面由郭丽娟和彭雪同学维护。
标注人员培训流程
招聘信息(长期、寒暑假兼职)
标注规范
已标注数据列表
不断更新(数据资源文件,只提供少量sample数据)
- 注意一点:我们标注数据的时候,要做好备份工作。
- 1. 选数据的最原始文本
- 2. 经过处理过的有分词、词性、句法(包括概率)的文本
- 3. 选择过程中产生的数据
- 对应的运行脚本等
- 都要备份好。不要怕占磁盘空间。
- 目前所有数据,尤其下面两个数据,要看一下,确认一下,是否都备份好了,别过一段时间找不到了。
- 阿里的内容搜数据(记录一下)
- 正在标注的对话数据
数据共享或购买
大部分数据向学术界免费共享,支持研究使用。少数数据由于项目或合同约束,需要延迟一些时间后向学术界共享。
企业界需要有偿购买使用权。
word版本数据共享协议(链接以后发布)
如需共享或购买,请发邮件至:李正华