“SUCDT”的版本间的差异

来自SUDA-HLT
跳到导航 跳到搜索
(撤销Xpeng讨论)的版本575)
(撤销Xpeng讨论)的版本574)
第14行: 第14行:
 
* [http://hlt.suda.edu.cn/index.php/SUCDT-data-annotation-guideline-past 旧版本标注规范]
 
* [http://hlt.suda.edu.cn/index.php/SUCDT-data-annotation-guideline-past 旧版本标注规范]
  
*novel_zx数据:
+
== 已标注数据列表 ==
  
*dialogue数据:
+
不断更新(数据资源文件,只提供少量sample数据)
  
*pctb7数据:
 
  
*哈工大数据:
+
*注意一点:我们标注数据的时候,要做好备份工作。
cdt_v1:
+
** 1. 选数据的最原始文本
cdt_v2:
+
** 2. 经过处理过的有分词、词性、句法(包括概率)的文本
*阿里数据
+
** 3. 选择过程中产生的数据
content_v1:
+
** 对应的运行脚本等
content_v2:
+
** 都要备份好。不要怕占磁盘空间。
 +
 
 +
*目前所有数据,尤其下面两个数据,要看一下,确认一下,是否都备份好了,别过一段时间找不到了。
 +
** 阿里的内容搜数据(记录一下)
 +
** 正在标注的对话数据
  
 
== 数据共享或购买 ==  
 
== 数据共享或购买 ==  

2018年6月25日 (一) 13:31的版本

本页面由郭丽娟和彭雪同学维护。

标注人员培训流程

招聘信息(长期、寒暑假兼职)

标注规范

已标注数据列表

不断更新(数据资源文件,只提供少量sample数据)


  • 注意一点:我们标注数据的时候,要做好备份工作。
    • 1. 选数据的最原始文本
    • 2. 经过处理过的有分词、词性、句法(包括概率)的文本
    • 3. 选择过程中产生的数据
    • 对应的运行脚本等
    • 都要备份好。不要怕占磁盘空间。
  • 目前所有数据,尤其下面两个数据,要看一下,确认一下,是否都备份好了,别过一段时间找不到了。
    • 阿里的内容搜数据(记录一下)
    • 正在标注的对话数据

数据共享或购买

大部分数据向学术界免费共享,支持研究使用。少数数据由于项目或合同约束,需要延迟一些时间后向学术界共享。

企业界需要有偿购买使用权。

word版本数据共享协议(链接以后发布)

如需共享或购买,请发邮件至:李正华