Data-anno-book

来自SUDA-HLT
跳到导航 跳到搜索

把三家的经验都写进来,梳理出来大纲,然后再加入相关书籍中有用的东西。

前言(概述)可以说这些话。

一个完整的数据标注项目,由以下几部分构成

条理梳理,现在还比较乱(一周内确定大纲?)

数据流:选取 清洗 第1轮标注 第2轮标注 答案聚集 ....

任务流(功能):需求分析 试标注 ...

角色:需求方 专家 管理人员 标注人员 技术人员

提高质量、效率的方法?

一条主线(可以有辅线)

https://docs.qq.com/sheet/DQlBUanZIWmllelJk?tab=bb08j5

数据标注的意义

对于人工智能、机器学习的重要性

LDC介绍

一些标注项目实例

图像:ImageNet (众包)

Penn Treebank

Penn Chinese Treebank

CODT

需求分析

分类

层次分类

分割片段标注

序列标注

树标注

图标注

标注规范

标注规范制定的考虑因素

初版标注规范的制定

标注规范的更新

 如何讨论:线上线下
 奖励机制
 什么时候要大改规范,什么时候只要打补丁
 规范制定要有几个总体的原则和框架,大的原则和框架如果不受影响,就不用大改,否则就要大改。
 如何让标注人员密切参与进来?

标注工具

标注系统设计的考虑因素

安全性、便捷性

常用框架

本地工具,如MFC

服务器客户端框架,浏览器标注

浏览器支持、ipad设备支持

公开平台和工具

snap

标注流程(方法)

单人标注

多人标注

专家审核

人机协助标注

确定答案的机制

质量和效率评估(标注人员的标注质量 vs. 整个项目的质量)

随机抽检

Kappa、一致率等

标注质量和速度的平衡

标注原始数据的采集和获取

合作方提供

互联网爬取

随机采样

主动学习的方法

标注实施

人员招聘和培训

人员管理和流动

报酬计算和支付

多项目并行管理

标注实例

依存句法分析标注

谓词论元标注

命名实体标注