Suda-HLT派员参加EMNLP-2017

来自SUDA-HLT
跳到导航 跳到搜索

EMNLP是自然语言处理领域重要的国际学术会议,每年举办一次。其论文代表了自然语言处理最新的发展方向和水平。EMNLP-2017于2017年9月7日至9月11日在丹麦哥本哈根召开。EMNLP被CCF列为B类会议(CCF-B)。

苏州大学计算机学院自然语言处理组共有1篇论文被EMNLP-2017录用,第一作者是在读学生龚晨(硕士二年级学生)。龚晨同学前往丹麦参会做现场报告,并和来自于全世界的研究人员交流最新研究进展。论文简介如下:

  • Multi-Grained Chinese Word Segmentation
 作者:龚晨,李正华,张民,江心舟

内容提要:传统的分词任务普遍为单粒度的形式,即一个句子对应唯一的词语序列。然而,Sproat等人曾通过实验指出以中文为母语的多个标注者在标注同样的语料时,标注一致性仅为76%左右,这表明传统的单粒度分词给人工标注和统计模型都带来了不必要的挑战。同时,具有多种粒度的分词结果能更好地满足不同上层应用的需求。基于这些原因,我们首次提出了中文多粒度分词这个新任务。首先,我们利用现有的三种单粒度分词数据集自动生成了一个大规模的多粒度分词伪数据集用于模型的训练。然后,我们人工标注了1500句多粒度分词数据集用于测试。最后,我们把多粒度分词任务看作短语结构分析和序列标注问题,提出了三种基准方法。实验结果和分析中有很多有趣的发现。

Emnlp2017 1.jpg

Emnlp2017 2.jpg