Word-net-2

来自SUDA-HLT
LA-share讨论 | 贡献2019年4月4日 (四) 05:47的版本 →‎主要工作
跳到导航 跳到搜索

主要工作

  • 限定词语
 我们将词语限定在《现代汉语语法信息词典》、同义词林、HowNet和WordNet翻译词四个部分中的名词。对于同义词林、NowNet、WordNet中的词,本身具有一定的上下位关系,可以直接根据规则得到候选上下位词对。《现代汉语语法信息词典》中的词语根据模式匹配得到候选上下位词对。
  • 限定语料
 我们将语料限定在百度百科和维基百科,我们有百科的源文件,当前需要对数据文件进行倒排索引,方便词语的搜索和模式的识别。
  • 当前工作
 1.从同义词林和HowNet中获取候选上下位关系词对。
 2.从WordNet中获取候选上下位词对并翻译。
 3.对百科源网页数据进行解析并实现倒排索引。
 4.在标注系统中加载标注上下位关系页面。
 5.将孙佳伟师姐的现有词对重新标注筛选。
 6.利用筛选后的种子词生成模式集。