Word-net-2

来自SUDA-HLT
跳到导航 跳到搜索

李正华 2019.4.5

陆凯华

  • 上下位规范
  • 标注系统准备
  • 人工标注管理(韩欣艳和杨奕可以协助)
  • 和组员深入讨论,在具体方法上指导
  • 继续孙佳伟的工作,做上下位关系分类

总体规划

  • 一些注意事项
    • 人员安排和搭配可以灵活调整
    • 具体效果取决于大家的聪明才智和投入程度
    • 代码要简单、可扩展。第一个版本不用、也不可能尽善尽美。以后随着对问题的理解不断深入,不断改进和完善。
    • 大家要发挥自己的聪明才智,敢于有自己的想法(创新),讨论后,只要感觉有道理都可以花时间去试。


  • 1:现代汉语词典、同义词词林、HowNet中的词语及其词性信息汇总起来。(由于有版权问题,只能陆凯华做。处理好的数据就可以项目组一起用了。)
  • 2(b):对百科数据和wiki数据(可以下载,问一下周厚全)的源文件进行过滤,把不包含这些词语的网页去除(根据字符串匹配即可),速度慢一点也可以(由于有版权问题,只能陆凯华做。处理好的数据就可以项目组一起用了。)
  • 3:对抽取出来的百科和wiki源文件进行正文抽取(陆凯华、章岳、韩欣艳一起做,参考朱运之前的代码,但是要搞清楚,方便以后改进)
  • 4: 对正文进行分词
  • 5: 建立倒排文档,自己设计合适的数据格式,方便使用(章岳、黄赛豪,需要学习一下倒排)
  • 6(a):参考基于pattern的方法(bootstrapping),从词典解释中挖掘可能的上下位词对 (黄赛豪、杨奕)
  • 6(b):研究基于pattern的方法(bootstrapping),从网页正文中挖掘可能的上下位词对 (章岳、韩欣艳)
  • 疑似上下位词对交给标注系统确认

主要工作

  • 限定词语
 我们将词语限定在《现代汉语语法信息词典》、同义词林、HowNet和WordNet翻译词四个部分中的名词。对于同义词林、NowNet、WordNet中的词,本身具有一定的上下位关系,可以直接根据规则得到候选上下位词对。《现代汉语语法信息词典》中的词语根据模式匹配得到候选上下位词对。
  • 限定语料
 我们将语料限定在百度百科和维基百科,我们有百科的源文件,当前需要对数据文件进行倒排索引,方便词语的搜索和模式的识别。
  • 当前工作
 1.从同义词林和HowNet中获取候选上下位关系词对。
 2.从WordNet中获取候选上下位词对并翻译。
 3.对百科源网页数据进行解析并实现倒排索引。
 4.在标注系统中加载标注上下位关系页面。
 5.将孙佳伟师姐的现有词对重新标注筛选。
 6.利用筛选后的种子词生成模式集。