Word-net-2
跳到导航
跳到搜索
李正华 2019.4.5
陆凯华
- 上下位规范
- 标注系统准备
- 人工标注管理(韩欣艳和杨奕可以协助)
- 和组员深入讨论,在具体方法上指导
- 继续孙佳伟的工作,做上下位关系分类
总体规划
- 一些注意事项
- 人员安排和搭配可以灵活调整
- 具体效果取决于大家的聪明才智和投入程度
- 代码要简单、可扩展。第一个版本不用、也不可能尽善尽美。以后随着对问题的理解不断深入,不断改进和完善。
- 大家要发挥自己的聪明才智,敢于有自己的想法(创新),讨论后,只要感觉有道理都可以花时间去试。
- 1:现代汉语词典、同义词词林、HowNet中的词语及其词性信息汇总起来。(由于有版权问题,只能陆凯华做。处理好的数据就可以项目组一起用了。)
- 2(a):从网上hanyu.baidu.com baike.baidu.com 新华词典(http://www.5156edu.com/)等上面爬取这些词语的解释页面(黄赛豪、章岳)
- 2(b):对百科数据和wiki数据(可以下载,问一下周厚全)的源文件进行过滤,把不包含这些词语的网页去除(根据字符串匹配即可),速度慢一点也可以(由于有版权问题,只能陆凯华做。处理好的数据就可以项目组一起用了。)
- 3:对抽取出来的百科和wiki源文件进行正文抽取(陆凯华、章岳、韩欣艳一起做,参考朱运之前的代码,但是要搞清楚,方便以后改进)
- 4: 对正文进行分词
- 5: 建立倒排文档,自己设计合适的数据格式,方便使用(章岳、黄赛豪,需要学习一下倒排)
- 6(a):参考基于pattern的方法(bootstrapping),从词典解释中挖掘可能的上下位词对 (黄赛豪、杨奕)
- 6(b):研究基于pattern的方法(bootstrapping),从网页正文中挖掘可能的上下位词对 (章岳、韩欣艳)
- 疑似上下位词对交给标注系统确认
主要工作
- 限定词语
我们将词语限定在《现代汉语语法信息词典》、同义词林、HowNet和WordNet翻译词四个部分中的名词。对于同义词林、NowNet、WordNet中的词,本身具有一定的上下位关系,可以直接根据规则得到候选上下位词对。《现代汉语语法信息词典》中的词语根据模式匹配得到候选上下位词对。
- 限定语料
我们将语料限定在百度百科和维基百科,我们有百科的源文件,当前需要对数据文件进行倒排索引,方便词语的搜索和模式的识别。
- 当前工作
1.从同义词林和HowNet中获取候选上下位关系词对。 2.从WordNet中获取候选上下位词对并翻译。 3.对百科源网页数据进行解析并实现倒排索引。 4.在标注系统中加载标注上下位关系页面。 5.将孙佳伟师姐的现有词对重新标注筛选。 6.利用筛选后的种子词生成模式集。