Word-net-2

来自SUDA-HLT

跳到导航跳到搜索

李正华 2019.4.5

陆凯华

上下位规范
标注系统准备
人工标注管理（韩欣艳和杨奕可以协助）
和组员深入讨论，在具体方法上指导
继续孙佳伟的工作，做上下位关系分类

总体规划

一些注意事项
- 人员安排和搭配可以灵活调整
- 具体效果取决于大家的聪明才智和投入程度
- 代码要简单、可扩展。第一个版本不用、也不可能尽善尽美。以后随着对问题的理解不断深入，不断改进和完善。
- 大家要发挥自己的聪明才智，敢于有自己的想法（创新），讨论后，只要感觉有道理都可以花时间去试。

1：现代汉语词典、同义词词林、HowNet中的词语及其词性信息汇总起来。（由于有版权问题，只能陆凯华做。处理好的数据就可以项目组一起用了。）

2(a)：从网上hanyu.baidu.com baike.baidu.com 新华词典（http://www.5156edu.com/）等上面爬取这些词语的解释页面（黄赛豪、章岳）

2(b)：对百科数据和wiki数据（可以下载，问一下周厚全）的源文件进行过滤，把不包含这些词语的网页去除（根据字符串匹配即可），速度慢一点也可以（由于有版权问题，只能陆凯华做。处理好的数据就可以项目组一起用了。）

3：对抽取出来的百科和wiki源文件进行正文抽取（陆凯华、章岳、韩欣艳一起做，参考朱运之前的代码，但是要搞清楚，方便以后改进）

4: 对正文进行分词

5: 建立倒排文档，自己设计合适的数据格式，方便使用（章岳、黄赛豪，需要学习一下倒排）

6(a)：参考基于pattern的方法（bootstrapping），从词典解释中挖掘可能的上下位词对 (黄赛豪、杨奕）

6(b)：研究基于pattern的方法（bootstrapping），从网页正文中挖掘可能的上下位词对（章岳、韩欣艳）

疑似上下位词对交给标注系统确认

主要工作

限定词语

 我们将词语限定在《现代汉语语法信息词典》、同义词林、HowNet和WordNet翻译词四个部分中的名词。对于同义词林、NowNet、WordNet中的词，本身具有一定的上下位关系，可以直接根据规则得到候选上下位词对。《现代汉语语法信息词典》中的词语根据模式匹配得到候选上下位词对。

限定语料

 我们将语料限定在百度百科和维基百科，我们有百科的源文件，当前需要对数据文件进行倒排索引，方便词语的搜索和模式的识别。

当前工作

 1.从同义词林和HowNet中获取候选上下位关系词对。
 2.从WordNet中获取候选上下位词对并翻译。
 3.对百科源网页数据进行解析并实现倒排索引。
 4.在标注系统中加载标注上下位关系页面。
 5.将孙佳伟师姐的现有词对重新标注筛选。
 6.利用筛选后的种子词生成模式集。

取自“http://hlt.suda.edu.cn/index.php?title=Word-net-2&oldid=961”