“Zhenghua-undergraduate-thesis”的版本间的差异
跳到导航
跳到搜索
| 第85行: | 第85行: | ||
龚晨 | 龚晨 | ||
| − | *[[ | + | *[[论文:中文问答系统中问题分类的研究与实现.pdf]] |
2019年5月7日 (二) 06:40的版本
毕业设计各个环节注意事项
中期检查前准备
- 任务书认真撰写,老师审核
- 清晰、简洁
- 参考文献的格式严格按照规范(将来论文中也要有,因此这个时候认真点,后面省事)
- 认真做好文献翻译,提前找老师要待翻译的文章,翻译的word文档,尽量按照撰写正式论文的形式规范排版
- 论文标题
- 论文作者
- 论文出处(期刊[volumn/number]、会议、年份、页码等
- 正文部分:图、表、公式、参考文献一般不用翻译,直接截图,放在论文中即可(注意格式好一点)
- 好像学校规定:英文6000词(短一点应该也没人管)。如果论文过长,可以考虑只翻译一部分。
- 做好文献综述,提前和老师商量好,需要看的论文、网页、书籍等列表(5-10篇)
- 按照不同的类型,将论文梳理好,总结好
2019
自然语言句子分析平台实现
周明月 (1527403035)
- 后台:实现分词(global linear model:黄德朋)、词性标注(global linear model)、依存句法分析(待定)
- 前端:javascript ajax【沿用蒋炜在多粒度分词上的代码,python】
汉语新词发现方法研究
李烨秋 (1527405091)
2019.3.29讨论
调研,每个文章写一段话:问题定义、方法、评价数据和评价方法、结果如何 先实现一种基于邻接熵,共现频率,互信息等(可以融合)的新词发现方法 然后实现基于深度学习(word embedding)的方法(我推荐的那篇英文论文的方法)
2 自然语言句子分析平台实现 毕业论文 软件工程(嵌入式培养), 指定学生 审核意见 导出WORD 已审 3 面向对话文本的浅层语义分析数据 毕业论文 计算机科学与技术, 指定学生 审核意见 导出WORD 已审
杨浩苹 (1527405092)
4 网络文本错别字纠正数据标注系统 毕业论文 物联网工程, 指定学生 审核意见 导出WORD 已审
沈嘉钰 (1527407031)
网络在线词典数据爬取系统
陈婷 (1527405034)
Mentor:朱运
- 工作内容(2019.3.8)
- Python有开源的包,爬取网页,尽可能爬所有的词(如何能遍历电子词典中的所有词?)
- 网页正文提取(工具包可以用,自己写正则表达式,根据网页的规则去抽取)
- 归一化:制定一个比较完整的格式,字,词,拼音,词性,词义,例句,解释。
Christiane Fellbaum (1998, ed.) WordNet: An Electronic Lexical Database. Cambridge, MA: MIT Press. (前言)
George A. Miller (1995). WordNet: A Lexical Database for English. Communications of the ACM Vol. 38, No. 11: 39-41.
汉语上下位关系词对抽取研究
袁源 (1527405050)
Mentor:陆凯华
- 工作内容(2019.3.8)
- 定义:给定一大堆文本(文档),根据一些规则(模板),去抽取上下位词对(Hearst 1992?)
- bootstrapping:给一些种子上下位对,去找pttern,过滤掉差的模板,更多词对 -> 继续循环
1)搞清楚上下位关系的定义 2)参考文献,设计一些Pattern,从wiki数据中自动抽取候选词对,进而人工标注,判定哪些是真正的上下位关系 3)然后根据已有的上下位词对,在wiki数据上跑一遍,扩展pattern集合,人工check,哪些pattern是靠谱的 4)回到步骤2 5) 如果有时间,实现一个简答的基于特征的上下位关系分类方法,把pattern、后缀、共现频率等信息作为特征融合一下,放到一个分类模型(如最大熵)中。
2016
中文问答系统中问题分类的研究与实现
龚晨