2019年5月7日 (二) 06:40的版本

毕业设计各个环节注意事项

中期检查前准备

任务书认真撰写，老师审核
- 清晰、简洁
- 参考文献的格式严格按照规范（将来论文中也要有，因此这个时候认真点，后面省事）
认真做好文献翻译，提前找老师要待翻译的文章，翻译的word文档，尽量按照撰写正式论文的形式规范排版
- 论文标题
- 论文作者
- 论文出处（期刊[volumn/number]、会议、年份、页码等
- 正文部分：图、表、公式、参考文献一般不用翻译，直接截图，放在论文中即可（注意格式好一点）
- 好像学校规定：英文6000词（短一点应该也没人管）。如果论文过长，可以考虑只翻译一部分。
做好文献综述，提前和老师商量好，需要看的论文、网页、书籍等列表（5-10篇）
- 按照不同的类型，将论文梳理好，总结好

2019

自然语言句子分析平台实现

周明月 (1527403035)

后台：实现分词（global linear model：黄德朋）、词性标注（global linear model）、依存句法分析（待定）
前端：javascript ajax【沿用蒋炜在多粒度分词上的代码，python】

汉语新词发现方法研究

李烨秋 (1527405091)

2019.3.29讨论

调研，每个文章写一段话：问题定义、方法、评价数据和评价方法、结果如何
先实现一种基于邻接熵，共现频率，互信息等（可以融合）的新词发现方法
然后实现基于深度学习（word embedding）的方法（我推荐的那篇英文论文的方法）

2 自然语言句子分析平台实现毕业论文软件工程（嵌入式培养）, 指定学生审核意见导出WORD 已审 3 面向对话文本的浅层语义分析数据毕业论文计算机科学与技术, 指定学生审核意见导出WORD 已审

杨浩苹 (1527405092)

4 网络文本错别字纠正数据标注系统毕业论文物联网工程, 指定学生审核意见导出WORD 已审

沈嘉钰 (1527407031)

网络在线词典数据爬取系统

陈婷 (1527405034)

Mentor：朱运

工作内容（2019.3.8）
- Python有开源的包，爬取网页，尽可能爬所有的词（如何能遍历电子词典中的所有词？）
- 网页正文提取（工具包可以用，自己写正则表达式，根据网页的规则去抽取）
- 归一化：制定一个比较完整的格式，字，词，拼音，词性，词义，例句，解释。

Christiane Fellbaum (1998, ed.) WordNet: An Electronic Lexical Database. Cambridge, MA: MIT Press. （前言）

George A. Miller (1995). WordNet: A Lexical Database for English. Communications of the ACM Vol. 38, No. 11: 39-41.

汉语上下位关系词对抽取研究

袁源 (1527405050)

Mentor：陆凯华

工作内容（2019.3.8）
- 定义：给定一大堆文本（文档），根据一些规则（模板），去抽取上下位词对（Hearst 1992?）
- bootstrapping：给一些种子上下位对，去找pttern，过滤掉差的模板，更多词对 -> 继续循环

1）搞清楚上下位关系的定义
2）参考文献，设计一些Pattern，从wiki数据中自动抽取候选词对，进而人工标注，判定哪些是真正的上下位关系
3）然后根据已有的上下位词对，在wiki数据上跑一遍，扩展pattern集合，人工check，哪些pattern是靠谱的
4）回到步骤2
5) 如果有时间，实现一个简答的基于特征的上下位关系分类方法，把pattern、后缀、共现频率等信息作为特征融合一下，放到一个分类模型（如最大熵）中。

2016

中文问答系统中问题分类的研究与实现

龚晨

论文:中文问答系统中问题分类的研究与实现.pdf

2019年5月7日 (二) 06:39的版本（查看源代码） LA-share（讨论 \| 贡献）（→‎中文问答系统中问题分类的研究与实现） ←上一编辑		2019年5月7日 (二) 06:40的版本（查看源代码） LA-share（讨论 \| 贡献）（→‎中文问答系统中问题分类的研究与实现）下一编辑→
第85行：		第85行：
	龚晨		龚晨

−	*[[文件:中文问答系统中问题分类的研究与实现.pdf]]	+	*[[论文:中文问答系统中问题分类的研究与实现.pdf]]

“Zhenghua-undergraduate-thesis”的版本间的差异