Zhenghua-undergraduate-thesis

来自SUDA-HLT
跳到导航 跳到搜索

论文撰写注意事项

写论文的一些总结

毕业设计模板

注意:优先按照最新的规则;如果最新规则不涉及,而旧规则涉及到,就按旧规则。

2022年5月本科毕业设计论文格式

2019年5月本科毕业设计论文格式

2015年5月本科毕业设计论文格式(里面有样例论文,值得参考)

毕业设计各个环节注意事项

请大家参考之前优秀毕业设计的内容。比如2023年乔子恒同学的,里面有任务书、文献综述等,很全。

中期检查前准备

任务书

  • 任务书认真撰写,老师审核

清晰、简洁

主要内容部分:介绍要做的事情,讲清楚,让别人看懂。不是罗列论文每章的名字。

基本要求,话要说完整,不要干巴巴写

参考文献:格式要规范、统一(大小写、页码等)
参考文献的格式严格按照规范(将来论文中也要有,因此这个时候认真点,后面省事)

文献翻译

先根据毕设题目和简介,自己去找英文文献,找3-5个候选。然后发给老师,老师会确定待翻译的文章。进而翻译的word文档,

尽量按照撰写正式论文的形式规范排版
** 论文标题
** 论文作者
** 论文出处(期刊[volumn/number]、会议、年份、页码等
** 正文部分:图、表、公式、参考文献一般不用翻译,直接截图,放在论文中即可(注意格式好一点)
** 比学校学院规定的字数多一些(例如多500)。如果论文过长,可以考虑只翻译一部分。

文献综述

  • 在互联网上搜索相关文献:论文、网页、书籍等列表(5-10篇)
  • 按照不同的类型,将论文梳理好,总结好(方法、数据、评价指标等)
项目1:噪音文本规范化
网上很多用户产生的数据,如产品的评论、客服等,会包含很多谐音字、缩写、错别字、语法错误、语义错误等,给自然语言理解造成巨大的挑战。项目的目标是通过检测和纠正错误和其他规范化处理,将噪音文本转化为规范文本。

项目2:基于依存表示的词内部结构研究
汉语中从字到词的形成有什么规律?学术界对此研究非常少。但是构词法对于中文理解非常重要:1)更好的处理未登陆词,帮助分词;2)学习更好的词表示;3)词法和句法分析统一到一个框架中;等等。我们将从数据标注和无监督学习两个方面,双管齐下,尝试解决这一重要问题。

日志周志分析:
把同学们的日志和周志拿下来
分析字数、关键词、图文比例 ->  研究生培养,研究生学习应该注意哪些
找错别字、病句


汇总信息

  • 2018级本科毕设(4):周楚越、黄梓钧、辜仰淦(广东工业)、刘雨萌(江南) [2022春]
  • 2017级本科毕设(6):崔秀莲、窦晨晖、黄赛豪、司英杰、严福康、章岳 [2021春]
  • 2016级本科毕设(7):侯洋、黎霞、李帅克、周仕林、韩欣艳、杨奕、李嘉诚(燕山大学) [2020春]
  • 2015级本科毕设(7):陈婷、李烨秋、沈嘉钰、杨浩苹、袁源、周明月、周厚全(矿大)[2019春]
  • 2014级本科毕设(3):蒋炜、李丹、陆凯华 [2018春]
  • 2013级本科毕设(5):胡蝶、江心舟、孙文杰、严秋怡、章波 [2017春]
  • 2012级本科毕设(2):龚晨、夏庆荣 [2016春]
  • 2011级本科毕设(4):陆芳丽、穆景泉、王效静、张月 [2015春]
  • 2010级本科毕设(1):郁俊杰 [2014春]


基于Django的词义数据标注系统实现

词典词义数据挖掘和融合系统实现

汉语词语内部结构标注和分析系统实现

面向汉语分词任务的语音文本多模态数据挖掘

基于语音文本的多模态分词系统实现


2020级本科生毕业设计意向征集

李正华

2023.10.31

为了做好毕业设计(双方都从容不迫),也避免将来在系统上抢题目(我可以指定同学),现面向2020级本科生发起毕业设计意向征集。截止到11月10日22:00。

想跟我做毕业设计的同学,请发邮件联系我(zhli13@suda.edu.cn),介绍下基本情况、考研保研的情况或意向、学习或项目经历、希望做什么题目等。

我们一起商量一个合适的题目,比如和你将来的工作或读研方向结合,或者和你以前的学习或项目经历相结合(考研的同学时间紧,这一点比较重要)。

我之前带过的大部分毕业设计,都在这个页面中,大家可以参考:http://hlt.suda.edu.cn/index.php/Zhenghua-undergraduate-thesis

目前设想了4个题目:

4)科技论文下载与解析系统实现 [有人选]

从网络上爬取科技论文,然后将word或pdf中的所关注的文本抽取出来,用正则表达式清洗,最后以特定格式存储。

2024

多音字拼音预测技术研究与实现 [20级人工智能阮菲菲]

给定一个句子,把所有字的拼音给出来,主要工作是把数据准备好,然后用深度学习工具包来实现功能。

语音文本对齐数据挖掘技术研究与实现 [2020级人工智能李彦澍]

从网络上爬取语音和文本对齐数据,并进行相关的后处理,从而得到比较干净的对齐数据,作为自动语音识别(ASR/STT)数据。

利用语音信息的文本分词技术研究与实现 [20级软件工程徐旻庥]

分词任务的目标是将一个句子切分为一个一个词,这个毕业设计题目尝试额外利用语音信息帮助分词。


多音字拼音数据挖掘技术研究与实现 [20级人工智能张丽群]

从网络上爬取多音字拼音相关数据(文字、图片),并进行相关的后处理(清洗、格式化、图片OCR),从而得到比较干净的对齐数据。

生物领域工具知识图谱构建技术研究与实现 [计科 侯羽飞]

生物工具的命名实体识别项目,最终构建一个生物工具知识图谱

知识图谱中的节点:tool name(algorithm/model/method)

edge:tool之间的使用(调用)关系

大量论文入手,作为原始数据,自动抽取tool name,自动构建edge

2023

外校保研王学彬:基于序列标注的文本顺滑方法

王学彬 张磊mentor

  1)理解文本顺滑的背景和任务内涵,了解该任务的文本序列标注方法标签集情况。
  2)设计不同粒度的标签方案与当前主流方法采用的标签方案进行对比,探索不同标签方案对序列标注模型的影响;
  3)采用BERT-CRF模型对上述标签方案进行实验,得出的结论是细粒度标签方案比基线标签方案训练的模型性能更好。

面向科技文献领域的文本纠错系统实现 乔子恒

1927405039 计科 图灵班

  1)使用爬虫技术爬取科技文献领域期刊论文,解析并提取正文。
  2)使用数据增强技术处理科技文献语料,实现通用纠错系统向科技文献领域的迁移。
  3)采用Flask+Vue+SQLite等前后端和数据库技术设计并实现一个文本纠错系统。

蒋浩辰指导

领域词典约束的文本纠错技术研究与实现 张紫岩

1928401062 计算机科学与技术(人工智能)

指导者:周厚全

  1)面向科技文献写作领域,构建数据集并进行了实验评测。
  2)构建领域词典,并提出了一种领域词典约束的数据增强方法。
  3)在构建的科技文献数据集上进行了数据增强实验,并提出了多维度的评测方法。

面向语音识别文本的纠错系统实现 张翔

1927405126 计科 图灵班

张磊指导:

  1)理解ASR纠错的背景和现状,对现今方法进行调研。
  2)利用Transformer+CTC模型对语音文本进行转换,同时采用2-fold方法对语音模型进行加强训练获得训练语料。
  3)采用GECTOR作为基础模型并在其基础上加上了拼音信息。得出结论拼音信息的引入对ASR纠错有着一定的影响。

2022

词典词义数据挖掘和融合系统实现

周楚越(1827405133) 严福康mentor

1)从网络上挖掘尽可能多的词语词义及例句。
2)清洗数据,根据多方词典数据构建了一个词义尽可能全面的词典。
3)搭建了一个词语例句对应系统,用户输入词语,后续会有许多例句对应。

汉语词语内部结构标注和分析系统实现

黄梓钧(1827405059) 龚晨mentor

1)充分学习了预定义的具有11 个标签的词内部结构标注规范,在标注平台上人工标注了500 个词语的内部结构。
2)为了对汉语词语构词模式有更深入的理解,对标注结果进行了多方面的分析。
3)搭建了一个词内部结构分析系统,对于每一个输入的词语能够自动分析其内部结构,实现了词内部结构的可视化展示。

外校保研辜仰淦:汉语多粒度词语内部依存结构分析研究与实现

龚晨mentor

1)分析了多粒度词内部依存结构冲突的现象,给出了多粒度词内部依存结构分析的任务定义。同时基于词内部结构树库WIST以及多个命名实体数据集构建了两个多粒度词内部依存结构数据集。
2)根据多粒度词内部依存结构分析的任务定义,给出两个引入多粒度分析信息以解决冲突的解码算法:人工规则后处理(Rule-based)算法与基于Eisner-satta算法的约束解码(Constrained Eisner-satta)。
3)基于开源框架SuPar构建了面向多粒度词内部结构分析的Biaffine Parser和TreeCRF Parser,通过所构建的Parser模型进行实验,实验结果表明本文所提出的两个冲突解决方法能够有效提升词内部结构分析的效果。 

外校保研刘雨萌:text2sql

grammar根据数据集简化,加速RATSQL 黄赛豪 mentor

2021

汉语词内部结构数据标注与模型实现

黄赛豪 1727406002 软工

1)基于CODT规范,做一些调整和简化,搞成一个新的、简化版的规范(~20页)
2)基于已有标注团队,标注1万高频词
3)分割为train/dev/test,然后基于biaffine parser,创建模型 

无监督句子级关键词抽取方法研究与实现

窦晨晖 1727405032 计科

1)深入学习tf-idf; textrank,实现出来
2)调用一些已有的工具(蒋炜已经实现的),了解输入输出和方法的主要思想
3)做实验对比 

词性数据标注错误检测方法研究与实现

1727405137 崔秀莲 计科

 分词、词性数据都可以(优先考虑分词)
 找分词错误、不一致
 规则:各种统计分析,考虑上下文或者不考虑上下文
 模型:简化模型(参数少)、封闭测试(训练集和测试集一样);多用几个模型,取交集;考虑概率信息

基于序列编辑的语法纠错方法研究与实现

1727406003 章岳

 借鉴开源代码,重现基本的seq2edit系统
 做一些创新:1)句法驱动;2)BPE;3)lattice encoder

汉语缩略语规范化方法研究与实现 -> 汉语缩略语词典挖掘系统实现

严福康 1727405071 计科

专注缩略语词典挖掘,词典中每一项,由<缩略语,完整词>词对构成
方法1:从网上搜集(爬取或手动)
方法2:我上面提到的,给定大规模词典,如jieba的词库、搜狗词库。主要针对名词,通过字符串规则方式来抽取:如苏州大学 苏大
方法3:...


下面的是旧的
  1)搜集资源,缩略语(英文缩略、中文缩略、谐音)-> 规范表达,可能有1对多 
  重点做:中文拼音缩略语
  2)加语言模型验证,根据上下文确定最佳选择

基于ThinkPHP的数据标注系统实现 -> 基于SSM框架的数据标注系统实现

司英杰 1727405072 计科

我们有一个基于ThinkPHP老版本的系统,希望可以基于比较新的版本进行更新。后改为SSM框架。

spring boot + springMVC + mybatis (java后端,前端是用的thymeleaf模板引擎+layui)


2021.4.10:一点感想:读我研究生的同学;如果特别熟悉的同学,也可以考虑。读研究生同学,比起找工作的同学,学习新东西的动力更足。

2020

词法数据标注和错误检测

黎霞: 1627405116 计科

  分词、词性数据都可以(优先考虑分词)
  找分词错误、不一致
  句法错误检测(不一致等,用我们的数据或者PMT都可以)
  陈伟的工作:perl脚本

句法数据查询和检索系统

杨奕: 1627405101 计科

  查询后结果可视化显式、反爬策略

基于词典知识的分词领域移植

周仕林 1627405033 计科图灵


2020.2.11: 源领域数据:ctb5 目标领域:ZX 和 car 词典的获取,和周厚全讨论

参考论文:张梅山老师中文论文:词典特征


  传统模型或神经网络都可以,看进度
  二级词典,如果有时间试试远程监督
  在汽车领域数据上也做实验
  分词上还可以做的事情:
  1)异构分词数据的利用方法比较
  2)jieba和nerual的结合: 
  用pku数据得到词典,在pku上测试(不用HMM新词发现),和其他模型对比
  把jieba的结果作为额外信息,给neural模型使用
  深度学习和传统模型的结合:对于分词任务,jieba这种分词方法和深度学习模型的融合

利用正确词法数据的依存句法分析

李帅克 1627407014 物联网

  如何利用120w分词词性数据,提升PMT数据上的句法分析性能?
  进而,如何提高CTB数据的性能(异构词法)
  一个现实问题:句法分析时,如何加入词性词典(基于正确词性词典约束的句法分析)

基于局部标注的依存句法分析主动学习

侯洋 1627406031 软工

   基于神经网络句法分析器biaffine parser
   local vs. crf-loss-first-order
   比较置信度的使用方式:边缘概率  local-softmax  边缘概率变种

完整标注的情况下的实验也要做一下。

local来确定置信度 crf来训练的曲线如何? crf来产生置信度 Local来训练的曲线如何?

别人帮你选要标注的词或句子(异构) vs. 自己选择

基于知识库的上下位关系自动抽取

韩欣艳 1627405044 计科图灵

   从OpenHowNet、同义词词林、Chinese WordNet中抽取上下位关系。
   进一步可以考虑翻译英文WordNet、澳门大学商务词典
   Shwartz	14,135	16,956	31,091
 OpenHowNet:官网上有下载数据文件和项目文件。主要是通过义原的标注,找到描述词的核心词作为它的上位词(或者是较上层的描述词)。另外,可以对比词的相似性等等方法来抽取上位词。
 同义词词林:电子版同义词词林中没有上层结构的描述,通过纸质的书,或者查找其他文献看有没有归纳的方法。抽取的时候尽量抽取比较临近的词对。
 Chinese WordNet:结构类似于WordNet,看了一下有直接上下位描述,但是用的是英文表述,看一下相关资料有没有中文的表述。
 OpenHowNet
 1.上下位关系词对主要研究名词词对,对HowNet的所有词语进行过滤,得到所有名词词性的词语。
 2.检索名词的义原,观察词语的义原树,作为上位词的义原所处层次不超过第二层。指定展开层数为2,获得词语的描述义原中核心描述词,作为潜在的上位词。【尝试比较层数的影响】
 3.检索名词的全部义原,利用相似度计算,计算词语与义原之间的相似度,词语间相似度最大值为1.0,根据观察,具有上下位关系的词对间相似度最低不小于0.70.,取不同的相似度区间,如[0.7,1]、[0.75,1]、[0.8,1]、[0.85,1]、[0.90,1]等,采取对比实验,在不同的相似度区间实现50个词语的上下位关系抽取,人工标注计算验证不同区间获得的准确率,最终选取准确率最高的区间进行抽取。【尝试比较词语相似度的影响】
 4.义原核心描述词也具有其自己的上位词,其上位词也可以作为名词词语的上位词。【检索展开层数为1时获取的核心词,是否还有上位词】
 5.直接获取HowNet中所有名词性义原的上位词,扩充上下位关系数据集
 同义词词林
 1.词林中的大类词具有最强的概括性,可以作为上位词,其中第A至第D类大多为名词,可以进行上下位关系词对的抽取,第E大类为形容词,第F至第J大类是动词,第K大类为虚词,第L大类是难以分至其他类别的敬语,对这些类不作考虑。
 2.大类到中类和小类的抽取:对于中类词,若中类词是具有概括性的类别词,如“Bh 植物”,则将其纳入上下位关系抽取任务中,由此得到<中类词,大类词>,<小类词,中类词>上下位关系词对;若中类词是偏向描述性的属性词,如“Ac 体态”,则对中类词不作考虑,得到<小类词,大类词>词对。这一步需要手工选取,再进行自动抽取。
 3.小类到词群和词段的抽取:每个词群的第一个词是小类中的标题词,词群进一步向下细分成不同的词段,其中第一个词段的第一个词也是小类的标题词,抽取该标题词作为上位词,将词段中除标题词之外的词作为对应的下位词。【最后根据倒排可以利用词在百度百科出现频率数进行过滤】
 Chinese WordNet
 1.网上找到的中文WordNet只有部分数据,先尝试在部分数据上做lmf文档解析,看从中能获取多少上下位词对。
 2.如果数量实在稀少,考虑进一步做网页爬取。

基于词典的汉语分词领域移植研究

秦友黄涛

 深入了解jieba分词的原理,然后重新实现(效率可以暂时不管,代码可读性要好)
 用我们手上的新闻语料,重新训练模型
 将Jieba用于分词领域移植问题,加入领域内词典和虚拟词频
 如果进展快,可以尝试把jieba和机器学习模型融合起来。

基于神经网络的汉语分词领域移植研究与实现

李嘉诚

 基于BiLSTM-CRF
 参考:朱运2019中文论文、周厚全的毕业设计论文;了解任务、数据基本一样(还有一个汽车领域数据)

2019

自然语言句子分析平台实现

周明月 (1527403035)

  • 后台:实现分词(global linear model:黄德朋)、词性标注(global linear model)、依存句法分析(待定)
  • 前端:javascript ajax【沿用蒋炜在多粒度分词上的代码,python】

汉语新词发现方法研究

李烨秋 (1527405091)

2019.3.29讨论

调研,每个文章写一段话:问题定义、方法、评价数据和评价方法、结果如何
先实现一种基于邻接熵,共现频率,互信息等(可以融合)的新词发现方法
然后实现基于深度学习(word embedding)的方法(我推荐的那篇英文论文的方法)

面向对话文本的浅层语义分析数据

杨浩苹 (1527405092)

网络文本错别字纠正数据标注系统

沈嘉钰 (1527407031)

网络在线词典数据爬取系统

陈婷 (1527405034)

Mentor:朱运

  • 工作内容(2019.3.8)
    • Python有开源的包,爬取网页,尽可能爬所有的词(如何能遍历电子词典中的所有词?)
    • 网页正文提取(工具包可以用,自己写正则表达式,根据网页的规则去抽取)
    • 归一化:制定一个比较完整的格式,字,词,拼音,词性,词义,例句,解释。


Christiane Fellbaum (1998, ed.) WordNet: An Electronic Lexical Database. Cambridge, MA: MIT Press. (前言)

George A. Miller (1995). WordNet: A Lexical Database for English. Communications of the ACM Vol. 38, No. 11: 39-41.

汉语上下位关系词对抽取研究

袁源 (1527405050)

Mentor:陆凯华

  • 工作内容(2019.3.8)
    • 定义:给定一大堆文本(文档),根据一些规则(模板),去抽取上下位词对(Hearst 1992?)
    • bootstrapping:给一些种子上下位对,去找pttern,过滤掉差的模板,更多词对 -> 继续循环


1)搞清楚上下位关系的定义
2)参考文献,设计一些Pattern,从wiki数据中自动抽取候选词对,进而人工标注,判定哪些是真正的上下位关系
3)然后根据已有的上下位词对,在wiki数据上跑一遍,扩展pattern集合,人工check,哪些pattern是靠谱的
4)回到步骤2
5) 如果有时间,实现一个简答的基于特征的上下位关系分类方法,把pattern、后缀、共现频率等信息作为特征融合一下,放到一个分类模型(如最大熵)中。

基于深度学习的汉语分词领域移植

周厚全 (08153445)

2018

基于内容的图像检索系统的设计与实现

张宇

多粒度分词演示系统

蒋炜

跨平台跨浏览器数据标注界面设计与实现

陆凯华

AMR句子语义图显示与查询系统

李丹

2017

基于深度学习的多粒度分词方法研究

江心舟

面向小微企业的高可调整性一体化管理系统——Android端研究与实现

黄德朋

2016

中文问答系统中问题分类的研究与实现

龚晨

基于深度学习的序列标注问题研究

夏庆荣

分词标注平台设计与实现

王效静

依存句法标注平台设计与实现

陆芳丽