“Do-good-research-write-good-paper”的版本间的差异
| (未显示同一用户的8个中间版本) | |||
| 第50行: | 第50行: | ||
最高境界:用最简单的话、合适的例子和图、简洁的表达,让读者准确理解。千万不要故弄玄虚,模棱两可。 | 最高境界:用最简单的话、合适的例子和图、简洁的表达,让读者准确理解。千万不要故弄玄虚,模棱两可。 | ||
| + | |||
| + | 格式的统一,能够体现出作者是否用心。 | ||
== 中英文混合 == | == 中英文混合 == | ||
| 第74行: | 第76行: | ||
where... | where... | ||
其中,... | 其中,... | ||
| + | |||
| + | == 会议论文扩展期刊论文 == | ||
| + | |||
| + | 有些期刊接受会议论文的扩展版,有些不接受。 | ||
| + | <nowiki>Springer的一个说明,应该是共识: | ||
| + | |||
| + | >> May authors submit an extended version of their proceedings paper to a journal? | ||
| + | |||
| + | A: Authors wishing to publish an extended version of their proceedings paper as a journal article must adhere to the following principles: a) the extended version has to include at least 30% new material; b) it has to cite the original publication and c) it must include an explicit statement about the increment (e.g., new results, better description of materials, etc.). </nowiki> | ||
== 参考文献 == | == 参考文献 == | ||
| 第90行: | 第101行: | ||
而有的地方写:Li等 (2017) | 而有的地方写:Li等 (2017) | ||
如果没有特殊格式要求,建议可以用英文写法,比较清晰。 | 如果没有特殊格式要求,建议可以用英文写法,比较清晰。 | ||
| + | |||
| 第102行: | 第114行: | ||
* 个例:如果有论文实在找不到页码,那么就不写。 | * 个例:如果有论文实在找不到页码,那么就不写。 | ||
| + | = 学位论文写作的一些问题和注意事项 = | ||
| + | |||
| + | 内部wiki:How-to-write-papers页面有不少东西 | ||
| + | |||
| + | * 2025.3 | ||
| + | |||
| + | 博士硕士学位论文: | ||
| + | * 章题目要体现出重要的东西:核心贡献 任务区别 各章联系 | ||
| + | * 如果要跟老师讨论,提前给几个候选,体现在研究内容的框架图中,并在文字部分自己分析下优缺点 | ||
| + | |||
| + | |||
| + | |||
| + | * 2023.5.18 | ||
| + | <nowiki> | ||
| + | 硕士学位论文: 大论文不是小论文的累加。如果小论文使用的数据集不同,大论文中应该考虑在相同数据集上做一些对比实验,从而让整个学位论文更像一个整体。 </nowiki> | ||
| + | |||
| + | * 2022.2.25 | ||
| + | <nowiki> | ||
| + | 研究现状不能太单薄 | ||
| + | |||
| + | 参考文献注意事项(参考文献能看出作者是否认真) | ||
| + | 1)格式统一 | ||
| + | 2)Arxiv论文如果有正式发表论文,要用正式发表论文的信息 | ||
| + | 3)要适当有一些中文论文 </nowiki> | ||
| + | |||
| + | * 参加学院硕士二辩感想(2021.8.6) | ||
| + | <nowiki> | ||
| + | * 硕士论文外审专家、答辩老师主要关注的方面 | ||
| + | 排版是否规范、格式是否统一 | ||
| + | 解释公式时的“其中”,不要分段,所以没有缩进; | ||
| + | caption在图/表的上面还是下面;图表公式的编号:2-3 3-4; | ||
| + | 参考文献格式统一,如英文题目中首字母大小写、作者名和姓的顺序、要把作者给全,不要et al; | ||
| + | 参考文献引用的格式,[32]是上标还是正常字体等 | ||
| + | 文字是否清晰通顺(明显的语法错误、错别字都是大忌) | ||
| + | 章节布局是否合理 | ||
| + | 章节的名字很重要,要斟酌和凝练。最忌讳的是:某一章的标题和硕士论文的名字基本相同;两章的标题非常相似,没有区分度 | ||
| + | 逻辑清楚 | ||
| + | 逻辑是最重要的,有的硕士论文,看完一段话,不之所云。 | ||
| + | 最常见的逻辑:总分总(先给big picture,然后逐一讲解,最后再完整总结) | ||
| + | 论文的贡献要讲清楚,通过摘要、章节题目、每一章总结等,反复强调。做到用很短的话可以讲出来,长一点的话也可以讲出来。 | ||
| + | * 早点动笔写硕士论文(LAGroup同学:研三第一学期12月写好初稿;第二学期3月送外审;12月写不好初稿,我就不看了) | ||
| + | 大部分同学写东西的能力是很欠缺的,早点写对于提高质量很有帮助。早点成稿,改2-3遍,比仓促写好直接外审,质量会高很多。 | ||
| + | </nowiki> | ||
= 写给同学们的一些话(待整理) = | = 写给同学们的一些话(待整理) = | ||
| 第119行: | 第174行: | ||
** 实验记录中这么记录,迭代次数iter=76/88(表示一共评价了88次,目前最好的评价次数是76);注意train上的loss/accuracy也要想办法输出出来,看一下train上的收敛情况。如果实验已结束或杀死,那么也标记一下:[结束/杀死] @17硕-章波 @17硕-江心舟 | ** 实验记录中这么记录,迭代次数iter=76/88(表示一共评价了88次,目前最好的评价次数是76);注意train上的loss/accuracy也要想办法输出出来,看一下train上的收敛情况。如果实验已结束或杀死,那么也标记一下:[结束/杀死] @17硕-章波 @17硕-江心舟 | ||
** 迭代一次(两次评价的间隔)的时间,也要记录一下。并写清楚和速度相关的设置,如CPU线程数,batch大小,隔多少batch评价一次等 | ** 迭代一次(两次评价的间隔)的时间,也要记录一下。并写清楚和速度相关的设置,如CPU线程数,batch大小,隔多少batch评价一次等 | ||
| + | |||
| + | == 科研诚信 == | ||
| + | 不抄袭 | ||
| + | 不一稿多投 | ||
| + | 实验绝不可刻意作假。我们组做的东西都要见得了光,别人把咱们的代码和数据拿过去,一定可以重现出来。 | ||
| + | 搞清楚dev/test集合的作用,坚决不可以用test挑选模型。某些特殊情况下,比如刚刚接触一个数据,可以输出test的结果,但是不能汇报test上最好的结果。而是根据dev上最好的结果选择模型,然后汇报对应的test上的结果。 | ||
| + | '''充分尊重前人工作,写论文时诚实地定位自己工作的贡献。这样学术圈的工作脉络才会越来越清楚,学术氛围会越来越干净。''' | ||
2025年4月22日 (二) 04:06的最新版本
前言
谁都可能犯错误,无意犯错不可怕,最重要是总结教训,不再犯。我也犯过各种各样的错误。
最怕的是故意犯错、作假。一步错,步步错,很难回头。
这个网页的目的是帮助同学们少无意犯错。做扎实的、正确的研究。另外,也会总结一些写论文的东西。
一些基本概念
开发集和测试集
最理想的情况下,和参加评测的情况一致,真正的测试集一直看不到,所有的性能指标都一直基于dev数据获取,从而评价模型、方法和参数的优劣。直到最终比较所提方法(超参数确定)时,才拿测试集跑出结果。
也有人为了方便,在输出dev结果的同时,将测试集结果也做出来。但是一定要保证在dev上选择超参数和方法。但是总是有诱惑的。
dev和test有时候也会出现不一致的情况,有的时候可能差距很大,差异很明显。一个方法在dev上比另一个方法好很多,但在test上比另一个方法则差很多。
详细的结果分析(包括定性分析)应该是dev还是在test上做?好像没有规定?
n折(n-fold)交叉验证
错误实验方法
测试集上挑选参数和模型
汇报测试集上的最好结果和别人比较
故意降低baseline的性能
只针对自己所提的方法调参,而不对baseline进行调参
修改评价指标,和别人论文结果在不同的评价指标上比较
有的时候修改评价指标根本不是必须的,只会增加未来其他研究者做实验的复杂性。
故意忽略简单有效的、经典的baseline
论文
逻辑、简洁
逻辑是最重要的。段落之间,句子之间。
词语顺序的拿捏
用词的拿捏
最高境界:用最简单的话、合适的例子和图、简洁的表达,让读者准确理解。千万不要故弄玄虚,模棱两可。
格式的统一,能够体现出作者是否用心。
中英文混合
英文符号之间的空格要注意一定要有:
B, E, M, S # 英文逗号和后面的英文字符需要有空格 Finance(Fin),Medicine(Med),Literature(Lit),Computer(Com) #英文圆括号(和前面的英文字符需要有空格
Latex英文文章插入中文
- \usepackage{xeCJK}
- 有可能会改变英文字体和行间距,那么后面插入:
- \setmainfont{Times New Roman} # 重新设置英文字体
- \setCJKmainfont{KaiTi} # 设置中文字体
数学公式
公式里的每一个符号在第一次出现时都应该明确解释说明,以增强可读性。
正文和公式中符号统一:黑体、斜体、大小写,不要出现中文的括号等
数学符号的使用要尽量规范,易懂
对上面公式进行解释不要分段(没有缩进、indent):
where... 其中,...
会议论文扩展期刊论文
有些期刊接受会议论文的扩展版,有些不接受。
Springer的一个说明,应该是共识: >> May authors submit an extended version of their proceedings paper to a journal? A: Authors wishing to publish an extended version of their proceedings paper as a journal article must adhere to the following principles: a) the extended version has to include at least 30% new material; b) it has to cite the original publication and c) it must include an explicit statement about the increment (e.g., new results, better description of materials, etc.).
参考文献
参考文献格式统一:英文期刊、中文期刊、会议论文集(会议名称是否简写);信息完整;页码尽可能有
参考文献在正文中引用的几种方法:
Li et al. (2017) propose (Li et al., 2017) Li and Wang (2017) Li (2017) 例: 有学者说这个人是坏蛋(Li et al., 2015[2]; Zhang and Fu, 2016[3])。Li et al. (2015) [2]和Zhang and Fu (2016) [3]说这个人是坏蛋。
参考文件在正文中引用格式要统一,尤其是中文论文中:
不要有的写:Li等人 (2017) 而有的地方写:Li等 (2017) 如果没有特殊格式要求,建议可以用英文写法,比较清晰。
夏庆荣
英文reference 格式的要求: 样例:Cai, J.; He, S.; Li, Z.; and Zhao, H. 2018. A full end-to-end semantic role labeler, syntax-agnostic over syntax-aware? In Proceedings of COLING, 2753–2765.
- 统一:如果引用的会议名称是简写,那么其他的所有引用就都要求简写;如果是全写,那么其他全部都要简写。
- 会议论文的年份,页码要全。
- 期刊论文,如果不是很知名的期刊,可以写全称。
- 期刊论文的卷号,页码要全。
- 个例:如果有论文实在找不到页码,那么就不写。
学位论文写作的一些问题和注意事项
内部wiki:How-to-write-papers页面有不少东西
- 2025.3
博士硕士学位论文:
- 章题目要体现出重要的东西:核心贡献 任务区别 各章联系
- 如果要跟老师讨论,提前给几个候选,体现在研究内容的框架图中,并在文字部分自己分析下优缺点
- 2023.5.18
硕士学位论文: 大论文不是小论文的累加。如果小论文使用的数据集不同,大论文中应该考虑在相同数据集上做一些对比实验,从而让整个学位论文更像一个整体。
- 2022.2.25
研究现状不能太单薄 参考文献注意事项(参考文献能看出作者是否认真) 1)格式统一 2)Arxiv论文如果有正式发表论文,要用正式发表论文的信息 3)要适当有一些中文论文
- 参加学院硕士二辩感想(2021.8.6)
* 硕士论文外审专家、答辩老师主要关注的方面
排版是否规范、格式是否统一
解释公式时的“其中”,不要分段,所以没有缩进;
caption在图/表的上面还是下面;图表公式的编号:2-3 3-4;
参考文献格式统一,如英文题目中首字母大小写、作者名和姓的顺序、要把作者给全,不要et al;
参考文献引用的格式,[32]是上标还是正常字体等
文字是否清晰通顺(明显的语法错误、错别字都是大忌)
章节布局是否合理
章节的名字很重要,要斟酌和凝练。最忌讳的是:某一章的标题和硕士论文的名字基本相同;两章的标题非常相似,没有区分度
逻辑清楚
逻辑是最重要的,有的硕士论文,看完一段话,不之所云。
最常见的逻辑:总分总(先给big picture,然后逐一讲解,最后再完整总结)
论文的贡献要讲清楚,通过摘要、章节题目、每一章总结等,反复强调。做到用很短的话可以讲出来,长一点的话也可以讲出来。
* 早点动笔写硕士论文(LAGroup同学:研三第一学期12月写好初稿;第二学期3月送外审;12月写不好初稿,我就不看了)
大部分同学写东西的能力是很欠缺的,早点写对于提高质量很有帮助。早点成稿,改2-3遍,比仓促写好直接外审,质量会高很多。
写给同学们的一些话(待整理)
如何用简单的方法验证程序的正确性
- 如果发现同学故意伪造、修改实验数据,立刻请出课题组,换导师!即使是无意为之,也会根据严重程度,做出最严厉的惩罚!所以请同学们严谨的做科研,如果有问题拿不准,必须和老师讨论。
- 写程序的几个步骤:写完;调试,编译运行通过;验证正确性;必要的优化
- 其中验证正确性,最重要,需要动脑筋
- 训练过程中输出train/dev/test loss,train/dev/test性能(准确率/PRF),是一个肉眼判断、初步验证程序正确性的好办法。一般来说,train loss应该逐渐下降;train性能应该慢慢接近100%
- mini-batch算法的推荐实现
- 每次迭代用完所有的训练实例,迭代前随机打乱所有实例(根据自己的问题和方法不同,可以有:句子级别实例、词语级别实例、shift-reduce方法中状态级别实例等)
- 配置文件设置隔多少个batch在dev上进行测试;如果在dev上得到了一个最新的最好结果,那么在test上也输出结果(目的:1避免实验完成还需要再做一次test;2可以尽快了解dev和test的区别。其实严格来讲不应该在test做任何测试。)
- 假设dev数据集一共N个句子,那么考虑每用掉~10N个训练句子,就跑一次评价。根据这个来设置隔多少batch进行一次评价(测试),可以凑个整
- 如果连续50(或100等,根据自己的数据情况设置)个测试,dev上的性能没有提高,则停止训练
- 如果超过最大迭代次数,也停止训练
- 实验记录中这么记录,迭代次数iter=76/88(表示一共评价了88次,目前最好的评价次数是76);注意train上的loss/accuracy也要想办法输出出来,看一下train上的收敛情况。如果实验已结束或杀死,那么也标记一下:[结束/杀死] @17硕-章波 @17硕-江心舟
- 迭代一次(两次评价的间隔)的时间,也要记录一下。并写清楚和速度相关的设置,如CPU线程数,batch大小,隔多少batch评价一次等
科研诚信
不抄袭 不一稿多投 实验绝不可刻意作假。我们组做的东西都要见得了光,别人把咱们的代码和数据拿过去,一定可以重现出来。 搞清楚dev/test集合的作用,坚决不可以用test挑选模型。某些特殊情况下,比如刚刚接触一个数据,可以输出test的结果,但是不能汇报test上最好的结果。而是根据dev上最好的结果选择模型,然后汇报对应的test上的结果。 充分尊重前人工作,写论文时诚实地定位自己工作的贡献。这样学术圈的工作脉络才会越来越清楚,学术氛围会越来越干净。