“Ir-2019-spring”的版本间的差异

来自SUDA-HLT
跳到导航 跳到搜索
 
(未显示3个用户的65个中间版本)
第1行: 第1行:
== 信息检索课程设计(Information Retrieval)Course Resources ==
+
= 信息检索课程设计(Information Retrieval)Course Resources =
  
 
Teacher: [http://hlt.suda.edu.cn/~zhli/en.html 李正华]
 
Teacher: [http://hlt.suda.edu.cn/~zhli/en.html 李正华]
  
 
Teach Assistant:  
 
Teach Assistant:  
 +
 +
课程交流学习群(qq)---- 群名称: ir-2019-spring 群 号: 697444164
  
 
2019春季学期
 
2019春季学期
 +
周二5-8节
 +
理工楼247和238
 +
 +
= 课程建议 =
 +
* 每个作业,截止时间后,把成绩发给大家,并用ppt给大家讲一下批作业发现的问题,题目分析
 +
 +
= 计算成绩的规则和说明 =
 +
*实验作业:70-80分
 +
** 一系列作业,每个作业10-20分
 +
** 必须按照规定时间将实验报告+源代码,提交到csteaching
 +
 +
* 期末面对面小测验:10分(待定)
 +
** 考察课程相关的基础知识,看看作业是否是自己做的
 +
 +
* 平时成绩:10-20分
 +
** 不能迟到、早退,特殊情况必须请假,并带辅导员签字的假条;
 +
** 点名时,如果发现名单上没有你的名字,及时提出
 +
 +
= 提交作业说明 =
 +
* 网址:[http://csteaching.suda.edu.cn csteaching]
 +
* 在规定时间内提交作业,包含两部分
 +
** 实验报告(word或pdf)
 +
*** 认真填写个人信息、实验题目、实验内容等
 +
*** 不要大段粘贴代码,最多可以粘贴核心的一小段代码
 +
*** 写清楚自己的解决思路,尤其是遇到的难点和如何解决
 +
*** 建议可以画流程图或者写伪代码
 +
*** 将程序运行结果截图
 +
** 附件(.zip压缩包)
 +
*** 源代码
 +
*** readme.txt文件:说明如何运行你的程序,需要什么环境,如windows或linux,python版本如python3.5
 +
* 提交前自我检查
 +
** 是否有包含readme.txt文件解释如何编译执行你的程序。如没有该文件,将减分
 +
** 是否认真完成实验报告
 +
** 是否可以按照readme.txt正确编译和运行程序
 +
** 是否包含别人的代码
 +
** 期末可能会用软件做自动抄袭检查
 +
* 提交作业命名规则
 +
** 实验报告(姓名学号.doc或姓名学号.pdf)
 +
** 附件(姓名学号.zip)
 +
 +
== 实验报告word模板 ==
 +
* [http://hlt.suda.edu.cn/~zhli/teach/ir-2019-spring/report.doc 下载]
 +
 +
== 信息检索课程介绍 ==
 +
* [http://hlt.suda.edu.cn/~zhli/teach/ir-2019-spring/ir-introduction-v0.4.pdf PPT下载]
 +
 +
= 作业 8:有监督隐马尔可夫模型HMM:用于词性标注 =
 +
* 上课时间:2019.5.14
 +
* 极大似然估计推导
 +
** 极大似然估计的由来,公式推导见 [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/max-eq.pdf PDF下载]
 +
**  HMM模型中极大似然估计的由来,公式推导见 [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/hmm-eq.pdf PDF下载]
 +
* 隐马尔科夫模型(HMM) 
 +
** Collins教授的课件 [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/collins-tagging.pdf PDF下载],介绍至三元HMM模型最大似然参数估计,未讲Viterbi解码。
 +
** 李老师的课件 [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/HMM-v2.pptx PPT下载],李老师新增一页PPT [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/zhli-add.ppt PPT下载]
 +
** Viterbi解码的一个动画例子[http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/hmm-zhli.pdf PDF下载]
 +
* 数据
 +
** 数据下载  [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/data.tar.gz data下载]
 +
 +
= 作业 7:综合练习:桌面搜索 或 苏大网页搜索 =
 +
* 两个作业任选一个,后一个作业更难,分数会相对高一些
 +
* 把之前所有的内容串起来
 +
* 桌面搜索
 +
** 对整个操作系统所有的文件名建立倒排
 +
** 用户输入一些关键字,可以返回相关(根据tf-idf排序)的文件
 +
** 不要求分析文件内容,只看文件名即可。
 +
* 苏大网页搜索
 +
** 需要爬取所有的苏大网页,从苏大主页开始,根据锚文本和链接递归爬取
 +
** 正文抽取
 +
** 建立倒排
 +
** 支持查询和排序
 +
 +
= 作业 6:网页排序 =
 +
* 上课时间:2019.4.23
 +
* 课件
 +
** 网页排序原理课件  [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/web-page-rank.ppt PPT下载] 
 +
** 网页排序实验作业课件  [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/web-page-rank-task.ppt PPT下载] 
 +
* 数据
 +
** 数据下载  [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/files-web-page.tar.gz data下载]
 +
* 作业提交时间截止时间:2019.5.14上机课之前
 +
 +
= 作业 5:中文多粒度分词标注 =
 +
* 上课时间:2019.4.16
 +
* 中文多粒度分词标注系统网址:http://101.132.166.249/anno-sys/index.php?action=index
 +
* 多粒度分词标注规范  [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/MWS_guideline.pdf PDF下载] 
 +
* 多粒度分词介绍以及标注系统使用说明  [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/MWS.pptx PPT下载]
 +
* 作业完成时间:2019.4.26上午12:00以前。
 +
*作业完成要求:完成110句的标注以及所有的学习任务。
 +
 +
= 作业 4:倒排索引 =
 +
 +
* 2019.3.26
 +
* 课件
 +
** 倒排索引课件  [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/inverted-index.ppt PPT下载]
 +
** 倒排索引课件(简化版)  [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/inverted-index-simplified.ppt PPT下载] 
 +
** 倒排索引实验课件  [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/exp-inverted-index.ppt PPT下载] 
 +
* 数据
 +
** 数据下载  [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/files.tar.gz data下载]
 +
* 作业提交时间截止时间:2019.4.30下课以前
 +
 +
= 作业 3:网页正文抽取 =
 +
 +
* 2019.3.26
 +
* 课件
 +
** [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/web-page-content-extraction.ppt PPT下载]
 +
** [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/web-page-content-extraction.pdf PDF下载] 
 +
* 数据
 +
**[http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/1.html 1.html]
 +
**[http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/2.html 2.html]
 +
 +
* 作业提交时间截止时间:2019.4.2
 +
 +
= 作业 2:单词计数 =
 +
* 2019.3.12
 +
* 课件 [http://hlt.suda.edu.cn/~zhli/teach/ir-2019-spring/word-count.pdf PPT下载]
 +
* 数据 [http://hlt.suda.edu.cn/~zhli/teach/ir-2019-spring/sample-en.txt txt下载]
 +
* 作业提交时间截止时间:2019.4.2
  
== Course 1(2019.3.5) ==
+
= 作业 1:最大匹配分词 =  
 +
* 2019.3.5
 +
* 2019.3.19上机课前提交
 +
*课件:前向最大匹配 PDF文件--[[文件:Word-seg-max-match.pdf]];PPT文件--[[文件:Word-seg-max-match.zip]]
  
*中文分词:前向最大匹配 [[文件:Word-seg-max-match.pdf]]
+
*数据下载:
 +
**字典:[[文件:dict.txt]]
 +
**待分词:[[文件:sentence.txt]]
 +
**正确答案(人工标注的,你的模型的预测结果要和这个文件进行对比,从而得到P/R/F值):[[文件:answer.txt]];
 +
** 正向最大匹配分词模型的预测结果(如果你的程序写对了,那么应该和这个结果一模一样):[[文件:out.txt]]
  
*数据下载:
+
*正确实验结果
 +
**正确识别的词数:20263
 +
**识别出的总体个数:20397
 +
**测试集中的总体个数:20454
 +
**正确率:0.99343
 +
**召回率:0.99066
 +
**F值:0.99204

2019年7月6日 (六) 04:49的最新版本

信息检索课程设计(Information Retrieval)Course Resources

Teacher: 李正华

Teach Assistant:

课程交流学习群(qq)---- 群名称: ir-2019-spring 群 号: 697444164

2019春季学期 周二5-8节 理工楼247和238

课程建议

  • 每个作业,截止时间后,把成绩发给大家,并用ppt给大家讲一下批作业发现的问题,题目分析

计算成绩的规则和说明

  • 实验作业:70-80分
    • 一系列作业,每个作业10-20分
    • 必须按照规定时间将实验报告+源代码,提交到csteaching
  • 期末面对面小测验:10分(待定)
    • 考察课程相关的基础知识,看看作业是否是自己做的
  • 平时成绩:10-20分
    • 不能迟到、早退,特殊情况必须请假,并带辅导员签字的假条;
    • 点名时,如果发现名单上没有你的名字,及时提出

提交作业说明

  • 网址:csteaching
  • 在规定时间内提交作业,包含两部分
    • 实验报告(word或pdf)
      • 认真填写个人信息、实验题目、实验内容等
      • 不要大段粘贴代码,最多可以粘贴核心的一小段代码
      • 写清楚自己的解决思路,尤其是遇到的难点和如何解决
      • 建议可以画流程图或者写伪代码
      • 将程序运行结果截图
    • 附件(.zip压缩包)
      • 源代码
      • readme.txt文件:说明如何运行你的程序,需要什么环境,如windows或linux,python版本如python3.5
  • 提交前自我检查
    • 是否有包含readme.txt文件解释如何编译执行你的程序。如没有该文件,将减分
    • 是否认真完成实验报告
    • 是否可以按照readme.txt正确编译和运行程序
    • 是否包含别人的代码
    • 期末可能会用软件做自动抄袭检查
  • 提交作业命名规则
    • 实验报告(姓名学号.doc或姓名学号.pdf)
    • 附件(姓名学号.zip)

实验报告word模板

信息检索课程介绍

作业 8:有监督隐马尔可夫模型HMM:用于词性标注

  • 上课时间:2019.5.14
  • 极大似然估计推导
    • 极大似然估计的由来,公式推导见 PDF下载
    • HMM模型中极大似然估计的由来,公式推导见 PDF下载
  • 隐马尔科夫模型(HMM)
    • Collins教授的课件 PDF下载,介绍至三元HMM模型最大似然参数估计,未讲Viterbi解码。
    • 李老师的课件 PPT下载,李老师新增一页PPT PPT下载
    • Viterbi解码的一个动画例子PDF下载
  • 数据

作业 7:综合练习:桌面搜索 或 苏大网页搜索

  • 两个作业任选一个,后一个作业更难,分数会相对高一些
  • 把之前所有的内容串起来
  • 桌面搜索
    • 对整个操作系统所有的文件名建立倒排
    • 用户输入一些关键字,可以返回相关(根据tf-idf排序)的文件
    • 不要求分析文件内容,只看文件名即可。
  • 苏大网页搜索
    • 需要爬取所有的苏大网页,从苏大主页开始,根据锚文本和链接递归爬取
    • 正文抽取
    • 建立倒排
    • 支持查询和排序

作业 6:网页排序

  • 上课时间:2019.4.23
  • 课件
  • 数据
  • 作业提交时间截止时间:2019.5.14上机课之前

作业 5:中文多粒度分词标注

作业 4:倒排索引

  • 2019.3.26
  • 课件
  • 数据
  • 作业提交时间截止时间:2019.4.30下课以前

作业 3:网页正文抽取

  • 作业提交时间截止时间:2019.4.2

作业 2:单词计数

作业 1:最大匹配分词

  • 数据下载:
    • 字典:文件:Dict.txt
    • 待分词:文件:Sentence.txt
    • 正确答案(人工标注的,你的模型的预测结果要和这个文件进行对比,从而得到P/R/F值):文件:Answer.txt
    • 正向最大匹配分词模型的预测结果(如果你的程序写对了,那么应该和这个结果一模一样):文件:Out.txt
  • 正确实验结果
    • 正确识别的词数:20263
    • 识别出的总体个数:20397
    • 测试集中的总体个数:20454
    • 正确率:0.99343
    • 召回率:0.99066
    • F值:0.99204