2019年4月30日 (二) 08:06的版本

信息检索课程设计（Information Retrieval）Course Resources

Teacher: 李正华

Teach Assistant:

课程交流学习群（qq）---- 群名称: ir-2019-spring 群号: 697444164

2019春季学期周二5-8节理工楼247和238

计算成绩的规则和说明

实验作业:70-80分
- 一系列作业，每个作业10-20分
- 必须按照规定时间将实验报告+源代码，提交到csteaching

期末面对面小测验：10分（待定）
- 考察课程相关的基础知识，看看作业是否是自己做的

平时成绩：10-20分
- 不能迟到、早退，特殊情况必须请假，并带辅导员签字的假条；
- 点名时，如果发现名单上没有你的名字，及时提出

提交作业说明

网址：csteaching
在规定时间内提交作业，包含两部分
- 实验报告（word或pdf）
  - 认真填写个人信息、实验题目、实验内容等
  - 不要大段粘贴代码，最多可以粘贴核心的一小段代码
  - 写清楚自己的解决思路，尤其是遇到的难点和如何解决
  - 建议可以画流程图或者写伪代码
  - 将程序运行结果截图
- 附件（.zip压缩包）
  - 源代码
  - readme.txt文件：说明如何运行你的程序，需要什么环境，如windows或linux，python版本如python3.5
提交前自我检查
- 是否有包含readme.txt文件解释如何编译执行你的程序。如没有该文件，将减分
- 是否认真完成实验报告
- 是否可以按照readme.txt正确编译和运行程序
- 是否包含别人的代码
- 期末可能会用软件做自动抄袭检查
提交作业命名规则
- 实验报告（姓名学号.doc或姓名学号.pdf）
- 附件（姓名学号.zip）

实验报告word模板

下载

信息检索课程介绍

PPT下载

作业 8：有监督隐马尔可夫模型HMM：用于词性标注

course 5 和course 6: [1]

作业 7：综合练习：桌面搜索或苏大网页搜索

两个作业任选一个，后一个作业更难，分数会相对高一些
把之前所有的内容串起来
桌面搜索
- 对整个操作系统所有的文件名建立倒排
- 用户输入一些关键字，可以返回相关（根据tf-idf排序）的文件
- 不要求分析文件内容，只看文件名即可。
苏大网页搜索
- 需要爬取所有的苏大网页，从苏大主页开始，根据锚文本和链接递归爬取
- 正文抽取
- 建立倒排
- 支持查询和排序

作业 6：网页排序

上课时间：2019.4.23
课件
- 网页排序原理课件 PPT下载
- 网页排序实验作业课件 PPT下载
数据
- 数据下载 data下载
作业提交时间截止时间：2019.5.14上机课之前

作业 5：中文多粒度分词标注

上课时间：2019.4.16
中文多粒度分词标注系统网址：http://101.132.166.249/anno-sys/index.php?action=index
多粒度分词标注规范 PDF下载
多粒度分词介绍以及标注系统使用说明 PPT下载
作业完成时间：2019.4.26上午12：00以前。
作业完成要求：完成110句的标注以及所有的学习任务。

作业 4：倒排索引

2019.3.26
课件
- 倒排索引课件 PPT下载
- 倒排索引课件(简化版) PPT下载
- 倒排索引实验课件 PPT下载
数据
- 数据下载 data下载
作业提交时间截止时间：2019.4.30下课以前

作业 3：网页正文抽取

2019.3.26
课件
- PPT下载
- PDF下载
数据
- 1.html
- 2.html

作业提交时间截止时间：2019.4.2

作业 2：单词计数

2019.3.12
课件 PPT下载
数据 txt下载
作业提交时间截止时间：2019.4.2

作业 1：最大匹配分词

2019.3.5
2019.3.19上机课前提交
课件：前向最大匹配 PDF文件--文件:Word-seg-max-match.pdf；PPT文件--文件:Word-seg-max-match.zip

数据下载：
- 字典：文件:Dict.txt
- 待分词：文件:Sentence.txt
- 正确答案：文件:Answer.txt；
- 模型预测结果：文件:Out.txt

正确实验结果
- 正确识别的词数：20263
- 识别出的总体个数：20397
- 测试集中的总体个数：20454
- 正确率：0.99343
- 召回率：0.99066
- F值：0.99204

@@ 第50行： / 第50行： @@
 == 信息检索课程介绍 ==
 * [http://hlt.suda.edu.cn/~zhli/teach/ir-2019-spring/ir-introduction-v0.4.pdf PPT下载]
+= 作业 8：有监督隐马尔可夫模型HMM：用于词性标注 =
+* course 5 和course 6: [http://hlt.suda.edu.cn/~zhli/teach/cip-2015-fall/]
+= 作业 7：综合练习：桌面搜索 或 苏大网页搜索 =
+* 两个作业任选一个，后一个作业更难，分数会相对高一些
+* 把之前所有的内容串起来
+* 桌面搜索
+** 对整个操作系统所有的文件名建立倒排
+** 用户输入一些关键字，可以返回相关（根据tf-idf排序）的文件
+** 不要求分析文件内容，只看文件名即可。
+* 苏大网页搜索
+** 需要爬取所有的苏大网页，从苏大主页开始，根据锚文本和链接递归爬取
+** 正文抽取
+** 建立倒排
+** 支持查询和排序
 = 作业 6：网页排序 =
@@ 第58行： / 第74行： @@
 * 数据
 ** 数据下载   [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/files-web-page.tar.gz data下载]
-* 作业提交时间截止时间：2019.5.7
+* 作业提交时间截止时间：2019.5.14上机课之前
 = 作业 5：中文多粒度分词标注 =

“Ir-2019-spring”的版本间的差异

2019年4月30日 (二) 08:06的版本

目录

信息检索课程设计（Information Retrieval）Course Resources

计算成绩的规则和说明

提交作业说明

实验报告word模板

信息检索课程介绍

作业 8：有监督隐马尔可夫模型HMM：用于词性标注

作业 7：综合练习：桌面搜索或苏大网页搜索

作业 6：网页排序

作业 5：中文多粒度分词标注

作业 4：倒排索引

作业 3：网页正文抽取

作业 2：单词计数

作业 1：最大匹配分词

导航菜单

搜索

“Ir-2019-spring”的版本间的差异

2019年4月30日 (二) 08:06的版本

信息检索课程设计（Information Retrieval）Course Resources

计算成绩的规则和说明

提交作业说明

实验报告word模板

信息检索课程介绍

作业 8：有监督隐马尔可夫模型HMM：用于词性标注

作业 7：综合练习：桌面搜索 或 苏大网页搜索

作业 6：网页排序

作业 5：中文多粒度分词标注

作业 4：倒排索引

作业 3：网页正文抽取

作业 2：单词计数

作业 1：最大匹配分词

导航菜单

搜索

作业 7：综合练习：桌面搜索或苏大网页搜索