2019年7月6日 (六) 04:49的最新版本

信息检索课程设计（Information Retrieval）Course Resources

Teacher: 李正华

Teach Assistant:

课程交流学习群（qq）---- 群名称: ir-2019-spring 群号: 697444164

2019春季学期周二5-8节理工楼247和238

课程建议

每个作业，截止时间后，把成绩发给大家，并用ppt给大家讲一下批作业发现的问题，题目分析

计算成绩的规则和说明

实验作业:70-80分
- 一系列作业，每个作业10-20分
- 必须按照规定时间将实验报告+源代码，提交到csteaching

期末面对面小测验：10分（待定）
- 考察课程相关的基础知识，看看作业是否是自己做的

平时成绩：10-20分
- 不能迟到、早退，特殊情况必须请假，并带辅导员签字的假条；
- 点名时，如果发现名单上没有你的名字，及时提出

提交作业说明

网址：csteaching
在规定时间内提交作业，包含两部分
- 实验报告（word或pdf）
  - 认真填写个人信息、实验题目、实验内容等
  - 不要大段粘贴代码，最多可以粘贴核心的一小段代码
  - 写清楚自己的解决思路，尤其是遇到的难点和如何解决
  - 建议可以画流程图或者写伪代码
  - 将程序运行结果截图
- 附件（.zip压缩包）
  - 源代码
  - readme.txt文件：说明如何运行你的程序，需要什么环境，如windows或linux，python版本如python3.5
提交前自我检查
- 是否有包含readme.txt文件解释如何编译执行你的程序。如没有该文件，将减分
- 是否认真完成实验报告
- 是否可以按照readme.txt正确编译和运行程序
- 是否包含别人的代码
- 期末可能会用软件做自动抄袭检查
提交作业命名规则
- 实验报告（姓名学号.doc或姓名学号.pdf）
- 附件（姓名学号.zip）

实验报告word模板

下载

信息检索课程介绍

PPT下载

作业 8：有监督隐马尔可夫模型HMM：用于词性标注

上课时间：2019.5.14
极大似然估计推导
- 极大似然估计的由来，公式推导见 PDF下载
- HMM模型中极大似然估计的由来，公式推导见 PDF下载
隐马尔科夫模型（HMM）
- Collins教授的课件 PDF下载，介绍至三元HMM模型最大似然参数估计，未讲Viterbi解码。
- 李老师的课件 PPT下载，李老师新增一页PPT PPT下载
- Viterbi解码的一个动画例子PDF下载
数据
- 数据下载 data下载

作业 7：综合练习：桌面搜索或苏大网页搜索

两个作业任选一个，后一个作业更难，分数会相对高一些
把之前所有的内容串起来
桌面搜索
- 对整个操作系统所有的文件名建立倒排
- 用户输入一些关键字，可以返回相关（根据tf-idf排序）的文件
- 不要求分析文件内容，只看文件名即可。
苏大网页搜索
- 需要爬取所有的苏大网页，从苏大主页开始，根据锚文本和链接递归爬取
- 正文抽取
- 建立倒排
- 支持查询和排序

作业 6：网页排序

上课时间：2019.4.23
课件
- 网页排序原理课件 PPT下载
- 网页排序实验作业课件 PPT下载
数据
- 数据下载 data下载
作业提交时间截止时间：2019.5.14上机课之前

作业 5：中文多粒度分词标注

上课时间：2019.4.16
中文多粒度分词标注系统网址：http://101.132.166.249/anno-sys/index.php?action=index
多粒度分词标注规范 PDF下载
多粒度分词介绍以及标注系统使用说明 PPT下载
作业完成时间：2019.4.26上午12：00以前。
作业完成要求：完成110句的标注以及所有的学习任务。

作业 4：倒排索引

2019.3.26
课件
- 倒排索引课件 PPT下载
- 倒排索引课件(简化版) PPT下载
- 倒排索引实验课件 PPT下载
数据
- 数据下载 data下载
作业提交时间截止时间：2019.4.30下课以前

作业 3：网页正文抽取

2019.3.26
课件
- PPT下载
- PDF下载
数据
- 1.html
- 2.html

作业提交时间截止时间：2019.4.2

作业 2：单词计数

2019.3.12
课件 PPT下载
数据 txt下载
作业提交时间截止时间：2019.4.2

作业 1：最大匹配分词

2019.3.5
2019.3.19上机课前提交
课件：前向最大匹配 PDF文件--文件:Word-seg-max-match.pdf；PPT文件--文件:Word-seg-max-match.zip

数据下载：
- 字典：文件:Dict.txt
- 待分词：文件:Sentence.txt
- 正确答案（人工标注的，你的模型的预测结果要和这个文件进行对比，从而得到P/R/F值）：文件:Answer.txt；
- 正向最大匹配分词模型的预测结果（如果你的程序写对了，那么应该和这个结果一模一样）：文件:Out.txt

正确实验结果
- 正确识别的词数：20263
- 识别出的总体个数：20397
- 测试集中的总体个数：20454
- 正确率：0.99343
- 召回率：0.99066
- F值：0.99204

@@ 第1行： / 第1行： @@
-== 信息检索课程设计（Information Retrieval）Course Resources ==
+= 信息检索课程设计（Information Retrieval）Course Resources =
 Teacher: [http://hlt.suda.edu.cn/~zhli/en.html 李正华]
 Teach Assistant:
+课程交流学习群（qq）---- 群名称: ir-2019-spring 群 号: 697444164
 春季学期
+周二5-8节
+理工楼247和238
+= 课程建议 =
+* 每个作业，截止时间后，把成绩发给大家，并用ppt给大家讲一下批作业发现的问题，题目分析
+= 计算成绩的规则和说明 =
+*实验作业:70-80分
+** 一系列作业，每个作业10-20分
+** 必须按照规定时间将实验报告+源代码，提交到csteaching
+* 期末面对面小测验：10分（待定）
+** 考察课程相关的基础知识，看看作业是否是自己做的
+* 平时成绩：10-20分
+** 不能迟到、早退，特殊情况必须请假，并带辅导员签字的假条；
+** 点名时，如果发现名单上没有你的名字，及时提出
+= 提交作业说明 =
+* 网址：[http://csteaching.suda.edu.cn csteaching]
+* 在规定时间内提交作业，包含两部分
+** 实验报告（word或pdf）
+*** 认真填写个人信息、实验题目、实验内容等
+*** 不要大段粘贴代码，最多可以粘贴核心的一小段代码
+*** 写清楚自己的解决思路，尤其是遇到的难点和如何解决
+*** 建议可以画流程图或者写伪代码
+*** 将程序运行结果截图
+** 附件（.zip压缩包）
+*** 源代码
+*** readme.txt文件：说明如何运行你的程序，需要什么环境，如windows或linux，python版本如python3.5
+* 提交前自我检查
+** 是否有包含readme.txt文件解释如何编译执行你的程序。如没有该文件，将减分
+** 是否认真完成实验报告
+** 是否可以按照readme.txt正确编译和运行程序
+** 是否包含别人的代码
+** 期末可能会用软件做自动抄袭检查
+* 提交作业命名规则
+** 实验报告（姓名学号.doc或姓名学号.pdf）
+** 附件（姓名学号.zip）
+== 实验报告word模板 ==
+* [http://hlt.suda.edu.cn/~zhli/teach/ir-2019-spring/report.doc 下载]
+== 信息检索课程介绍 ==
+* [http://hlt.suda.edu.cn/~zhli/teach/ir-2019-spring/ir-introduction-v0.4.pdf PPT下载]
+= 作业 8：有监督隐马尔可夫模型HMM：用于词性标注 =
+* 上课时间：2019.5.14
+* 极大似然估计推导
+** 极大似然估计的由来，公式推导见 [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/max-eq.pdf PDF下载]
+**  HMM模型中极大似然估计的由来，公式推导见 [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/hmm-eq.pdf PDF下载]
+* 隐马尔科夫模型（HMM）
+** Collins教授的课件 [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/collins-tagging.pdf PDF下载]，介绍至三元HMM模型最大似然参数估计，未讲Viterbi解码。
+** 李老师的课件 [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/HMM-v2.pptx PPT下载]，李老师新增一页PPT [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/zhli-add.ppt PPT下载]
+** Viterbi解码的一个动画例子[http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/hmm-zhli.pdf PDF下载]
+* 数据
+** 数据下载   [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/data.tar.gz data下载]
+= 作业 7：综合练习：桌面搜索 或 苏大网页搜索 =
+* 两个作业任选一个，后一个作业更难，分数会相对高一些
+* 把之前所有的内容串起来
+* 桌面搜索
+** 对整个操作系统所有的文件名建立倒排
+** 用户输入一些关键字，可以返回相关（根据tf-idf排序）的文件
+** 不要求分析文件内容，只看文件名即可。
+* 苏大网页搜索
+** 需要爬取所有的苏大网页，从苏大主页开始，根据锚文本和链接递归爬取
+** 正文抽取
+** 建立倒排
+** 支持查询和排序
+= 作业 6：网页排序 =
+* 上课时间：2019.4.23
+* 课件
+** 网页排序原理课件  [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/web-page-rank.ppt PPT下载]
+** 网页排序实验作业课件  [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/web-page-rank-task.ppt PPT下载]
+* 数据
+** 数据下载   [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/files-web-page.tar.gz data下载]
+* 作业提交时间截止时间：2019.5.14上机课之前
+= 作业 5：中文多粒度分词标注 =
+* 上课时间：2019.4.16
+* 中文多粒度分词标注系统网址：http://101.132.166.249/anno-sys/index.php?action=index
+* 多粒度分词标注规范  [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/MWS_guideline.pdf PDF下载]
+* 多粒度分词介绍以及标注系统使用说明  [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/MWS.pptx PPT下载]
+* 作业完成时间：2019.4.26上午12：00以前。
+*作业完成要求：完成110句的标注以及所有的学习任务。
+= 作业 4：倒排索引 =
+* 2019.3.26
+* 课件
+** 倒排索引课件  [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/inverted-index.ppt PPT下载]
+** 倒排索引课件(简化版)   [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/inverted-index-simplified.ppt PPT下载]
+** 倒排索引实验课件  [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/exp-inverted-index.ppt PPT下载]
+* 数据
+** 数据下载   [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/files.tar.gz data下载]
+* 作业提交时间截止时间：2019.4.30下课以前
+= 作业 3：网页正文抽取 =
+* 2019.3.26
+* 课件
+** [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/web-page-content-extraction.ppt PPT下载]
+** [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/web-page-content-extraction.pdf PDF下载]
+* 数据
+**[http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/1.html 1.html]
+**[http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/2.html 2.html]
+* 作业提交时间截止时间：2019.4.2
+= 作业 2：单词计数 =
+* 2019.3.12
+* 课件 [http://hlt.suda.edu.cn/~zhli/teach/ir-2019-spring/word-count.pdf PPT下载]
+* 数据 [http://hlt.suda.edu.cn/~zhli/teach/ir-2019-spring/sample-en.txt txt下载]
+* 作业提交时间截止时间：2019.4.2
-== Course 1(2019.3.5) ==
+= 作业 1：最大匹配分词 =
+* 2019.3.5
+* 2019.3.19上机课前提交
+*课件：前向最大匹配 PDF文件--[[文件:Word-seg-max-match.pdf]]；PPT文件--[[文件:Word-seg-max-match.zip]]
-*中文分词：前向最大匹配 [[文件:Word-seg-max-match.pdf]]
+*数据下载：
+**字典：[[文件:dict.txt]]
+**待分词：[[文件:sentence.txt]]
+**正确答案（人工标注的，你的模型的预测结果要和这个文件进行对比，从而得到P/R/F值）：[[文件:answer.txt]]；
+** 正向最大匹配分词模型的预测结果（如果你的程序写对了，那么应该和这个结果一模一样）：[[文件:out.txt]]
-*数据下载:
+*正确实验结果
+**正确识别的词数：20263
+**识别出的总体个数：20397
+**测试集中的总体个数：20454
+**正确率：0.99343
+**召回率：0.99066
+**F值：0.99204

“Ir-2019-spring”的版本间的差异

2019年7月6日 (六) 04:49的最新版本

目录

信息检索课程设计（Information Retrieval）Course Resources

课程建议

计算成绩的规则和说明

提交作业说明

实验报告word模板

信息检索课程介绍

作业 8：有监督隐马尔可夫模型HMM：用于词性标注

作业 7：综合练习：桌面搜索或苏大网页搜索

作业 6：网页排序

作业 5：中文多粒度分词标注

作业 4：倒排索引

作业 3：网页正文抽取

作业 2：单词计数

作业 1：最大匹配分词

导航菜单

搜索

“Ir-2019-spring”的版本间的差异

2019年7月6日 (六) 04:49的最新版本

信息检索课程设计（Information Retrieval）Course Resources

课程建议

计算成绩的规则和说明

提交作业说明

实验报告word模板

信息检索课程介绍

作业 8：有监督隐马尔可夫模型HMM：用于词性标注

作业 7：综合练习：桌面搜索 或 苏大网页搜索

作业 6：网页排序

作业 5：中文多粒度分词标注

作业 4：倒排索引

作业 3：网页正文抽取

作业 2：单词计数

作业 1：最大匹配分词

导航菜单

搜索

作业 7：综合练习：桌面搜索或苏大网页搜索