Ir-2022-spring
信息检索课程设计(Comprehensive Practice on Information Retrieval)Course Resources
Teacher: 李正华
Teach Assistant: 侯洋...
课程交流学习群(qq) 群 号: 见学院通知
2022春季学期1-17周 周一5-8节 理工楼315(21级计科图领班,21级计算机科技)
课程建议
- 每个作业,截止时间后,把成绩发给大家,并用ppt给大家讲一下批作业发现的问题,题目分析
计算成绩的规则和说明
- 实验作业:70-80分
- 一系列作业,每个作业10-20分
- 必须按照规定时间将实验报告+源代码,提交到csteaching
- 期末面对面小测验:10分(待定)
- 考察课程相关的基础知识,看看作业是否是自己做的
- 平时成绩:10-20分
- 不能迟到、早退,特殊情况必须请假,并带辅导员签字的假条;
- 点名时,如果发现名单上没有你的名字,及时提出
提交作业说明
- 网址:csteaching
- 在规定时间内提交作业,包含两部分
- 实验报告(word或pdf)
- 认真填写个人信息、实验题目、实验内容等
- 不要大段粘贴代码,最多可以粘贴核心的一小段代码
- 写清楚自己的解决思路,尤其是遇到的难点和如何解决
- 建议可以画流程图或者写伪代码
- 将程序运行结果截图
- 附件(.zip压缩包)
- 源代码
- readme.txt文件:说明如何运行你的程序,需要什么环境,如windows或linux,python版本如python3.5
- 实验报告(word或pdf)
- 提交前自我检查
- 是否有包含readme.txt文件解释如何编译执行你的程序。如没有该文件,将减分
- 是否认真完成实验报告
- 是否可以按照readme.txt正确编译和运行程序
- 是否包含别人的代码
- 期末可能会用软件做自动抄袭检查
- 提交作业命名规则
- 实验报告(姓名学号.doc或姓名学号.pdf)
- 附件(姓名学号.zip)
实验报告word模板
具体课程(含作业)
信息检索课程介绍
- PPT下载
- 2022春视频:
- 低画质:课程介绍
- 高画质:课程介绍-part1 课程介绍-part2
作业1:分字(C++语言)
- 作业提交时间截止时间:第10周
- 2022春视频:
- 数据:文件:Sentence.txt
- UFT-8编码规则:
1字节 0xxxxxxx 2字节 110xxxxx 10xxxxxx 3字节 1110xxxx 10xxxxxx 10xxxxxx 4字节 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx 5字节 111110xx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 6字节 1111110x 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx
作业2:单词计数
作业3:最大匹配分词
- 作业提交时间截止时间:第4周周三前
- 课件:前向最大匹配 PDF文件--文件:Word-seg-max-match.pdf;PPT文件--文件:Word-seg-max-match.zip
- 2022春视频:
- 数据下载:
- 字典:文件:Dict.txt
- 待分词:文件:Sentence.txt
- 正确答案(人工标注的,你的模型的预测结果要和这个文件进行对比,从而得到P/R/F值):文件:Answer.txt;
- 正向最大匹配分词模型的预测结果(如果你的程序写对了,那么应该和这个结果一模一样):文件:Out.txt
*正确实验结果 **正确识别的词数:20263 **识别出的总体个数:20397 **测试集中的总体个数:20454 **正确率:0.99343 **召回率:0.99066 **F值:0.99204
作业 4:网页正文抽取
- 上课日期:2022.2.28
- 作业提交时间截止时间:待定
- 课件
- 数据
- 1.html和2.html 文件:ir-2022-spring-example-html.zip
- 1000个html 文件:ir-2022-spring-all-html.zip
下面的作业待定
作业 8:有监督隐马尔可夫模型HMM:用于词性标注
- 上课时间:2019.5.14
- 极大似然估计推导
- 隐马尔科夫模型(HMM)
- 数据
- 数据下载 data下载
作业 7:综合练习:桌面搜索 或 苏大网页搜索
- 两个作业任选一个,后一个作业更难,分数会相对高一些
- 把之前所有的内容串起来
- 桌面搜索
- 对整个操作系统所有的文件名建立倒排
- 用户输入一些关键字,可以返回相关(根据tf-idf排序)的文件
- 不要求分析文件内容,只看文件名即可。
- 苏大网页搜索
- 需要爬取所有的苏大网页,从苏大主页开始,根据锚文本和链接递归爬取
- 正文抽取
- 建立倒排
- 支持查询和排序
作业 6:网页排序
作业 5:中文多粒度分词标注
- 上课时间:2019.4.16
- 中文多粒度分词标注系统网址:http://101.132.166.249/anno-sys/index.php?action=index
- 多粒度分词标注规范 PDF下载
- 多粒度分词介绍以及标注系统使用说明 PPT下载
- 作业完成时间:2019.4.26上午12:00以前。
- 作业完成要求:完成110句的标注以及所有的学习任务。
作业 4:倒排索引
作业 3:网页正文抽取
- 作业提交时间截止时间:2019.4.2