查看“Ir-2022-spring”的源代码
←
Ir-2022-spring
跳到导航
跳到搜索
因为以下原因,您没有权限编辑本页:
您所请求的操作仅限于该用户组的用户使用:
用户
您可以查看和复制此页面的源代码。
= 信息检索课程设计(Comprehensive Practice on Information Retrieval)Course Resources = Teacher: [http://hlt.suda.edu.cn/~zhli/en.html 李正华] Teach Assistant: 侯洋... 课程交流学习群(qq) 群 号: 见学院通知 2022春季学期1-17周 周一5-8节 理工楼315(21级计科图领班,21级计算机科技) = 课程建议 = * 每个作业,截止时间后,把成绩发给大家,并用ppt给大家讲一下批作业发现的问题,题目分析 = 计算成绩的规则和说明 = *实验作业:70-80分 ** 一系列作业,每个作业10-20分 ** 必须按照规定时间将实验报告+源代码,提交到csteaching * 期末面对面小测验:10分(待定) ** 考察课程相关的基础知识,看看作业是否是自己做的 * 平时成绩:10-20分 ** 不能迟到、早退,特殊情况必须请假,并带辅导员签字的假条; ** 点名时,如果发现名单上没有你的名字,及时提出 = 提交作业说明 = * 网址:[http://csteaching.suda.edu.cn csteaching] * 在规定时间内提交作业,包含两部分 ** 实验报告(word或pdf) *** 认真填写个人信息、实验题目、实验内容等 *** 不要大段粘贴代码,最多可以粘贴核心的一小段代码 *** 写清楚自己的解决思路,尤其是遇到的难点和如何解决 *** 建议可以画流程图或者写伪代码 *** 将程序运行结果截图 ** 附件(.zip压缩包) *** 源代码 *** readme.txt文件:说明如何运行你的程序,需要什么环境,如windows或linux,python版本如python3.5 * 提交前自我检查 ** 是否有包含readme.txt文件解释如何编译执行你的程序。如没有该文件,将减分 ** 是否认真完成实验报告 ** 是否可以按照readme.txt正确编译和运行程序 ** 是否包含别人的代码 ** 期末可能会用软件做自动抄袭检查 * 提交作业命名规则 ** 实验报告(姓名学号.doc或姓名学号.pdf) ** 附件(姓名学号.zip) == 实验报告word模板 == * [http://hlt.suda.edu.cn/~zhli/teach/ir-2019-spring/report.doc 下载] == 信息检索课程介绍 == * [http://hlt.suda.edu.cn/~zhli/teach/ir-2019-spring/ir-introduction-v0.4.pdf PPT下载] = 作业1:分字(C++语言,可以等期中考试提交) = * 作业提交时间截止时间:xx * UFT-8编码格式图片: * 2022春视频: * 数据:[[文件:sentence.txt]] = 作业2:最大匹配分词 = * 作业提交时间截止时间:xx * 课件:前向最大匹配 PDF文件--[[文件:Word-seg-max-match.pdf]];PPT文件--[[文件:Word-seg-max-match.zip]] * 2022春视频: * 数据下载: ** 字典:[[文件:dict.txt]] ** 待分词:[[文件:sentence.txt]] ** 正确答案(人工标注的,你的模型的预测结果要和这个文件进行对比,从而得到P/R/F值):[[文件:answer.txt]]; ** 正向最大匹配分词模型的预测结果(如果你的程序写对了,那么应该和这个结果一模一样):[[文件:out.txt]] <nowiki> *正确实验结果 **正确识别的词数:20263 **识别出的总体个数:20397 **测试集中的总体个数:20454 **正确率:0.99343 **召回率:0.99066 **F值:0.99204 </nowiki> = 作业3:单词计数 = * 作业提交时间截止时间:xx * 课件 [http://hlt.suda.edu.cn/~zhli/teach/ir-2019-spring/word-count.pdf PPT下载] * 2022春视频: * 数据 [http://hlt.suda.edu.cn/~zhli/teach/ir-2019-spring/sample-en.txt txt下载] = 下面的作业待定 = = 作业 8:有监督隐马尔可夫模型HMM:用于词性标注 = * 上课时间:2019.5.14 * 极大似然估计推导 ** 极大似然估计的由来,公式推导见 [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/max-eq.pdf PDF下载] ** HMM模型中极大似然估计的由来,公式推导见 [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/hmm-eq.pdf PDF下载] * 隐马尔科夫模型(HMM) ** Collins教授的课件 [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/collins-tagging.pdf PDF下载],介绍至三元HMM模型最大似然参数估计,未讲Viterbi解码。 ** 李老师的课件 [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/HMM-v2.pptx PPT下载],李老师新增一页PPT [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/zhli-add.ppt PPT下载] ** Viterbi解码的一个动画例子[http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/hmm-zhli.pdf PDF下载] * 数据 ** 数据下载 [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/data.tar.gz data下载] = 作业 7:综合练习:桌面搜索 或 苏大网页搜索 = * 两个作业任选一个,后一个作业更难,分数会相对高一些 * 把之前所有的内容串起来 * 桌面搜索 ** 对整个操作系统所有的文件名建立倒排 ** 用户输入一些关键字,可以返回相关(根据tf-idf排序)的文件 ** 不要求分析文件内容,只看文件名即可。 * 苏大网页搜索 ** 需要爬取所有的苏大网页,从苏大主页开始,根据锚文本和链接递归爬取 ** 正文抽取 ** 建立倒排 ** 支持查询和排序 = 作业 6:网页排序 = * 上课时间:2019.4.23 * 课件 ** 网页排序原理课件 [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/web-page-rank.ppt PPT下载] ** 网页排序实验作业课件 [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/web-page-rank-task.ppt PPT下载] * 数据 ** 数据下载 [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/files-web-page.tar.gz data下载] * 作业提交时间截止时间:2019.5.14上机课之前 = 作业 5:中文多粒度分词标注 = * 上课时间:2019.4.16 * 中文多粒度分词标注系统网址:http://101.132.166.249/anno-sys/index.php?action=index * 多粒度分词标注规范 [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/MWS_guideline.pdf PDF下载] * 多粒度分词介绍以及标注系统使用说明 [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/MWS.pptx PPT下载] * 作业完成时间:2019.4.26上午12:00以前。 *作业完成要求:完成110句的标注以及所有的学习任务。 = 作业 4:倒排索引 = * 2019.3.26 * 课件 ** 倒排索引课件 [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/inverted-index.ppt PPT下载] ** 倒排索引课件(简化版) [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/inverted-index-simplified.ppt PPT下载] ** 倒排索引实验课件 [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/exp-inverted-index.ppt PPT下载] * 数据 ** 数据下载 [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/files.tar.gz data下载] * 作业提交时间截止时间:2019.4.30下课以前 = 作业 3:网页正文抽取 = * 2019.3.26 * 课件 ** [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/web-page-content-extraction.ppt PPT下载] ** [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/web-page-content-extraction.pdf PDF下载] * 数据 **[http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/1.html 1.html] **[http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/2.html 2.html] * 作业提交时间截止时间:2019.4.2
返回至
Ir-2022-spring
。
导航菜单
个人工具
登录
名字空间
页面
讨论
变种
视图
阅读
查看源代码
查看历史
更多
搜索
导航
首页
新闻
成员介绍
研究组
科研项目
发表论文
在线演示
工具
链入页面
相关更改
特殊页面
页面信息