<?xml version="1.0"?>
<feed xmlns="http://www.w3.org/2005/Atom" xml:lang="zh-Hans-CN">
	<id>http://hlt.suda.edu.cn/api.php?action=feedcontributions&amp;feedformat=atom&amp;user=Liying</id>
	<title>SUDA-HLT - 用户贡献 [zh-cn]</title>
	<link rel="self" type="application/atom+xml" href="http://hlt.suda.edu.cn/api.php?action=feedcontributions&amp;feedformat=atom&amp;user=Liying"/>
	<link rel="alternate" type="text/html" href="http://hlt.suda.edu.cn/index.php/%E7%89%B9%E6%AE%8A:%E7%94%A8%E6%88%B7%E8%B4%A1%E7%8C%AE/Liying"/>
	<updated>2026-06-13T06:40:08Z</updated>
	<subtitle>用户贡献</subtitle>
	<generator>MediaWiki 1.35.2</generator>
	<entry>
		<id>http://hlt.suda.edu.cn/index.php?title=Papers&amp;diff=1722</id>
		<title>Papers</title>
		<link rel="alternate" type="text/html" href="http://hlt.suda.edu.cn/index.php?title=Papers&amp;diff=1722"/>
		<updated>2019-11-26T03:27:18Z</updated>

		<summary type="html">&lt;p&gt;Liying：/* 最新录用 */&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;罗列文章包括：&lt;br /&gt;
* ACL EMNLP IJCAI AAAI COLING IJCNLP&lt;br /&gt;
* CCF-A/B Journal/Conference&lt;br /&gt;
* SCI Journal&lt;br /&gt;
&lt;br /&gt;
== [http://hlt.suda.edu.cn/index.php/Papers-details 论文摘要等信息] ==&lt;br /&gt;
&lt;br /&gt;
== 最新录用 ==&lt;br /&gt;
* Yue Zhang, Wei Jiang, Qingrong Xia, Junjie Cao, Rui Wang, Zhenghua Li, and Min Zhang. 2019. SUDA-Alibaba at MRP 2019: Graph-Based Models with BERT. Proceedings of the 20th SIGNLL Conference on Computational Natural Language Learning (CoNLL-2019) shared task, pp. 149-157. Hong Kong, China, 3-7 Nov. 2019[http://hlt.suda.edu.cn/~zhli/papers/zhangyue_conll19_semantic.pdf PDF](资助信息: )&lt;br /&gt;
*Xue Peng, Zhenghua Li, Min Zhang, Rui Wang, Yue Zhang, Luo Si. 2019. Overview of the NLPCC 2019 Shared Task: Cross-Domain Dependency Parsing Proceedings of NLPCC-2019, pp. 760-771. Dunhuang, China, 9-14 Oct. 2019.[[:媒体文件: Overview of the NLPCC 2019 Shared.pdf | PDF]][[:媒体文件: Nlpcc2019-shared-task-overview.pdf  | 带有封面目录PDF]](资助信息: NSFC, 61876116, 61525205).&lt;br /&gt;
* Qingrong Xia, Zhenghua Li*, Min Zhang. A Syntax-aware Multi-task Learning Framework for Chinese Semantic Role Labeling, Proceedings of EMNLP-2019, pp5385-5395, KongKong, China, Nov 3 -7, 2019. [B]  (资助信息：NSFC 61525205, 61876116, 61432013, PAPD)&lt;br /&gt;
* Zhenghua Li, Xue Peng, Min Zhang, Rui Wang, Luo Si. 2019. Semi-supervised Domain Adaptation for Dependency Parsing. Proceedings of ACL-2019, pp. 2386-2395. Florence, Italy, 28 Jul. - 2 Aug. 2019.[http://hlt.suda.edu.cn/~zhli/papers/zhenghua_acl19_dp_2.pdf PDF]（资助信息: NSFC, 61876116, 61525205, 61572338 和 Alibaba-Suda）&lt;br /&gt;
* Bo Zhang, Zhenghua Li, Min Zhang. 2019. Conversion and Exploitation of Dependency Treebanks with Full-Tree LSTM. Proceedings of ACL-2019, pp.456-465. Dunhuang, China, 13-14 Oct., 2019.[[:媒体文件: zhangbo-nlpcc2019.pdf | PDF]]&lt;br /&gt;
* 蒋炜, 李正华, 张民. 2019. Syntax-enhanced UCCA Semantic Parsing (句法增强的UCCA语义分析). Proceedings of the 8th International Conference on Natural Language Processing and Chinese Computing (NLPCC-2019), Dunhuang（敦煌）, 中国, 13-14 Oct., 2019. 推荐发表至：北京大学学报（自然科学版）.[[:媒体文件: Jiangwei-peking20-ucca.pdf | PDF]]&lt;br /&gt;
* 黄德朋, 李正华, 龚晨, 张民. 2019. Neural Network Coupled Model for Conversion and Exploitation of Heterogeneous Lexical Annotations (基于神经耦合模型的异构词法数据转化和融合). Proceedings of the 8th International Conference on Natural Language Processing and Chinese Computing (NLPCC-2019), Dunhuang（敦煌）, 中国, 13-14 Oct., 2019. 推荐发表至：北京大学学报（自然科学版）.[[:媒体文件:基于神经耦合模型的异构词法数据转化和融合.pdf | PDF]](（资助信息: NSFC，61525205, 61876116, 61702518）和江苏高校优势学科建设工程资助项目)&lt;br /&gt;
* Ying Li, Zhenghua Li, Min Zhang, Rui Wang, Sheng Li, Luo Si. 2019. Self-attentive Biaffine Dependency Parsing. Proceedings of IJCAI-2019, pp. 5067-5073. Macao, China, 10-16 Aug. 2019 (资助信息:61525205, 61876116,  61432013). [https://www.ijcai.org/proceedings/2019/0704.pdf PDF]&lt;br /&gt;
* Wei Jiang, Zhenghua Li, Yu Zhang, Min Zhang. 2019. HLT@SUDA at SemEval 2019 Task 1: UCCA Graph Parsing as Constituent Tree Parsing. Proceedings of the 13th International Workshop on Semantic Evaluation (SemEval-2019), pp. 11-15. Minneapolis, Minnesota, America, 6-7 Jun. 2019.  [https://www.aclweb.org/anthology/S19-2002/ PDF]&lt;br /&gt;
* Meishan Zhang, Zhenghua Li, Guohong Fu, Min Zhang. 2019. Syntax-Enhanced Neural Machine Translation with Syntax-Aware Word Representations. Proceedings of NAACL-2019, pp. 1151-1161. Minneapolis, Minnesota, America, 2-7 Jun. 2019.[http://hlt.suda.edu.cn/~zhli/papers/zhang-naacl-2019.pdf PDF](资助信息: NSFC, 61525205, U1836222, 61672211)&lt;br /&gt;
&lt;br /&gt;
* Qingrong Xia, Zhenghua Li, Min Zhang, Meishan Zhang, Guohong Fu, Rui Wang, Luo Si. 2019. Syntax-aware Neural Semantic Role Labeling. Proceedings of AAAI-2019, pp. x-x. Honolulu, Hawaii, America, 27 Jan. - 1 Feb. 2019.&lt;br /&gt;
&lt;br /&gt;
== 2019 ==&lt;br /&gt;
* 朱运, 李正华, 黄德朋, 张民. 2019.基于弱标注数据的汉语分词领域移植. 中文信息学报. 2019, 33 (9): 1-8 [http://hlt.suda.edu.cn/~zhli/papers/zhuyun-cip19-wordseg.pdf PDF]（资助信息：NSFC，61525205，61876116）&lt;br /&gt;
* 郭丽娟, 彭雪, 李正华, 张民. 2019. 面向多领域多来源文本的汉语依存句法树库构建. 中文信息学报. 2019, 33(2):34-42  [http://hlt.suda.edu.cn/~zhli/papers/ziwei-cs19-discourse.pdf PDF]（资助信息：NSFC，61876116，61673289）&lt;br /&gt;
* Zhengqiu He, Wenliang Chen, Zhenghua Li, Wei Zhang, Hao Shao, Min Zhang. 2019. Syntax-aware Entity Representations for Neural Relation Extraction. Artificial Intelligence Journal.275(2019):602-617, October 2019.[https://doi.org/10.1016/j.artint.2019.07.004 online version]&lt;br /&gt;
&lt;br /&gt;
== 2018 ==&lt;br /&gt;
&lt;br /&gt;
* Xinzhou Jiang, Bo Zhang, Zhenghua Li, Min Zhang, Sheng Li, Luo Si. Supervised Treebank Conversion: Data and Approaches. Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics (ACL-2018), pp. 2706-2716. Melbourne, Australia. 15-20 Jul. 2018[C]  [http://hlt.suda.edu.cn/~zhli/papers/zhenghua-acl18.pdf PDF]（资助信息： National Natural Science Foundation of China (Grant No. 61525205, 61502325 61432013）, Alibaba-Suda）&lt;br /&gt;
* 郭丽娟, 李正华, 彭雪, 张民. 2018. 适应多领域多来源文本的汉语依存句法数据标注规范. 中文信息学报. 2018, 32(10):28-35-52[http://hlt.suda.edu.cn/~zhli/papers/lijuan-jocip18-guideline.pdf PDF](资助信息：国家自然科学基金（61502325，61432013，61525205))&lt;br /&gt;
* 孙佳伟, 李正华, 陈文亮, 张民. 2018. Hypernym Relation Classification based on Word Pattern (基于词模式嵌入的词语上下位关系分类). Proceedings of the 7th International Conference on Natural Language Processing and Chinese Computing (NLPCC-2018), pp. x-x, Hohhot（呼和浩特）, 中国, 26-30 Aug, 2018 [http://hlt.suda.edu.cn/~zhli/papers/jiawei-peking18-hyponym.pdf PDF](资助信息：国家自然科学基金(61502325, 61673289)、江苏省高校自然科学研究重大项目(16KJA520001)资助)&lt;br /&gt;
* 凡子威, 李正华, 张民. 2018. 基于BiLSTM并结合自注意力机制和句法信息的隐式篇章关系分类篇章分析. 计算机科学. 2019, 46(5):214-220 [http://hlt.suda.edu.cn/~zhli/papers/ziwei-cs19-discourse.pdf PDF]（资助信息：NSFC，61525205，61876116）&lt;br /&gt;
* Qi Lu, YaoSheng Yang, Zhenghua Li, Wenliang Chen and Min Zhang. M-CNER: A Corpus for Chinese Named Entity Recognition in Multi-Domains, Proceedings of LREC-2018, pp4458-4461, Japan, May 2018 [http://hlt.suda.edu.cn/~zhli/papers/lrec-2018-ner.pdf PDF](资助信息：NSFC 61572338, the Natural Science Foundation of the Jiangsu Higher Education Institutions 16KJA520001)&lt;br /&gt;
* Yachao Li, Junhui Li, Min Zhang. Adapted Weights for Neural Machine Translation. In Proceedings of COLING-2018, pp. 3038–3048, Santa Fe, New Mexico, USA, August 20-26, 2018[C]&lt;br /&gt;
* Yaosheng Yang, Wenliang Chen, Zhenghua Li, Zhengqiu He and Min Zhang. Distantly Supervised NER with Partial Annotation Learning and Reinforcement Learning, Proceedings of COLING2018, pp.2159–2169, Santa Fe, New Mexico, USA, August 20-26, 2018[C]  [https://github.com/rainarch/DSNER Code] [http://aclweb.org/anthology/C18-1183 PDF] (资助信息：NSFC 61572338, 61525205, the Natural Science Foundation of the Jiangsu Higher Education Institutions 16KJA520001)&lt;br /&gt;
* Kai Song, Yue Zhang, Min Zhang, Weihua Luo. Improved English to Russian Translation by Neural Suffix Prediction, Proceedings of AAAI-2018, pp410-417, New Orleans, USA,Feb 2018[C] [https://arxiv.org/abs/1801.03615 PDF]&lt;br /&gt;
* YaoSheng  Yang, Meishan  Zhang, Wenliang  Chen*, Haofen  Wang, Wei  Zhang, Min  Zhang. Adversarial Learning for Chinese NER from Crowd Annotations, Proceedings of AAAI-2018, pp1627-1634, New Orleans, USA,Feb 2018[C]  [https://arxiv.org/abs/1801.03603 PDF]&lt;br /&gt;
* Zhengqiu He,  Wenliang  Chen*, Zhenghua  Li, Meishan  Zhang, Wei  Zhang, Min  Zhang. SEE: Syntax-aware Entity Embedding for Neural Relation Extraction, Proceedings of AAAI-2018, pp5795-5802, New Orleans, USA,Feb 2018[C] [http://arxiv.org/abs/1801.03603 PDF]&lt;br /&gt;
&lt;br /&gt;
== 2017 ==&lt;br /&gt;
* Wenliang Chen, Muhua Zhu, Min Zhang, Yue Zhang, Jingbo Zhu. Improving Shift-Reduce Phrase-Structure Parsing with Constituent Boundary Information. Computational Intelligence Journal, 33(3):428-447, August 2017[J] (资助信息：NSFC 61572338, 61525205, 61272376, Singapore MOE 2012-T2-2-163, Collaborative Innovation Center of Novel Software Technology and Industrialization)&lt;br /&gt;
&lt;br /&gt;
* Zhenghua Li, Jiayuan Chao, Min Zhang, Wenliang Chen, Meishan Zhang, Guohong Fu. 2016. Coupled POS Tagging on Heterogeneous Annotations. IEEE/ACM Transactions on Audio, Speech and Language Processing (IEEE/ACM-TASL [J]). 2017. 25(3), pp. 557-571.[http://hlt.suda.edu.cn/~zhli/papers/zhenghua-ieee17-coupled-pos.pdf PDF](资助信息：National Natural Science Foundation of China under Grant 61525205, Grant 61572338, and Grant 61432013, CCF-Tencent Open Research Fund (AGR20160111).)&lt;br /&gt;
&lt;br /&gt;
* Yue Zhang, Zhenghua Li, Jun Lang, Qingrong Xia, Min Zhang. 2017. Dependency Parsing with Partial Annotations: An Empirical Comparison. Proceedings of the 8th International Joint Conference on Natural Language Processing (IJCNLP-2017), pp. 49-58. Taiwan, Nov. 27 - Dec. 1, 2017[C] [http://aclweb.org/anthology/I/I17/I17-1006.pdf PDF](资助信息：National Natural Science Foundation of China (Grant No. 61525205, 61373095, 61502325).)&lt;br /&gt;
&lt;br /&gt;
* Chen Gong, Zhenghua Li, Min Zhang, Xinzhou Jiang. 2017. Multi-Grained Chinese Word Segmentation. Proceedings of the 2017 Conference on Empirical Methods in Natural Language Processing (EMNLP-2017), pp. 703-714. Copenhagen, Denmark, 7-11 Sept. 2017[C] [http://hlt.suda.edu.cn/~zhli/papers/chen-d17-mws.pdf PDF](资助信息：National Natural Science Foundation of China (Grant No. 61525205, 61373095, 61502325))&lt;br /&gt;
&lt;br /&gt;
== 2016 ==&lt;br /&gt;
* Qingrong Xia, Zhenghua Li, Jiayuan Chao, Min Zhang. Word Segmentation on Micro-blog Texts with External Lexicon and Heterogeneous Data. In Proc. of the 5th CCF Conference on Natural Language Processing &amp;amp; Chinese Computing (NLPCC-2016), pp711-721. Kunming, 2-6 Dec. 2016[C] [http://hlt.suda.edu.cn/~zhli/papers/qingrong-nlpcc-2016-word-seg-weibo.pdf PDF] (资助信息: NSFC 61502325, 61432013, the Natural Science Foundation of the Jiangsu Higher Education Institutions of China 15KJB520031)&lt;br /&gt;
&lt;br /&gt;
* Ziwei Fan, Zhenghua Li, Min Zhang. Finding Arguments as Sequence Labeling in Discourse Parsing. Proceedings of the 20th SIGNLL Conference on Computational Natural Language Learning (CoNLL-2016) shared task, pp. 150-157. Berlin, Germany, 11-12 Aug. 2016[C] [http://aclweb.org/anthology/K/K16/K16-2021.pdf PDF] (资助信息: NSFC 61502325, 61525205, the Natural Science Foundation of the Jiangsu Higher Education Institutions of China, 15KJB520031)&lt;br /&gt;
&lt;br /&gt;
* Zhenghua Li, Jiayuan Chao, Min Zhang, Jiwen Yang. Fast Coupled Sequence Labeling on Heterogeneous Annotations via Context-aware Pruning. Proceedings of the 2016 Conference on Empirical Methods in Natural Language Processing (EMNLP-2016), pp. 753-762. Austin, Texas, USA, 1-5 Nov. 2016[C] [http://hlt.suda.edu.cn/~zhli/papers/zhenghua-emnlp-2016-submission.pdf PDF] (资助信息:  NSFC 61525205, 61502325, 61432013)&lt;br /&gt;
&lt;br /&gt;
* Zhenghua Li, Min Zhang, Yue Zhang, Zhanyi Liu, Wenliang Chen, Hua Wu, Haifeng Wang. Active Learning for Dependency Parsing with Partial Annotation. Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics (ACL-2016), pp. 344-354. Berlin, 7-12 Aug. 2016[C] [http://hlt.suda.edu.cn/~zhli/acl-2016-resources/zhenghua-acl2016-camera-ready.pdf PDF] (资助信息: NSFC 61502325, 61525205, 61572338, the National Basic Research Program of China, 2014CB340505)&lt;br /&gt;
 &lt;br /&gt;
* Wenliang Chen, Min Zhang, Yue Zhang, Xiangyu Duan. Exploiting Meta Features for Dependency Parsing and Part-of-speech Tagging. Artificial Intelligence Journal, 230(2016):173-191, January 2016[J] (资助信息：NSFC 61572338, 61432013, 61525205, Singapore MOE 2012-T2-2-163, Collaborative Innovation Center of Novel Software Technology and Industrialization)&lt;br /&gt;
&lt;br /&gt;
*Junjie Yu, Wenliang Chen, Zhenghua Li, Min Zhang,  Building Powerful Dependency Parsers for Resource-Poor Languages. In Proc. of NLPCC-2016, pp27-38, LNAI 10102[C] (资助信息：NSFC 61373095, 61572338, 61502325, Collaborative Innovation Center of Novel Software Technology and Industrialization)&lt;br /&gt;
 &lt;br /&gt;
* Wenliang Chen, Zhenjie Zhang, Zhenghua Li, Min Zhang. Distributed Representations for Building Profiles of Users and Items from Text Reviews. In Proc. of the 26th International Conference on Computational Linguistics (COLING-2016), pp2143-2153, Osaka, 11-17 Dec. 2016[C][https://www.aclweb.org/anthology/C16-1202.pdf PDF] (资助信息：NSFC 61572338, 61502325, 61373095, Collaborative Innovation Center of Novel Software Technology and Industrialization, the Human Centered Cyber-physical Systems Programme at the Advanced Digital Sciences Center from Singapores A*STAR)&lt;br /&gt;
&lt;br /&gt;
== 2015 ==&lt;br /&gt;
*Jiayuan Chao, Zhenghua Li, Wenliang Chen, Min Zhang. 2015. Exploiting Heterogeneous Annotations for Weibo Word Segmentation and POS Tagging. Proceedings of the 4th CCF Conference on Natural Language Processing &amp;amp; Chinese Computing (NLPCC-2015), pp. 495-506. Nanchang, 9-13 Oct. 2015[C] [http://hlt.suda.edu.cn/~zhli/papers/jiayuan-nlpcc15-coupled-weibo.pdf PDF] （资助信息：NSFC 61432013, 61273319； Jiangsu Planned Projects for Post-doctoral Research Funds 1401075B）&lt;br /&gt;
&lt;br /&gt;
*Zhenghua Li, Jiayuan Chao, Min Zhang, Wenliang Chen. 2015. Coupled Sequence Labeling on Heterogeneous Annotations: POS Tagging as a Case Study. Proceedings of the 53rd Annual Meeting of the Association for Computational Linguistics (ACL-2015), pp. 1783-1792. Beijing, 26-31 July 2015[C] [http://aclweb.org/anthology/P/P15/P15-1172.pdf PDF]（资助信息：NSFC 61432013,61203314;  Planned Projects for Postdoctoral Research Funds 1401075B;  Collaborative Innovation Center of Novel Software Technology and Industrialization of Jiangsu Province ）&lt;br /&gt;
&lt;br /&gt;
*高恩婷, 巢佳媛, 李正华. 2015. 面向词性标注的多资源转化研究. 北京大学学报(自然科学版). 2015, 51(2):328-334 (NLPCC 2014优秀论文转投)[J] [http://hlt.suda.edu.cn/~zhli/papers/zhenghua-peking15-pos.pdf PDF](资助信息：NSFC 61373095,61273319; 江苏省博士后基金 1401075B; 江苏省自然科学基金青年基金 BK20140355)&lt;br /&gt;
&lt;br /&gt;
* Wenliang Chen, Min Zhang*, Yue Zhang. Distributed Feature Representations for Dependency Parsing. IEEE/ACM Transactions on Audio, Speech and Language Processing, 23(3):451-460, 2015[J]&lt;br /&gt;
&lt;br /&gt;
== 2014 ==&lt;br /&gt;
*Zhenghua Li, Min Zhang, Wanxiang Che, Ting Liu, Wenliang Chen. 2014. Joint Optimization for Chinese POS Tagging and Dependency Parsing. IEEE/ACM Transactions on Audio, Speech and Language Processing (IEEE/ACM-TASL [J]). 2014. 22(1), pp. 274-286.[J] [http://hlt.suda.edu.cn/~zhli/papers/zhenghua-taslp14.pdf PDF](资助信息：NSFC  61203314,61373095,61133012;  the National “863” Major Projects 2011AA01A207;  the National “863” Leading Technology Research Project 2012AA011102)&lt;br /&gt;
&lt;br /&gt;
*Zhenghua Li, Min Zhang, Wenliang Chen. 2014. Soft Cross-lingual Syntax Projection for Dependency Parsing. Proceedings of the 25th International Conference on Computational Linguistics (COLING-2014), pp. 783-793. Dublin, 23-29 Aug. 2014[C][http://hlt.suda.edu.cn/~zhli/papers/zhenghua-coling14.pdf PDF] (资助信息：NSFC  61373095, 61203314, 61373097)  &lt;br /&gt;
&lt;br /&gt;
*Zhenghua Li, Min Zhang, Wenliang Chen. 2014. Ambiguity-aware Ensemble Training for Semi-supervised Dependency Parsing. Proceedings of the 52nd Annual Meeting of the Association for Computational Linguistics (ACL-2014), pp. 457-467. Baltimore, 22-27 June 2014[C] [http://hlt.suda.edu.cn/~zhli/papers/zhenghua-acl14.pdf PDF] (资助信息：NSFC 61373095, 61333018)&lt;br /&gt;
&lt;br /&gt;
* Min  ZHANG,  Xiangyu  Duan,  Wenliang  CHEN.  Bayesian  Constituent  Context  Model  for Grammar Induction.  IEEE/ACM Transactions on Audio, Speech and Language Processing, 22(2):531-541, 2014[J]&lt;br /&gt;
&lt;br /&gt;
* Xiangyu Duan, Min Zhang, Qiaoming Zhu. Synchronous Constituent Context Model for Inducing Bilingual Synchronous Structures. In Proc. of the 25th International Conference on Computational Linguistics (COLING2014), pp783-793, Dublin, Ireland, August 2014&lt;br /&gt;
&lt;br /&gt;
* Wenliang Chen, Yue Zhang, Min Zhang*. Feature Embedding for Dependency Parsing. In Proc. of the 25th International Conference on Computational Linguistics (COLING2014), pp816-826, Dublin, Ireland, August 2014&lt;br /&gt;
&lt;br /&gt;
== 2013 ==&lt;br /&gt;
* Min Zhang, Wenliang Chen*, Xiangyu Duan, and Rong Zhang. Improving Graph-based Dependency Parsing Models with Dependency Language Models. IEEE Transactions on Audio, Speech and Language Processing (IEEE-TASL), Vol.21, No.11, pp2313-2323 November 2013. &lt;br /&gt;
&lt;br /&gt;
* Muhua Zhu, Yue Zhang, Wenliang Chen, Min Zhang, and Jingbo Zhu. Fast and Accurate Constituent Parsing. In Proc. of ACL2013, pp 434-443, Sofia, Bulgaria, August 2013.&lt;br /&gt;
&lt;br /&gt;
* Xiangyu Duan, Min Zhang, Wenliang Chen. Smoothing for Bracketing Induction. In Proc. of IJCAI2013, pp 2085-2091, Beijing, China, August 2013.&lt;br /&gt;
&lt;br /&gt;
* Wenliang Chen, Min Zhang, Yue Zhang. Semi-Supervised Feature Transformation for Dependency Parsing. In Proc. of EMNLP2013, pp1303-1313, Seattle, Washington, USA, 18-21 October 2013.&lt;br /&gt;
&lt;br /&gt;
== 更古老 ==&lt;br /&gt;
&lt;br /&gt;
* 请查看各位成员的主页&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
== 参考格式 ==&lt;br /&gt;
期刊格式：[作者列表]. [题目]. [期刊名], [卷号(期):起止页码], [年份][J]&lt;br /&gt;
* Wenliang Chen, Min Zhang*, Yue Zhang. Distributed Feature Representations for Dependency Parsing. IEEE/ACM Transactions on Audio, Speech and Language Processing, 23(3):451-460, 2015[J]&lt;br /&gt;
&lt;br /&gt;
会议格式：[作者列表]. [题目]. [In Proc. of 会议名], [起止页码], [地点], [会议时间][C] &lt;br /&gt;
* Wenliang Chen, Yue Zhang, Min Zhang*. Feature Embedding for Dependency Parsing. In Proc. of the 25th International Conference on Computational Linguistics (COLING-2014), pp816-826, Dublin, Ireland, August 2014[C]&lt;br /&gt;
&lt;br /&gt;
录用格式：[作者列表]. [题目]. [期刊名/会议名], 已录用&lt;br /&gt;
* Wenliang Chen. Feature Embedding for Dependency Parsing. CCL-2017, 已录用&lt;/div&gt;</summary>
		<author><name>Liying</name></author>
	</entry>
	<entry>
		<id>http://hlt.suda.edu.cn/index.php?title=Papers&amp;diff=1692</id>
		<title>Papers</title>
		<link rel="alternate" type="text/html" href="http://hlt.suda.edu.cn/index.php?title=Papers&amp;diff=1692"/>
		<updated>2019-11-25T05:06:31Z</updated>

		<summary type="html">&lt;p&gt;Liying：/* 最新录用 */&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;罗列文章包括：&lt;br /&gt;
* ACL EMNLP IJCAI AAAI COLING IJCNLP&lt;br /&gt;
* CCF-A/B Journal/Conference&lt;br /&gt;
* SCI Journal&lt;br /&gt;
&lt;br /&gt;
== [http://hlt.suda.edu.cn/index.php/Papers-details 论文摘要等信息] ==&lt;br /&gt;
&lt;br /&gt;
== 最新录用 ==&lt;br /&gt;
*Xue Peng, Zhenghua Li, Min Zhang, Rui Wang, Yue Zhang, Luo Si. 2019. Overview of the NLPCC 2019 Shared Task: Cross-Domain Dependency Parsing Proceedings of NLPCC-2019, pp. 760-771. Dunhuang, China, 9-14 Oct. 2019.[[:媒体文件: Overview of the NLPCC 2019 Shared.pdf | PDF]][[:媒体文件: Nlpcc2019-shared-task-overview.pdf  | 带有封面目录PDF]](资助信息: NSFC, 61876116,61525205).&lt;br /&gt;
* Zhenghua Li, Xue Peng, Min Zhang, Rui Wang, Luo Si. 2019. Semi-supervised Domain Adaptation for Dependency Parsing. Proceedings of ACL-2019, pp. 2386-2395. Florence, Italy, 28 Jul. - 2 Aug. 2019.[http://hlt.suda.edu.cn/~zhli/papers/zhenghua_acl19_dp_2.pdf PDF]（（资助信息: NSFC, 61876116, 61525205, 61572338) 和 Alibaba-Suda）&lt;br /&gt;
* Bo Zhang, Zhenghua Li, Min Zhang. 2019. Conversion and Exploitation of Dependency Treebanks with Full-Tree LSTM. Proceedings of ACL-2019, pp.456-465. Dunhuang, China, 13-14 Oct., 2019.[[:媒体文件: zhangbo-nlpcc2019.pdf | PDF]]&lt;br /&gt;
* 蒋炜, 李正华, 张民. 2019. Syntax-enhanced UCCA Semantic Parsing (句法增强的UCCA语义分析). Proceedings of the 8th International Conference on Natural Language Processing and Chinese Computing (NLPCC-2019), Dunhuang（敦煌）, 中国, 13-14 Oct., 2019. 推荐发表至：北京大学学报（自然科学版）.[[:媒体文件: Jiangwei-peking20-ucca.pdf | PDF]]&lt;br /&gt;
* 黄德朋, 李正华, 龚晨, 张民. 2019. Neural Network Coupled Model for Conversion and Exploitation of Heterogeneous Lexical Annotations (基于神经耦合模型的异构词法数据转化和融合). Proceedings of the 8th International Conference on Natural Language Processing and Chinese Computing (NLPCC-2019), Dunhuang（敦煌）, 中国, 13-14 Oct., 2019. 推荐发表至：北京大学学报（自然科学版）.[[:媒体文件:基于神经耦合模型的异构词法数据转化和融合.pdf | PDF]]&lt;br /&gt;
* Ying Li, Zhenghua Li, Min Zhang, Rui Wang, Sheng Li, Luo Si. 2019. Self-attentive Biaffine Dependency Parsing. Proceedings of IJCAI-2019, pp. 5067-5073. Macao, China, 10-16 Aug. 2019 (资助信息:61525205, 61876116,  61432013).&lt;br /&gt;
* Wei Jiang, Zhenghua Li, Yu Zhang, Min Zhang. 2019. HLT@SUDA at SemEval 2019 Task 1: UCCA Graph Parsing as Constituent Tree Parsing. Proceedings of the 13th International Workshop on Semantic Evaluation (SemEval-2019), pp. 11-15. Minneapolis, Minnesota, America, 6-7 Jun. 2019. &lt;br /&gt;
* Meishan Zhang, Zhenghua Li, Guohong Fu, Min Zhang. 2019. Syntax-Enhanced Neural Machine Translation with Syntax-Aware Word Representations. Proceedings of NAACL-2019, pp. 1151-1161. Minneapolis, Minnesota, America, 2-7 Jun. 2019.&lt;br /&gt;
* Qingrong Xia, Zhenghua Li, Min Zhang, Meishan Zhang, Guohong Fu, Rui Wang, Luo Si. 2019. Syntax-aware Neural Semantic Role Labeling. Proceedings of AAAI-2019, pp. x-x. Honolulu, Hawaii, America, 27 Jan. - 1 Feb. 2019.&lt;br /&gt;
&lt;br /&gt;
== 2019 ==&lt;br /&gt;
* Zhengqiu He, Wenliang Chen, Zhenghua Li, Wei Zhang, Hao Shao, Min Zhang. 2019. Syntax-aware Entity Representations for Neural Relation Extraction. Artificial Intelligence Journal.275(2019):602-617, October 2019.[https://doi.org/10.1016/j.artint.2019.07.004 online version]&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
== 2018 ==&lt;br /&gt;
* Xingzhou Jiang, Bo Zhang, Zhenghua Li, Min Zhang, Sheng Li, Luo Si. Supervised Treebank Conversion: Data and Approaches. In Proceedings of ACL-2018 (Accepted)&lt;br /&gt;
* Yachao Li, Junhui Li, Min Zhang. Adapted Weights for Neural Machine Translation. In Proceedings of COLING-2018, pp. 3038–3048, Santa Fe, New Mexico, USA, August 20-26, 2018[C]&lt;br /&gt;
* Yaosheng Yang, Wenliang Chen, Zhenghua Li, Zhengqiu He and Min Zhang. Distantly Supervised NER with Partial Annotation Learning and Reinforcement Learning, Proceedings of COLING2018, pp.2159–2169, Santa Fe, New Mexico, USA, August 20-26, 2018[C]  [https://github.com/rainarch/DSNER Code] [http://aclweb.org/anthology/C18-1183 PDF]&lt;br /&gt;
* Kai Song, Yue Zhang, Min Zhang, Weihua Luo. Improved English to Russian Translation by Neural Suffix Prediction, Proceedings of AAAI-2018, pp410-417, New Orleans, USA,Feb 2018[C] [https://arxiv.org/abs/1801.03615 PDF]&lt;br /&gt;
* YaoSheng  Yang, Meishan  Zhang, Wenliang  Chen*, Haofen  Wang, Wei  Zhang, Min  Zhang. Adversarial Learning for Chinese NER from Crowd Annotations, Proceedings of AAAI-2018, pp1627-1634, New Orleans, USA,Feb 2018[C]  [https://arxiv.org/abs/1801.03603 PDF]&lt;br /&gt;
* Zhengqiu He,  Wenliang  Chen*, Zhenghua  Li, Meishan  Zhang, Wei  Zhang, Min  Zhang. SEE: Syntax-aware Entity Embedding for Neural Relation Extraction, Proceedings of AAAI-2018, pp5795-5802, New Orleans, USA,Feb 2018[C] [http://arxiv.org/abs/1801.03603 PDF]&lt;br /&gt;
&lt;br /&gt;
== 2017 ==&lt;br /&gt;
* Wenliang Chen, Muhua Zhu, Min Zhang, Yue Zhang, Jingbo Zhu. Improving Shift-Reduce Phrase-Structure Parsing with Constituent Boundary Information. Computational Intelligence Journal, 33(3):428-447, August 2017[J]&lt;br /&gt;
* Zhenghua Li, Jiayuan Chao, Min Zhang, Wenliang Chen, Meishan Zhang, Guohong Fu. Coupled POS Tagging on Heterogeneous Annotations. IEEE/ACM Transactions on Audio, Speech and Language Processing, 25(3):557-571, 2017[J]&lt;br /&gt;
* Chen Gong, Zhenghua Li, Min Zhang, Xinzhou Jiang. 2017. Multi-Grained Chinese Word Segmentation. Proceedings of the 2017 Conference on Empirical Methods in Natural Language Processing (EMNLP-2017), pp703-714, Copenhagen, Denmark,Sept 2017[C]&lt;br /&gt;
* Yue Zhang, Zhenghua Li, Jun Lang, Qingrong Xia, Min Zhang. 2017. Dependency Parsing with Partial Annotations: An Empirical Comparison. Proceedings of the 8th International Joint Conference on Natural Language Processing (IJCNLP-2017), pp49-58. Taiwan, Nov.27-Dec.1, 2017[C]&lt;br /&gt;
&lt;br /&gt;
== 2016 ==&lt;br /&gt;
* Zhenghua Li, Min Zhang, Yue Zhang, Zhanyi Liu, Wenliang Chen, Hua Wu, Haifeng Wang. 2016.Active Learning for Dependency Parsing with Partial Annotation. Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics (ACL-2016), pp. 344-354. Berlin, 7-12 Aug. 2016&lt;br /&gt;
 &lt;br /&gt;
* Wenliang Chen, Min Zhang, Yue Zhang, Xiangyu Duan. Exploiting Meta Features for Dependency Parsing and Part-of-speech Tagging. Artificial Intelligence Journal, 230(2016):173-191, January 2016[J] &lt;br /&gt;
&lt;br /&gt;
* Wenliang Chen, Zhenjie Zhang, Zhenghua Li, Min Zhang. Distributed Representations for Building Profiles of Users and Items from Text Reviews. In Proc. of the 26th International Conference on Computational Linguistics (COLING-2016), pp2143-2153, Osaka, 11-17 Dec. 2016[C]&lt;br /&gt;
&lt;br /&gt;
* Zhenghua Li, Jiayuan Chao, Min Zhang, Jiwen Yang. 2016. Fast Coupled Sequence Labeling on Heterogeneous Annotations via Context-aware Pruning. Proceedings of the 2016 Conference on Empirical Methods in Natural Language Processing (EMNLP-2016), pp753-762, Austin, Texas, USA, Nov 2016[C]&lt;br /&gt;
&lt;br /&gt;
== 2015 ==&lt;br /&gt;
* Wenliang Chen, Min Zhang*, Yue Zhang. Distributed Feature Representations for Dependency Parsing. IEEE/ACM Transactions on Audio, Speech and Language Processing, 23(3):451-460, 2015[J]&lt;br /&gt;
&lt;br /&gt;
* Zhenghua Li, Jiayuan Chao, Min Zhang, Wenliang Chen. 2015. Coupled Sequence Labeling on Heterogeneous Annotations: POS Tagging as a Case Study. Proceedings of the 53rd Annual Meeting of the Association for Computational Linguistics (ACL-2015), pp1783-1792, Beijing, 26-31 July 2015&lt;br /&gt;
== 2014 ==&lt;br /&gt;
* Zhenghua Li, Min Zhang, Wenliang Chen. Ambiguity-aware Ensemble Training for Semi-supervised Dependency Parsing. In Proc. of Annual Meeting of the Association for Computational Linguistics (ACL2014), pp457-467, Baltimore, June 2014&lt;br /&gt;
&lt;br /&gt;
* Min  ZHANG,  Xiangyu  Duan,  Wenliang  CHEN.  Bayesian  Constituent  Context  Model  for Grammar Induction.  IEEE/ACM Transactions on Audio, Speech and Language Processing, 22(2):531-541, 2014[J]&lt;br /&gt;
&lt;br /&gt;
* Zhenghua LI,  Min ZHANG, Wanxiang CHE, Ting LIU, Wenliang CHEN. Joint Optimization for  Chinese  POS  Tagging  and  Dependency  Parsing.  IEEE/ACM Transactions  on  Audio,  Speech  and Language Processing, 22(1):274-286, 2014[J]&lt;br /&gt;
&lt;br /&gt;
* Xiangyu Duan, Min Zhang, Qiaoming Zhu. Synchronous Constituent Context Model for Inducing Bilingual Synchronous Structures. In Proc. of the 25th International Conference on Computational Linguistics (COLING2014), pp783-793, Dublin, Ireland, August 2014&lt;br /&gt;
&lt;br /&gt;
* Wenliang Chen, Yue Zhang, Min Zhang*. Feature Embedding for Dependency Parsing. In Proc. of the 25th International Conference on Computational Linguistics (COLING2014), pp816-826, Dublin, Ireland, August 2014&lt;br /&gt;
&lt;br /&gt;
* Zhenghua Li, Min Zhang, Wenliang Chen. Soft Cross-lingual Syntax Projection for Dependency Parsing. In Proc. of the 25th International Conference on Computational Linguistics (COLING2014), pp783-793, Dublin, Ireland, August 2014&lt;br /&gt;
&lt;br /&gt;
== 2013 ==&lt;br /&gt;
* Min Zhang, Wenliang Chen*, Xiangyu Duan, and Rong Zhang. Improving Graph-based Dependency Parsing Models with Dependency Language Models. IEEE Transactions on Audio, Speech and Language Processing (IEEE-TASL), Vol.21, No.11, pp2313-2323 November 2013. &lt;br /&gt;
&lt;br /&gt;
* Muhua Zhu, Yue Zhang, Wenliang Chen, Min Zhang, and Jingbo Zhu. Fast and Accurate Constituent Parsing. In Proc. of ACL2013, pp 434-443, Sofia, Bulgaria, August 2013.&lt;br /&gt;
&lt;br /&gt;
* Xiangyu Duan, Min Zhang, Wenliang Chen. Smoothing for Bracketing Induction. In Proc. of IJCAI2013, pp 2085-2091, Beijing, China, August 2013.&lt;br /&gt;
&lt;br /&gt;
* Wenliang Chen, Min Zhang, Yue Zhang. Semi-Supervised Feature Transformation for Dependency Parsing. In Proc. of EMNLP2013, pp1303-1313, Seattle, Washington, USA, 18-21 October 2013.&lt;br /&gt;
&lt;br /&gt;
== 更古老 ==&lt;br /&gt;
&lt;br /&gt;
* 请查看各位成员的主页&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
== 参考格式 ==&lt;br /&gt;
期刊格式：[作者列表]. [题目]. [期刊名], [卷号(期):起止页码], [年份][J]&lt;br /&gt;
* Wenliang Chen, Min Zhang*, Yue Zhang. Distributed Feature Representations for Dependency Parsing. IEEE/ACM Transactions on Audio, Speech and Language Processing, 23(3):451-460, 2015[J]&lt;br /&gt;
&lt;br /&gt;
会议格式：[作者列表]. [题目]. [In Proc. of 会议名], [起止页码], [地点], [会议时间][C] &lt;br /&gt;
* Wenliang Chen, Yue Zhang, Min Zhang*. Feature Embedding for Dependency Parsing. In Proc. of the 25th International Conference on Computational Linguistics (COLING-2014), pp816-826, Dublin, Ireland, August 2014[C]&lt;br /&gt;
&lt;br /&gt;
录用格式：[作者列表]. [题目]. [期刊名/会议名], 已录用&lt;br /&gt;
* Wenliang Chen. Feature Embedding for Dependency Parsing. CCL-2017, 已录用&lt;/div&gt;</summary>
		<author><name>Liying</name></author>
	</entry>
	<entry>
		<id>http://hlt.suda.edu.cn/index.php?title=Papers&amp;diff=1691</id>
		<title>Papers</title>
		<link rel="alternate" type="text/html" href="http://hlt.suda.edu.cn/index.php?title=Papers&amp;diff=1691"/>
		<updated>2019-11-25T05:05:48Z</updated>

		<summary type="html">&lt;p&gt;Liying：/* 最新录用 */&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;罗列文章包括：&lt;br /&gt;
* ACL EMNLP IJCAI AAAI COLING IJCNLP&lt;br /&gt;
* CCF-A/B Journal/Conference&lt;br /&gt;
* SCI Journal&lt;br /&gt;
&lt;br /&gt;
== [http://hlt.suda.edu.cn/index.php/Papers-details 论文摘要等信息] ==&lt;br /&gt;
&lt;br /&gt;
== 最新录用 ==&lt;br /&gt;
*Xue Peng, Zhenghua Li, Min Zhang, Rui Wang, Yue Zhang, Luo Si. 2019. Overview of the NLPCC 2019 Shared Task: Cross-Domain Dependency Parsing Proceedings of NLPCC-2019, pp. 760-771. Dunhuang, China, 9-14 Oct. 2019.[[:媒体文件: Overview of the NLPCC 2019 Shared.pdf | PDF]][[:媒体文件: Nlpcc2019-shared-task-overview.pdf  | 带有封面目录PDF]](资助信息: NSFC, 61876116,61525205).&lt;br /&gt;
* Zhenghua Li, Xue Peng, Min Zhang, Rui Wang, Luo Si. 2019. Semi-supervised Domain Adaptation for Dependency Parsing. Proceedings of ACL-2019, pp. 2386-2395. Florence, Italy, 28 Jul. - 2 Aug. 2019.[http://hlt.suda.edu.cn/~zhli/papers/zhenghua_acl19_dp_2.pdf PDF]（（资助信息: NSFC, 61876116, 61525205, 61572338) 和 Alibaba-Suda）&lt;br /&gt;
* Bo Zhang, Zhenghua Li, Min Zhang. 2019. Conversion and Exploitation of Dependency Treebanks with Full-Tree LSTM. Proceedings of ACL-2019, pp.456-465. Dunhuang, China, 13-14 Oct., 2019.[[:媒体文件: zhangbo-nlpcc2019.pdf | PDF]]&lt;br /&gt;
* 蒋炜, 李正华, 张民. 2019. Syntax-enhanced UCCA Semantic Parsing (句法增强的UCCA语义分析). Proceedings of the 8th International Conference on Natural Language Processing and Chinese Computing (NLPCC-2019), Dunhuang（敦煌）, 中国, 13-14 Oct., 2019. 推荐发表至：北京大学学报（自然科学版）.[[:媒体文件: Jiangwei-peking20-ucca.pdf | PDF]]&lt;br /&gt;
* 黄德朋, 李正华, 龚晨, 张民. 2019. Neural Network Coupled Model for Conversion and Exploitation of Heterogeneous Lexical Annotations (基于神经耦合模型的异构词法数据转化和融合). Proceedings of the 8th International Conference on Natural Language Processing and Chinese Computing (NLPCC-2019), Dunhuang（敦煌）, 中国, 13-14 Oct., 2019. 推荐发表至：北京大学学报（自然科学版）.[[:媒体文件:基于神经耦合模型的异构词法数据转化和融合.pdf | PDF]]&lt;br /&gt;
* Ying Li, Zhenghua Li, Min Zhang, Rui Wang, Sheng Li, Luo Si. 2019. Self-attentive Biaffine Dependency Parsing. Proceedings of IJCAI-2019, pp. 5067-5073. Macao, China, 10-16 Aug. 2019 (资助信息: NSFC, 61525205, 61876116,  61432013).&lt;br /&gt;
* Wei Jiang, Zhenghua Li, Yu Zhang, Min Zhang. 2019. HLT@SUDA at SemEval 2019 Task 1: UCCA Graph Parsing as Constituent Tree Parsing. Proceedings of the 13th International Workshop on Semantic Evaluation (SemEval-2019), pp. 11-15. Minneapolis, Minnesota, America, 6-7 Jun. 2019. &lt;br /&gt;
* Meishan Zhang, Zhenghua Li, Guohong Fu, Min Zhang. 2019. Syntax-Enhanced Neural Machine Translation with Syntax-Aware Word Representations. Proceedings of NAACL-2019, pp. 1151-1161. Minneapolis, Minnesota, America, 2-7 Jun. 2019.&lt;br /&gt;
* Qingrong Xia, Zhenghua Li, Min Zhang, Meishan Zhang, Guohong Fu, Rui Wang, Luo Si. 2019. Syntax-aware Neural Semantic Role Labeling. Proceedings of AAAI-2019, pp. x-x. Honolulu, Hawaii, America, 27 Jan. - 1 Feb. 2019.&lt;br /&gt;
&lt;br /&gt;
== 2019 ==&lt;br /&gt;
* Zhengqiu He, Wenliang Chen, Zhenghua Li, Wei Zhang, Hao Shao, Min Zhang. 2019. Syntax-aware Entity Representations for Neural Relation Extraction. Artificial Intelligence Journal.275(2019):602-617, October 2019.[https://doi.org/10.1016/j.artint.2019.07.004 online version]&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
== 2018 ==&lt;br /&gt;
* Xingzhou Jiang, Bo Zhang, Zhenghua Li, Min Zhang, Sheng Li, Luo Si. Supervised Treebank Conversion: Data and Approaches. In Proceedings of ACL-2018 (Accepted)&lt;br /&gt;
* Yachao Li, Junhui Li, Min Zhang. Adapted Weights for Neural Machine Translation. In Proceedings of COLING-2018, pp. 3038–3048, Santa Fe, New Mexico, USA, August 20-26, 2018[C]&lt;br /&gt;
* Yaosheng Yang, Wenliang Chen, Zhenghua Li, Zhengqiu He and Min Zhang. Distantly Supervised NER with Partial Annotation Learning and Reinforcement Learning, Proceedings of COLING2018, pp.2159–2169, Santa Fe, New Mexico, USA, August 20-26, 2018[C]  [https://github.com/rainarch/DSNER Code] [http://aclweb.org/anthology/C18-1183 PDF]&lt;br /&gt;
* Kai Song, Yue Zhang, Min Zhang, Weihua Luo. Improved English to Russian Translation by Neural Suffix Prediction, Proceedings of AAAI-2018, pp410-417, New Orleans, USA,Feb 2018[C] [https://arxiv.org/abs/1801.03615 PDF]&lt;br /&gt;
* YaoSheng  Yang, Meishan  Zhang, Wenliang  Chen*, Haofen  Wang, Wei  Zhang, Min  Zhang. Adversarial Learning for Chinese NER from Crowd Annotations, Proceedings of AAAI-2018, pp1627-1634, New Orleans, USA,Feb 2018[C]  [https://arxiv.org/abs/1801.03603 PDF]&lt;br /&gt;
* Zhengqiu He,  Wenliang  Chen*, Zhenghua  Li, Meishan  Zhang, Wei  Zhang, Min  Zhang. SEE: Syntax-aware Entity Embedding for Neural Relation Extraction, Proceedings of AAAI-2018, pp5795-5802, New Orleans, USA,Feb 2018[C] [http://arxiv.org/abs/1801.03603 PDF]&lt;br /&gt;
&lt;br /&gt;
== 2017 ==&lt;br /&gt;
* Wenliang Chen, Muhua Zhu, Min Zhang, Yue Zhang, Jingbo Zhu. Improving Shift-Reduce Phrase-Structure Parsing with Constituent Boundary Information. Computational Intelligence Journal, 33(3):428-447, August 2017[J]&lt;br /&gt;
* Zhenghua Li, Jiayuan Chao, Min Zhang, Wenliang Chen, Meishan Zhang, Guohong Fu. Coupled POS Tagging on Heterogeneous Annotations. IEEE/ACM Transactions on Audio, Speech and Language Processing, 25(3):557-571, 2017[J]&lt;br /&gt;
* Chen Gong, Zhenghua Li, Min Zhang, Xinzhou Jiang. 2017. Multi-Grained Chinese Word Segmentation. Proceedings of the 2017 Conference on Empirical Methods in Natural Language Processing (EMNLP-2017), pp703-714, Copenhagen, Denmark,Sept 2017[C]&lt;br /&gt;
* Yue Zhang, Zhenghua Li, Jun Lang, Qingrong Xia, Min Zhang. 2017. Dependency Parsing with Partial Annotations: An Empirical Comparison. Proceedings of the 8th International Joint Conference on Natural Language Processing (IJCNLP-2017), pp49-58. Taiwan, Nov.27-Dec.1, 2017[C]&lt;br /&gt;
&lt;br /&gt;
== 2016 ==&lt;br /&gt;
* Zhenghua Li, Min Zhang, Yue Zhang, Zhanyi Liu, Wenliang Chen, Hua Wu, Haifeng Wang. 2016.Active Learning for Dependency Parsing with Partial Annotation. Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics (ACL-2016), pp. 344-354. Berlin, 7-12 Aug. 2016&lt;br /&gt;
 &lt;br /&gt;
* Wenliang Chen, Min Zhang, Yue Zhang, Xiangyu Duan. Exploiting Meta Features for Dependency Parsing and Part-of-speech Tagging. Artificial Intelligence Journal, 230(2016):173-191, January 2016[J] &lt;br /&gt;
&lt;br /&gt;
* Wenliang Chen, Zhenjie Zhang, Zhenghua Li, Min Zhang. Distributed Representations for Building Profiles of Users and Items from Text Reviews. In Proc. of the 26th International Conference on Computational Linguistics (COLING-2016), pp2143-2153, Osaka, 11-17 Dec. 2016[C]&lt;br /&gt;
&lt;br /&gt;
* Zhenghua Li, Jiayuan Chao, Min Zhang, Jiwen Yang. 2016. Fast Coupled Sequence Labeling on Heterogeneous Annotations via Context-aware Pruning. Proceedings of the 2016 Conference on Empirical Methods in Natural Language Processing (EMNLP-2016), pp753-762, Austin, Texas, USA, Nov 2016[C]&lt;br /&gt;
&lt;br /&gt;
== 2015 ==&lt;br /&gt;
* Wenliang Chen, Min Zhang*, Yue Zhang. Distributed Feature Representations for Dependency Parsing. IEEE/ACM Transactions on Audio, Speech and Language Processing, 23(3):451-460, 2015[J]&lt;br /&gt;
&lt;br /&gt;
* Zhenghua Li, Jiayuan Chao, Min Zhang, Wenliang Chen. 2015. Coupled Sequence Labeling on Heterogeneous Annotations: POS Tagging as a Case Study. Proceedings of the 53rd Annual Meeting of the Association for Computational Linguistics (ACL-2015), pp1783-1792, Beijing, 26-31 July 2015&lt;br /&gt;
== 2014 ==&lt;br /&gt;
* Zhenghua Li, Min Zhang, Wenliang Chen. Ambiguity-aware Ensemble Training for Semi-supervised Dependency Parsing. In Proc. of Annual Meeting of the Association for Computational Linguistics (ACL2014), pp457-467, Baltimore, June 2014&lt;br /&gt;
&lt;br /&gt;
* Min  ZHANG,  Xiangyu  Duan,  Wenliang  CHEN.  Bayesian  Constituent  Context  Model  for Grammar Induction.  IEEE/ACM Transactions on Audio, Speech and Language Processing, 22(2):531-541, 2014[J]&lt;br /&gt;
&lt;br /&gt;
* Zhenghua LI,  Min ZHANG, Wanxiang CHE, Ting LIU, Wenliang CHEN. Joint Optimization for  Chinese  POS  Tagging  and  Dependency  Parsing.  IEEE/ACM Transactions  on  Audio,  Speech  and Language Processing, 22(1):274-286, 2014[J]&lt;br /&gt;
&lt;br /&gt;
* Xiangyu Duan, Min Zhang, Qiaoming Zhu. Synchronous Constituent Context Model for Inducing Bilingual Synchronous Structures. In Proc. of the 25th International Conference on Computational Linguistics (COLING2014), pp783-793, Dublin, Ireland, August 2014&lt;br /&gt;
&lt;br /&gt;
* Wenliang Chen, Yue Zhang, Min Zhang*. Feature Embedding for Dependency Parsing. In Proc. of the 25th International Conference on Computational Linguistics (COLING2014), pp816-826, Dublin, Ireland, August 2014&lt;br /&gt;
&lt;br /&gt;
* Zhenghua Li, Min Zhang, Wenliang Chen. Soft Cross-lingual Syntax Projection for Dependency Parsing. In Proc. of the 25th International Conference on Computational Linguistics (COLING2014), pp783-793, Dublin, Ireland, August 2014&lt;br /&gt;
&lt;br /&gt;
== 2013 ==&lt;br /&gt;
* Min Zhang, Wenliang Chen*, Xiangyu Duan, and Rong Zhang. Improving Graph-based Dependency Parsing Models with Dependency Language Models. IEEE Transactions on Audio, Speech and Language Processing (IEEE-TASL), Vol.21, No.11, pp2313-2323 November 2013. &lt;br /&gt;
&lt;br /&gt;
* Muhua Zhu, Yue Zhang, Wenliang Chen, Min Zhang, and Jingbo Zhu. Fast and Accurate Constituent Parsing. In Proc. of ACL2013, pp 434-443, Sofia, Bulgaria, August 2013.&lt;br /&gt;
&lt;br /&gt;
* Xiangyu Duan, Min Zhang, Wenliang Chen. Smoothing for Bracketing Induction. In Proc. of IJCAI2013, pp 2085-2091, Beijing, China, August 2013.&lt;br /&gt;
&lt;br /&gt;
* Wenliang Chen, Min Zhang, Yue Zhang. Semi-Supervised Feature Transformation for Dependency Parsing. In Proc. of EMNLP2013, pp1303-1313, Seattle, Washington, USA, 18-21 October 2013.&lt;br /&gt;
&lt;br /&gt;
== 更古老 ==&lt;br /&gt;
&lt;br /&gt;
* 请查看各位成员的主页&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
== 参考格式 ==&lt;br /&gt;
期刊格式：[作者列表]. [题目]. [期刊名], [卷号(期):起止页码], [年份][J]&lt;br /&gt;
* Wenliang Chen, Min Zhang*, Yue Zhang. Distributed Feature Representations for Dependency Parsing. IEEE/ACM Transactions on Audio, Speech and Language Processing, 23(3):451-460, 2015[J]&lt;br /&gt;
&lt;br /&gt;
会议格式：[作者列表]. [题目]. [In Proc. of 会议名], [起止页码], [地点], [会议时间][C] &lt;br /&gt;
* Wenliang Chen, Yue Zhang, Min Zhang*. Feature Embedding for Dependency Parsing. In Proc. of the 25th International Conference on Computational Linguistics (COLING-2014), pp816-826, Dublin, Ireland, August 2014[C]&lt;br /&gt;
&lt;br /&gt;
录用格式：[作者列表]. [题目]. [期刊名/会议名], 已录用&lt;br /&gt;
* Wenliang Chen. Feature Embedding for Dependency Parsing. CCL-2017, 已录用&lt;/div&gt;</summary>
		<author><name>Liying</name></author>
	</entry>
	<entry>
		<id>http://hlt.suda.edu.cn/index.php?title=Ir-2019-spring&amp;diff=1296</id>
		<title>Ir-2019-spring</title>
		<link rel="alternate" type="text/html" href="http://hlt.suda.edu.cn/index.php?title=Ir-2019-spring&amp;diff=1296"/>
		<updated>2019-07-06T02:49:03Z</updated>

		<summary type="html">&lt;p&gt;Liying：/* 课程建议 */&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;= 信息检索课程设计（Information Retrieval）Course Resources =&lt;br /&gt;
&lt;br /&gt;
Teacher: [http://hlt.suda.edu.cn/~zhli/en.html 李正华]&lt;br /&gt;
&lt;br /&gt;
Teach Assistant: &lt;br /&gt;
&lt;br /&gt;
课程交流学习群（qq）---- 群名称: ir-2019-spring 群 号: 697444164&lt;br /&gt;
&lt;br /&gt;
2019春季学期&lt;br /&gt;
周二5-8节&lt;br /&gt;
理工楼247和238&lt;br /&gt;
&lt;br /&gt;
= 课程建议 =&lt;br /&gt;
* 每个作业，截止时间后，把成绩发给大家，并用ppt给大家讲一下批作业发现的问题，题目分析&lt;br /&gt;
&lt;br /&gt;
= 计算成绩的规则和说明 =&lt;br /&gt;
*实验作业:70-80分&lt;br /&gt;
** 一系列作业，每个作业10-20分&lt;br /&gt;
** 必须按照规定时间将实验报告+源代码，提交到csteaching&lt;br /&gt;
&lt;br /&gt;
* 期末面对面小测验：10分（待定）&lt;br /&gt;
** 考察课程相关的基础知识，看看作业是否是自己做的&lt;br /&gt;
&lt;br /&gt;
* 平时成绩：10-20分&lt;br /&gt;
** 不能迟到、早退，特殊情况必须请假，并带辅导员签字的假条；&lt;br /&gt;
** 点名时，如果发现名单上没有你的名字，及时提出&lt;br /&gt;
&lt;br /&gt;
= 提交作业说明 =&lt;br /&gt;
* 网址：[http://csteaching.suda.edu.cn csteaching]&lt;br /&gt;
* 在规定时间内提交作业，包含两部分&lt;br /&gt;
** 实验报告（word或pdf）&lt;br /&gt;
*** 认真填写个人信息、实验题目、实验内容等&lt;br /&gt;
*** 不要大段粘贴代码，最多可以粘贴核心的一小段代码&lt;br /&gt;
*** 写清楚自己的解决思路，尤其是遇到的难点和如何解决&lt;br /&gt;
*** 建议可以画流程图或者写伪代码&lt;br /&gt;
*** 将程序运行结果截图&lt;br /&gt;
** 附件（.zip压缩包）&lt;br /&gt;
*** 源代码&lt;br /&gt;
*** readme.txt文件：说明如何运行你的程序，需要什么环境，如windows或linux，python版本如python3.5&lt;br /&gt;
* 提交前自我检查&lt;br /&gt;
** 是否有包含readme.txt文件解释如何编译执行你的程序。如没有该文件，将减分&lt;br /&gt;
** 是否认真完成实验报告&lt;br /&gt;
** 是否可以按照readme.txt正确编译和运行程序&lt;br /&gt;
** 是否包含别人的代码&lt;br /&gt;
** 期末可能会用软件做自动抄袭检查&lt;br /&gt;
* 提交作业命名规则&lt;br /&gt;
** 实验报告（姓名学号.doc或姓名学号.pdf）&lt;br /&gt;
** 附件（姓名学号.zip）&lt;br /&gt;
&lt;br /&gt;
== 实验报告word模板 ==&lt;br /&gt;
* [http://hlt.suda.edu.cn/~zhli/teach/ir-2019-spring/report.doc 下载]&lt;br /&gt;
&lt;br /&gt;
== 信息检索课程介绍 ==&lt;br /&gt;
* [http://hlt.suda.edu.cn/~zhli/teach/ir-2019-spring/ir-introduction-v0.4.pdf PPT下载]&lt;br /&gt;
&lt;br /&gt;
= 作业 8：有监督隐马尔可夫模型HMM：用于词性标注 =&lt;br /&gt;
* 上课时间：2019.5.14&lt;br /&gt;
* 极大似然估计推导&lt;br /&gt;
** 极大似然估计的由来，公式推导见 [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/max-eq.pdf PDF下载] &lt;br /&gt;
**  HMM模型中极大似然估计的由来，公式推导见 [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/hmm-eq.pdf PDF下载] &lt;br /&gt;
* 隐马尔科夫模型（HMM）  &lt;br /&gt;
** Collins教授的课件 [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/collins-tagging.pdf PDF下载]，介绍至三元HMM模型最大似然参数估计，未讲Viterbi解码。&lt;br /&gt;
** 李老师的课件 [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/HMM-v2.pptx PPT下载]，李老师新增一页PPT [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/zhli-add.ppt PPT下载]&lt;br /&gt;
** Viterbi解码的一个动画例子[http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/hmm-zhli.pdf PDF下载]&lt;br /&gt;
* 数据&lt;br /&gt;
** 数据下载   [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/data.tar.gz data下载]&lt;br /&gt;
&lt;br /&gt;
= 作业 7：综合练习：桌面搜索 或 苏大网页搜索 =&lt;br /&gt;
* 两个作业任选一个，后一个作业更难，分数会相对高一些&lt;br /&gt;
* 把之前所有的内容串起来&lt;br /&gt;
* 桌面搜索&lt;br /&gt;
** 对整个操作系统所有的文件名建立倒排&lt;br /&gt;
** 用户输入一些关键字，可以返回相关（根据tf-idf排序）的文件&lt;br /&gt;
** 不要求分析文件内容，只看文件名即可。&lt;br /&gt;
* 苏大网页搜索&lt;br /&gt;
** 需要爬取所有的苏大网页，从苏大主页开始，根据锚文本和链接递归爬取&lt;br /&gt;
** 正文抽取&lt;br /&gt;
** 建立倒排&lt;br /&gt;
** 支持查询和排序&lt;br /&gt;
&lt;br /&gt;
= 作业 6：网页排序 =&lt;br /&gt;
* 上课时间：2019.4.23&lt;br /&gt;
* 课件 &lt;br /&gt;
** 网页排序原理课件  [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/web-page-rank.ppt PPT下载]  &lt;br /&gt;
** 网页排序实验作业课件  [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/web-page-rank-task.ppt PPT下载]  &lt;br /&gt;
* 数据&lt;br /&gt;
** 数据下载   [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/files-web-page.tar.gz data下载]&lt;br /&gt;
* 作业提交时间截止时间：2019.5.14上机课之前&lt;br /&gt;
&lt;br /&gt;
= 作业 5：中文多粒度分词标注 =&lt;br /&gt;
* 上课时间：2019.4.16&lt;br /&gt;
* 中文多粒度分词标注系统网址：http://101.132.166.249/anno-sys/index.php?action=index&lt;br /&gt;
* 多粒度分词标注规范  [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/MWS_guideline.pdf PDF下载]  &lt;br /&gt;
* 多粒度分词介绍以及标注系统使用说明  [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/MWS.pptx PPT下载]&lt;br /&gt;
* 作业完成时间：2019.4.26上午12：00以前。&lt;br /&gt;
*作业完成要求：完成110句的标注以及所有的学习任务。&lt;br /&gt;
&lt;br /&gt;
= 作业 4：倒排索引 =&lt;br /&gt;
&lt;br /&gt;
* 2019.3.26&lt;br /&gt;
* 课件 &lt;br /&gt;
** 倒排索引课件  [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/inverted-index.ppt PPT下载] &lt;br /&gt;
** 倒排索引课件(简化版)   [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/inverted-index-simplified.ppt PPT下载]  &lt;br /&gt;
** 倒排索引实验课件  [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/exp-inverted-index.ppt PPT下载]  &lt;br /&gt;
* 数据&lt;br /&gt;
** 数据下载   [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/files.tar.gz data下载]&lt;br /&gt;
* 作业提交时间截止时间：2019.4.30下课以前&lt;br /&gt;
&lt;br /&gt;
= 作业 3：网页正文抽取 =&lt;br /&gt;
&lt;br /&gt;
* 2019.3.26&lt;br /&gt;
* 课件 &lt;br /&gt;
** [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/web-page-content-extraction.ppt PPT下载] &lt;br /&gt;
** [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/web-page-content-extraction.pdf PDF下载]  &lt;br /&gt;
* 数据&lt;br /&gt;
**[http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/1.html 1.html]&lt;br /&gt;
**[http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/2.html 2.html]&lt;br /&gt;
&lt;br /&gt;
* 作业提交时间截止时间：2019.4.2&lt;br /&gt;
&lt;br /&gt;
= 作业 2：单词计数 =&lt;br /&gt;
* 2019.3.12&lt;br /&gt;
* 课件 [http://hlt.suda.edu.cn/~zhli/teach/ir-2019-spring/word-count.pdf PPT下载]&lt;br /&gt;
* 数据 [http://hlt.suda.edu.cn/~zhli/teach/ir-2019-spring/sample-en.txt txt下载]&lt;br /&gt;
* 作业提交时间截止时间：2019.4.2&lt;br /&gt;
&lt;br /&gt;
= 作业 1：最大匹配分词 = &lt;br /&gt;
* 2019.3.5&lt;br /&gt;
* 2019.3.19上机课前提交&lt;br /&gt;
*课件：前向最大匹配 PDF文件--[[文件:Word-seg-max-match.pdf]]；PPT文件--[[文件:Word-seg-max-match.zip]]&lt;br /&gt;
&lt;br /&gt;
*数据下载：&lt;br /&gt;
**字典：[[文件:dict.txt]] &lt;br /&gt;
**待分词：[[文件:sentence.txt]] &lt;br /&gt;
**正确答案（人工标注的，你的模型的预测结果要和这个文件进行对比，从而得到P/R/F值）：[[文件:answer.txt]]；&lt;br /&gt;
** 正向最大匹配分词模型的预测结果（如果你的程序写对了，那么应该和这个结果一模一样）：[[文件:out.txt]]&lt;br /&gt;
&lt;br /&gt;
*正确实验结果&lt;br /&gt;
**正确识别的词数：20263&lt;br /&gt;
**识别出的总体个数：20397&lt;br /&gt;
**测试集中的总体个数：20454&lt;br /&gt;
**正确率：0.99343&lt;br /&gt;
**召回率：0.99066&lt;br /&gt;
**F值：0.99204&lt;/div&gt;</summary>
		<author><name>Liying</name></author>
	</entry>
	<entry>
		<id>http://hlt.suda.edu.cn/index.php?title=Ir-2019-spring&amp;diff=1295</id>
		<title>Ir-2019-spring</title>
		<link rel="alternate" type="text/html" href="http://hlt.suda.edu.cn/index.php?title=Ir-2019-spring&amp;diff=1295"/>
		<updated>2019-07-06T02:45:25Z</updated>

		<summary type="html">&lt;p&gt;Liying：/* 课程建议 */&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;= 信息检索课程设计（Information Retrieval）Course Resources =&lt;br /&gt;
&lt;br /&gt;
Teacher: [http://hlt.suda.edu.cn/~zhli/en.html 李正华]&lt;br /&gt;
&lt;br /&gt;
Teach Assistant: &lt;br /&gt;
&lt;br /&gt;
课程交流学习群（qq）---- 群名称: ir-2019-spring 群 号: 697444164&lt;br /&gt;
&lt;br /&gt;
2019春季学期&lt;br /&gt;
周二5-8节&lt;br /&gt;
理工楼247和238&lt;br /&gt;
&lt;br /&gt;
= 课程建议 =&lt;br /&gt;
* _每个作业，截止时间后，把成绩发给大家，并用ppt给大家讲一下批作业发现的问题，题目分析_&lt;br /&gt;
&lt;br /&gt;
= 计算成绩的规则和说明 =&lt;br /&gt;
*实验作业:70-80分&lt;br /&gt;
** 一系列作业，每个作业10-20分&lt;br /&gt;
** 必须按照规定时间将实验报告+源代码，提交到csteaching&lt;br /&gt;
&lt;br /&gt;
* 期末面对面小测验：10分（待定）&lt;br /&gt;
** 考察课程相关的基础知识，看看作业是否是自己做的&lt;br /&gt;
&lt;br /&gt;
* 平时成绩：10-20分&lt;br /&gt;
** 不能迟到、早退，特殊情况必须请假，并带辅导员签字的假条；&lt;br /&gt;
** 点名时，如果发现名单上没有你的名字，及时提出&lt;br /&gt;
&lt;br /&gt;
= 提交作业说明 =&lt;br /&gt;
* 网址：[http://csteaching.suda.edu.cn csteaching]&lt;br /&gt;
* 在规定时间内提交作业，包含两部分&lt;br /&gt;
** 实验报告（word或pdf）&lt;br /&gt;
*** 认真填写个人信息、实验题目、实验内容等&lt;br /&gt;
*** 不要大段粘贴代码，最多可以粘贴核心的一小段代码&lt;br /&gt;
*** 写清楚自己的解决思路，尤其是遇到的难点和如何解决&lt;br /&gt;
*** 建议可以画流程图或者写伪代码&lt;br /&gt;
*** 将程序运行结果截图&lt;br /&gt;
** 附件（.zip压缩包）&lt;br /&gt;
*** 源代码&lt;br /&gt;
*** readme.txt文件：说明如何运行你的程序，需要什么环境，如windows或linux，python版本如python3.5&lt;br /&gt;
* 提交前自我检查&lt;br /&gt;
** 是否有包含readme.txt文件解释如何编译执行你的程序。如没有该文件，将减分&lt;br /&gt;
** 是否认真完成实验报告&lt;br /&gt;
** 是否可以按照readme.txt正确编译和运行程序&lt;br /&gt;
** 是否包含别人的代码&lt;br /&gt;
** 期末可能会用软件做自动抄袭检查&lt;br /&gt;
* 提交作业命名规则&lt;br /&gt;
** 实验报告（姓名学号.doc或姓名学号.pdf）&lt;br /&gt;
** 附件（姓名学号.zip）&lt;br /&gt;
&lt;br /&gt;
== 实验报告word模板 ==&lt;br /&gt;
* [http://hlt.suda.edu.cn/~zhli/teach/ir-2019-spring/report.doc 下载]&lt;br /&gt;
&lt;br /&gt;
== 信息检索课程介绍 ==&lt;br /&gt;
* [http://hlt.suda.edu.cn/~zhli/teach/ir-2019-spring/ir-introduction-v0.4.pdf PPT下载]&lt;br /&gt;
&lt;br /&gt;
= 作业 8：有监督隐马尔可夫模型HMM：用于词性标注 =&lt;br /&gt;
* 上课时间：2019.5.14&lt;br /&gt;
* 极大似然估计推导&lt;br /&gt;
** 极大似然估计的由来，公式推导见 [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/max-eq.pdf PDF下载] &lt;br /&gt;
**  HMM模型中极大似然估计的由来，公式推导见 [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/hmm-eq.pdf PDF下载] &lt;br /&gt;
* 隐马尔科夫模型（HMM）  &lt;br /&gt;
** Collins教授的课件 [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/collins-tagging.pdf PDF下载]，介绍至三元HMM模型最大似然参数估计，未讲Viterbi解码。&lt;br /&gt;
** 李老师的课件 [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/HMM-v2.pptx PPT下载]，李老师新增一页PPT [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/zhli-add.ppt PPT下载]&lt;br /&gt;
** Viterbi解码的一个动画例子[http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/hmm-zhli.pdf PDF下载]&lt;br /&gt;
* 数据&lt;br /&gt;
** 数据下载   [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/data.tar.gz data下载]&lt;br /&gt;
&lt;br /&gt;
= 作业 7：综合练习：桌面搜索 或 苏大网页搜索 =&lt;br /&gt;
* 两个作业任选一个，后一个作业更难，分数会相对高一些&lt;br /&gt;
* 把之前所有的内容串起来&lt;br /&gt;
* 桌面搜索&lt;br /&gt;
** 对整个操作系统所有的文件名建立倒排&lt;br /&gt;
** 用户输入一些关键字，可以返回相关（根据tf-idf排序）的文件&lt;br /&gt;
** 不要求分析文件内容，只看文件名即可。&lt;br /&gt;
* 苏大网页搜索&lt;br /&gt;
** 需要爬取所有的苏大网页，从苏大主页开始，根据锚文本和链接递归爬取&lt;br /&gt;
** 正文抽取&lt;br /&gt;
** 建立倒排&lt;br /&gt;
** 支持查询和排序&lt;br /&gt;
&lt;br /&gt;
= 作业 6：网页排序 =&lt;br /&gt;
* 上课时间：2019.4.23&lt;br /&gt;
* 课件 &lt;br /&gt;
** 网页排序原理课件  [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/web-page-rank.ppt PPT下载]  &lt;br /&gt;
** 网页排序实验作业课件  [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/web-page-rank-task.ppt PPT下载]  &lt;br /&gt;
* 数据&lt;br /&gt;
** 数据下载   [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/files-web-page.tar.gz data下载]&lt;br /&gt;
* 作业提交时间截止时间：2019.5.14上机课之前&lt;br /&gt;
&lt;br /&gt;
= 作业 5：中文多粒度分词标注 =&lt;br /&gt;
* 上课时间：2019.4.16&lt;br /&gt;
* 中文多粒度分词标注系统网址：http://101.132.166.249/anno-sys/index.php?action=index&lt;br /&gt;
* 多粒度分词标注规范  [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/MWS_guideline.pdf PDF下载]  &lt;br /&gt;
* 多粒度分词介绍以及标注系统使用说明  [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/MWS.pptx PPT下载]&lt;br /&gt;
* 作业完成时间：2019.4.26上午12：00以前。&lt;br /&gt;
*作业完成要求：完成110句的标注以及所有的学习任务。&lt;br /&gt;
&lt;br /&gt;
= 作业 4：倒排索引 =&lt;br /&gt;
&lt;br /&gt;
* 2019.3.26&lt;br /&gt;
* 课件 &lt;br /&gt;
** 倒排索引课件  [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/inverted-index.ppt PPT下载] &lt;br /&gt;
** 倒排索引课件(简化版)   [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/inverted-index-simplified.ppt PPT下载]  &lt;br /&gt;
** 倒排索引实验课件  [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/exp-inverted-index.ppt PPT下载]  &lt;br /&gt;
* 数据&lt;br /&gt;
** 数据下载   [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/files.tar.gz data下载]&lt;br /&gt;
* 作业提交时间截止时间：2019.4.30下课以前&lt;br /&gt;
&lt;br /&gt;
= 作业 3：网页正文抽取 =&lt;br /&gt;
&lt;br /&gt;
* 2019.3.26&lt;br /&gt;
* 课件 &lt;br /&gt;
** [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/web-page-content-extraction.ppt PPT下载] &lt;br /&gt;
** [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/web-page-content-extraction.pdf PDF下载]  &lt;br /&gt;
* 数据&lt;br /&gt;
**[http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/1.html 1.html]&lt;br /&gt;
**[http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/2.html 2.html]&lt;br /&gt;
&lt;br /&gt;
* 作业提交时间截止时间：2019.4.2&lt;br /&gt;
&lt;br /&gt;
= 作业 2：单词计数 =&lt;br /&gt;
* 2019.3.12&lt;br /&gt;
* 课件 [http://hlt.suda.edu.cn/~zhli/teach/ir-2019-spring/word-count.pdf PPT下载]&lt;br /&gt;
* 数据 [http://hlt.suda.edu.cn/~zhli/teach/ir-2019-spring/sample-en.txt txt下载]&lt;br /&gt;
* 作业提交时间截止时间：2019.4.2&lt;br /&gt;
&lt;br /&gt;
= 作业 1：最大匹配分词 = &lt;br /&gt;
* 2019.3.5&lt;br /&gt;
* 2019.3.19上机课前提交&lt;br /&gt;
*课件：前向最大匹配 PDF文件--[[文件:Word-seg-max-match.pdf]]；PPT文件--[[文件:Word-seg-max-match.zip]]&lt;br /&gt;
&lt;br /&gt;
*数据下载：&lt;br /&gt;
**字典：[[文件:dict.txt]] &lt;br /&gt;
**待分词：[[文件:sentence.txt]] &lt;br /&gt;
**正确答案（人工标注的，你的模型的预测结果要和这个文件进行对比，从而得到P/R/F值）：[[文件:answer.txt]]；&lt;br /&gt;
** 正向最大匹配分词模型的预测结果（如果你的程序写对了，那么应该和这个结果一模一样）：[[文件:out.txt]]&lt;br /&gt;
&lt;br /&gt;
*正确实验结果&lt;br /&gt;
**正确识别的词数：20263&lt;br /&gt;
**识别出的总体个数：20397&lt;br /&gt;
**测试集中的总体个数：20454&lt;br /&gt;
**正确率：0.99343&lt;br /&gt;
**召回率：0.99066&lt;br /&gt;
**F值：0.99204&lt;/div&gt;</summary>
		<author><name>Liying</name></author>
	</entry>
	<entry>
		<id>http://hlt.suda.edu.cn/index.php?title=Ir-2019-spring&amp;diff=1294</id>
		<title>Ir-2019-spring</title>
		<link rel="alternate" type="text/html" href="http://hlt.suda.edu.cn/index.php?title=Ir-2019-spring&amp;diff=1294"/>
		<updated>2019-07-06T02:45:10Z</updated>

		<summary type="html">&lt;p&gt;Liying：/* 课程建议 */&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;= 信息检索课程设计（Information Retrieval）Course Resources =&lt;br /&gt;
&lt;br /&gt;
Teacher: [http://hlt.suda.edu.cn/~zhli/en.html 李正华]&lt;br /&gt;
&lt;br /&gt;
Teach Assistant: &lt;br /&gt;
&lt;br /&gt;
课程交流学习群（qq）---- 群名称: ir-2019-spring 群 号: 697444164&lt;br /&gt;
&lt;br /&gt;
2019春季学期&lt;br /&gt;
周二5-8节&lt;br /&gt;
理工楼247和238&lt;br /&gt;
&lt;br /&gt;
= 课程建议 =&lt;br /&gt;
* __每个作业，截止时间后，把成绩发给大家，并用ppt给大家讲一下批作业发现的问题，题目分析__&lt;br /&gt;
&lt;br /&gt;
= 计算成绩的规则和说明 =&lt;br /&gt;
*实验作业:70-80分&lt;br /&gt;
** 一系列作业，每个作业10-20分&lt;br /&gt;
** 必须按照规定时间将实验报告+源代码，提交到csteaching&lt;br /&gt;
&lt;br /&gt;
* 期末面对面小测验：10分（待定）&lt;br /&gt;
** 考察课程相关的基础知识，看看作业是否是自己做的&lt;br /&gt;
&lt;br /&gt;
* 平时成绩：10-20分&lt;br /&gt;
** 不能迟到、早退，特殊情况必须请假，并带辅导员签字的假条；&lt;br /&gt;
** 点名时，如果发现名单上没有你的名字，及时提出&lt;br /&gt;
&lt;br /&gt;
= 提交作业说明 =&lt;br /&gt;
* 网址：[http://csteaching.suda.edu.cn csteaching]&lt;br /&gt;
* 在规定时间内提交作业，包含两部分&lt;br /&gt;
** 实验报告（word或pdf）&lt;br /&gt;
*** 认真填写个人信息、实验题目、实验内容等&lt;br /&gt;
*** 不要大段粘贴代码，最多可以粘贴核心的一小段代码&lt;br /&gt;
*** 写清楚自己的解决思路，尤其是遇到的难点和如何解决&lt;br /&gt;
*** 建议可以画流程图或者写伪代码&lt;br /&gt;
*** 将程序运行结果截图&lt;br /&gt;
** 附件（.zip压缩包）&lt;br /&gt;
*** 源代码&lt;br /&gt;
*** readme.txt文件：说明如何运行你的程序，需要什么环境，如windows或linux，python版本如python3.5&lt;br /&gt;
* 提交前自我检查&lt;br /&gt;
** 是否有包含readme.txt文件解释如何编译执行你的程序。如没有该文件，将减分&lt;br /&gt;
** 是否认真完成实验报告&lt;br /&gt;
** 是否可以按照readme.txt正确编译和运行程序&lt;br /&gt;
** 是否包含别人的代码&lt;br /&gt;
** 期末可能会用软件做自动抄袭检查&lt;br /&gt;
* 提交作业命名规则&lt;br /&gt;
** 实验报告（姓名学号.doc或姓名学号.pdf）&lt;br /&gt;
** 附件（姓名学号.zip）&lt;br /&gt;
&lt;br /&gt;
== 实验报告word模板 ==&lt;br /&gt;
* [http://hlt.suda.edu.cn/~zhli/teach/ir-2019-spring/report.doc 下载]&lt;br /&gt;
&lt;br /&gt;
== 信息检索课程介绍 ==&lt;br /&gt;
* [http://hlt.suda.edu.cn/~zhli/teach/ir-2019-spring/ir-introduction-v0.4.pdf PPT下载]&lt;br /&gt;
&lt;br /&gt;
= 作业 8：有监督隐马尔可夫模型HMM：用于词性标注 =&lt;br /&gt;
* 上课时间：2019.5.14&lt;br /&gt;
* 极大似然估计推导&lt;br /&gt;
** 极大似然估计的由来，公式推导见 [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/max-eq.pdf PDF下载] &lt;br /&gt;
**  HMM模型中极大似然估计的由来，公式推导见 [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/hmm-eq.pdf PDF下载] &lt;br /&gt;
* 隐马尔科夫模型（HMM）  &lt;br /&gt;
** Collins教授的课件 [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/collins-tagging.pdf PDF下载]，介绍至三元HMM模型最大似然参数估计，未讲Viterbi解码。&lt;br /&gt;
** 李老师的课件 [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/HMM-v2.pptx PPT下载]，李老师新增一页PPT [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/zhli-add.ppt PPT下载]&lt;br /&gt;
** Viterbi解码的一个动画例子[http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/hmm-zhli.pdf PDF下载]&lt;br /&gt;
* 数据&lt;br /&gt;
** 数据下载   [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/data.tar.gz data下载]&lt;br /&gt;
&lt;br /&gt;
= 作业 7：综合练习：桌面搜索 或 苏大网页搜索 =&lt;br /&gt;
* 两个作业任选一个，后一个作业更难，分数会相对高一些&lt;br /&gt;
* 把之前所有的内容串起来&lt;br /&gt;
* 桌面搜索&lt;br /&gt;
** 对整个操作系统所有的文件名建立倒排&lt;br /&gt;
** 用户输入一些关键字，可以返回相关（根据tf-idf排序）的文件&lt;br /&gt;
** 不要求分析文件内容，只看文件名即可。&lt;br /&gt;
* 苏大网页搜索&lt;br /&gt;
** 需要爬取所有的苏大网页，从苏大主页开始，根据锚文本和链接递归爬取&lt;br /&gt;
** 正文抽取&lt;br /&gt;
** 建立倒排&lt;br /&gt;
** 支持查询和排序&lt;br /&gt;
&lt;br /&gt;
= 作业 6：网页排序 =&lt;br /&gt;
* 上课时间：2019.4.23&lt;br /&gt;
* 课件 &lt;br /&gt;
** 网页排序原理课件  [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/web-page-rank.ppt PPT下载]  &lt;br /&gt;
** 网页排序实验作业课件  [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/web-page-rank-task.ppt PPT下载]  &lt;br /&gt;
* 数据&lt;br /&gt;
** 数据下载   [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/files-web-page.tar.gz data下载]&lt;br /&gt;
* 作业提交时间截止时间：2019.5.14上机课之前&lt;br /&gt;
&lt;br /&gt;
= 作业 5：中文多粒度分词标注 =&lt;br /&gt;
* 上课时间：2019.4.16&lt;br /&gt;
* 中文多粒度分词标注系统网址：http://101.132.166.249/anno-sys/index.php?action=index&lt;br /&gt;
* 多粒度分词标注规范  [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/MWS_guideline.pdf PDF下载]  &lt;br /&gt;
* 多粒度分词介绍以及标注系统使用说明  [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/MWS.pptx PPT下载]&lt;br /&gt;
* 作业完成时间：2019.4.26上午12：00以前。&lt;br /&gt;
*作业完成要求：完成110句的标注以及所有的学习任务。&lt;br /&gt;
&lt;br /&gt;
= 作业 4：倒排索引 =&lt;br /&gt;
&lt;br /&gt;
* 2019.3.26&lt;br /&gt;
* 课件 &lt;br /&gt;
** 倒排索引课件  [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/inverted-index.ppt PPT下载] &lt;br /&gt;
** 倒排索引课件(简化版)   [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/inverted-index-simplified.ppt PPT下载]  &lt;br /&gt;
** 倒排索引实验课件  [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/exp-inverted-index.ppt PPT下载]  &lt;br /&gt;
* 数据&lt;br /&gt;
** 数据下载   [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/files.tar.gz data下载]&lt;br /&gt;
* 作业提交时间截止时间：2019.4.30下课以前&lt;br /&gt;
&lt;br /&gt;
= 作业 3：网页正文抽取 =&lt;br /&gt;
&lt;br /&gt;
* 2019.3.26&lt;br /&gt;
* 课件 &lt;br /&gt;
** [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/web-page-content-extraction.ppt PPT下载] &lt;br /&gt;
** [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/web-page-content-extraction.pdf PDF下载]  &lt;br /&gt;
* 数据&lt;br /&gt;
**[http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/1.html 1.html]&lt;br /&gt;
**[http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/2.html 2.html]&lt;br /&gt;
&lt;br /&gt;
* 作业提交时间截止时间：2019.4.2&lt;br /&gt;
&lt;br /&gt;
= 作业 2：单词计数 =&lt;br /&gt;
* 2019.3.12&lt;br /&gt;
* 课件 [http://hlt.suda.edu.cn/~zhli/teach/ir-2019-spring/word-count.pdf PPT下载]&lt;br /&gt;
* 数据 [http://hlt.suda.edu.cn/~zhli/teach/ir-2019-spring/sample-en.txt txt下载]&lt;br /&gt;
* 作业提交时间截止时间：2019.4.2&lt;br /&gt;
&lt;br /&gt;
= 作业 1：最大匹配分词 = &lt;br /&gt;
* 2019.3.5&lt;br /&gt;
* 2019.3.19上机课前提交&lt;br /&gt;
*课件：前向最大匹配 PDF文件--[[文件:Word-seg-max-match.pdf]]；PPT文件--[[文件:Word-seg-max-match.zip]]&lt;br /&gt;
&lt;br /&gt;
*数据下载：&lt;br /&gt;
**字典：[[文件:dict.txt]] &lt;br /&gt;
**待分词：[[文件:sentence.txt]] &lt;br /&gt;
**正确答案（人工标注的，你的模型的预测结果要和这个文件进行对比，从而得到P/R/F值）：[[文件:answer.txt]]；&lt;br /&gt;
** 正向最大匹配分词模型的预测结果（如果你的程序写对了，那么应该和这个结果一模一样）：[[文件:out.txt]]&lt;br /&gt;
&lt;br /&gt;
*正确实验结果&lt;br /&gt;
**正确识别的词数：20263&lt;br /&gt;
**识别出的总体个数：20397&lt;br /&gt;
**测试集中的总体个数：20454&lt;br /&gt;
**正确率：0.99343&lt;br /&gt;
**召回率：0.99066&lt;br /&gt;
**F值：0.99204&lt;/div&gt;</summary>
		<author><name>Liying</name></author>
	</entry>
	<entry>
		<id>http://hlt.suda.edu.cn/index.php?title=Ir-2019-spring&amp;diff=1293</id>
		<title>Ir-2019-spring</title>
		<link rel="alternate" type="text/html" href="http://hlt.suda.edu.cn/index.php?title=Ir-2019-spring&amp;diff=1293"/>
		<updated>2019-07-06T02:41:45Z</updated>

		<summary type="html">&lt;p&gt;Liying：&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;= 信息检索课程设计（Information Retrieval）Course Resources =&lt;br /&gt;
&lt;br /&gt;
Teacher: [http://hlt.suda.edu.cn/~zhli/en.html 李正华]&lt;br /&gt;
&lt;br /&gt;
Teach Assistant: &lt;br /&gt;
&lt;br /&gt;
课程交流学习群（qq）---- 群名称: ir-2019-spring 群 号: 697444164&lt;br /&gt;
&lt;br /&gt;
2019春季学期&lt;br /&gt;
周二5-8节&lt;br /&gt;
理工楼247和238&lt;br /&gt;
&lt;br /&gt;
= 课程建议 =&lt;br /&gt;
* 每个作业，截止时间后，把成绩发给大家，并用ppt给大家讲一下批作业发现的问题，题目分析&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
= 计算成绩的规则和说明 =&lt;br /&gt;
*实验作业:70-80分&lt;br /&gt;
** 一系列作业，每个作业10-20分&lt;br /&gt;
** 必须按照规定时间将实验报告+源代码，提交到csteaching&lt;br /&gt;
&lt;br /&gt;
* 期末面对面小测验：10分（待定）&lt;br /&gt;
** 考察课程相关的基础知识，看看作业是否是自己做的&lt;br /&gt;
&lt;br /&gt;
* 平时成绩：10-20分&lt;br /&gt;
** 不能迟到、早退，特殊情况必须请假，并带辅导员签字的假条；&lt;br /&gt;
** 点名时，如果发现名单上没有你的名字，及时提出&lt;br /&gt;
&lt;br /&gt;
= 提交作业说明 =&lt;br /&gt;
* 网址：[http://csteaching.suda.edu.cn csteaching]&lt;br /&gt;
* 在规定时间内提交作业，包含两部分&lt;br /&gt;
** 实验报告（word或pdf）&lt;br /&gt;
*** 认真填写个人信息、实验题目、实验内容等&lt;br /&gt;
*** 不要大段粘贴代码，最多可以粘贴核心的一小段代码&lt;br /&gt;
*** 写清楚自己的解决思路，尤其是遇到的难点和如何解决&lt;br /&gt;
*** 建议可以画流程图或者写伪代码&lt;br /&gt;
*** 将程序运行结果截图&lt;br /&gt;
** 附件（.zip压缩包）&lt;br /&gt;
*** 源代码&lt;br /&gt;
*** readme.txt文件：说明如何运行你的程序，需要什么环境，如windows或linux，python版本如python3.5&lt;br /&gt;
* 提交前自我检查&lt;br /&gt;
** 是否有包含readme.txt文件解释如何编译执行你的程序。如没有该文件，将减分&lt;br /&gt;
** 是否认真完成实验报告&lt;br /&gt;
** 是否可以按照readme.txt正确编译和运行程序&lt;br /&gt;
** 是否包含别人的代码&lt;br /&gt;
** 期末可能会用软件做自动抄袭检查&lt;br /&gt;
* 提交作业命名规则&lt;br /&gt;
** 实验报告（姓名学号.doc或姓名学号.pdf）&lt;br /&gt;
** 附件（姓名学号.zip）&lt;br /&gt;
&lt;br /&gt;
== 实验报告word模板 ==&lt;br /&gt;
* [http://hlt.suda.edu.cn/~zhli/teach/ir-2019-spring/report.doc 下载]&lt;br /&gt;
&lt;br /&gt;
== 信息检索课程介绍 ==&lt;br /&gt;
* [http://hlt.suda.edu.cn/~zhli/teach/ir-2019-spring/ir-introduction-v0.4.pdf PPT下载]&lt;br /&gt;
&lt;br /&gt;
= 作业 8：有监督隐马尔可夫模型HMM：用于词性标注 =&lt;br /&gt;
* 上课时间：2019.5.14&lt;br /&gt;
* 极大似然估计推导&lt;br /&gt;
** 极大似然估计的由来，公式推导见 [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/max-eq.pdf PDF下载] &lt;br /&gt;
**  HMM模型中极大似然估计的由来，公式推导见 [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/hmm-eq.pdf PDF下载] &lt;br /&gt;
* 隐马尔科夫模型（HMM）  &lt;br /&gt;
** Collins教授的课件 [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/collins-tagging.pdf PDF下载]，介绍至三元HMM模型最大似然参数估计，未讲Viterbi解码。&lt;br /&gt;
** 李老师的课件 [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/HMM-v2.pptx PPT下载]，李老师新增一页PPT [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/zhli-add.ppt PPT下载]&lt;br /&gt;
** Viterbi解码的一个动画例子[http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/hmm-zhli.pdf PDF下载]&lt;br /&gt;
* 数据&lt;br /&gt;
** 数据下载   [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/data.tar.gz data下载]&lt;br /&gt;
&lt;br /&gt;
= 作业 7：综合练习：桌面搜索 或 苏大网页搜索 =&lt;br /&gt;
* 两个作业任选一个，后一个作业更难，分数会相对高一些&lt;br /&gt;
* 把之前所有的内容串起来&lt;br /&gt;
* 桌面搜索&lt;br /&gt;
** 对整个操作系统所有的文件名建立倒排&lt;br /&gt;
** 用户输入一些关键字，可以返回相关（根据tf-idf排序）的文件&lt;br /&gt;
** 不要求分析文件内容，只看文件名即可。&lt;br /&gt;
* 苏大网页搜索&lt;br /&gt;
** 需要爬取所有的苏大网页，从苏大主页开始，根据锚文本和链接递归爬取&lt;br /&gt;
** 正文抽取&lt;br /&gt;
** 建立倒排&lt;br /&gt;
** 支持查询和排序&lt;br /&gt;
&lt;br /&gt;
= 作业 6：网页排序 =&lt;br /&gt;
* 上课时间：2019.4.23&lt;br /&gt;
* 课件 &lt;br /&gt;
** 网页排序原理课件  [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/web-page-rank.ppt PPT下载]  &lt;br /&gt;
** 网页排序实验作业课件  [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/web-page-rank-task.ppt PPT下载]  &lt;br /&gt;
* 数据&lt;br /&gt;
** 数据下载   [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/files-web-page.tar.gz data下载]&lt;br /&gt;
* 作业提交时间截止时间：2019.5.14上机课之前&lt;br /&gt;
&lt;br /&gt;
= 作业 5：中文多粒度分词标注 =&lt;br /&gt;
* 上课时间：2019.4.16&lt;br /&gt;
* 中文多粒度分词标注系统网址：http://101.132.166.249/anno-sys/index.php?action=index&lt;br /&gt;
* 多粒度分词标注规范  [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/MWS_guideline.pdf PDF下载]  &lt;br /&gt;
* 多粒度分词介绍以及标注系统使用说明  [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/MWS.pptx PPT下载]&lt;br /&gt;
* 作业完成时间：2019.4.26上午12：00以前。&lt;br /&gt;
*作业完成要求：完成110句的标注以及所有的学习任务。&lt;br /&gt;
&lt;br /&gt;
= 作业 4：倒排索引 =&lt;br /&gt;
&lt;br /&gt;
* 2019.3.26&lt;br /&gt;
* 课件 &lt;br /&gt;
** 倒排索引课件  [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/inverted-index.ppt PPT下载] &lt;br /&gt;
** 倒排索引课件(简化版)   [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/inverted-index-simplified.ppt PPT下载]  &lt;br /&gt;
** 倒排索引实验课件  [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/exp-inverted-index.ppt PPT下载]  &lt;br /&gt;
* 数据&lt;br /&gt;
** 数据下载   [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/files.tar.gz data下载]&lt;br /&gt;
* 作业提交时间截止时间：2019.4.30下课以前&lt;br /&gt;
&lt;br /&gt;
= 作业 3：网页正文抽取 =&lt;br /&gt;
&lt;br /&gt;
* 2019.3.26&lt;br /&gt;
* 课件 &lt;br /&gt;
** [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/web-page-content-extraction.ppt PPT下载] &lt;br /&gt;
** [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/web-page-content-extraction.pdf PDF下载]  &lt;br /&gt;
* 数据&lt;br /&gt;
**[http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/1.html 1.html]&lt;br /&gt;
**[http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/2.html 2.html]&lt;br /&gt;
&lt;br /&gt;
* 作业提交时间截止时间：2019.4.2&lt;br /&gt;
&lt;br /&gt;
= 作业 2：单词计数 =&lt;br /&gt;
* 2019.3.12&lt;br /&gt;
* 课件 [http://hlt.suda.edu.cn/~zhli/teach/ir-2019-spring/word-count.pdf PPT下载]&lt;br /&gt;
* 数据 [http://hlt.suda.edu.cn/~zhli/teach/ir-2019-spring/sample-en.txt txt下载]&lt;br /&gt;
* 作业提交时间截止时间：2019.4.2&lt;br /&gt;
&lt;br /&gt;
= 作业 1：最大匹配分词 = &lt;br /&gt;
* 2019.3.5&lt;br /&gt;
* 2019.3.19上机课前提交&lt;br /&gt;
*课件：前向最大匹配 PDF文件--[[文件:Word-seg-max-match.pdf]]；PPT文件--[[文件:Word-seg-max-match.zip]]&lt;br /&gt;
&lt;br /&gt;
*数据下载：&lt;br /&gt;
**字典：[[文件:dict.txt]] &lt;br /&gt;
**待分词：[[文件:sentence.txt]] &lt;br /&gt;
**正确答案（人工标注的，你的模型的预测结果要和这个文件进行对比，从而得到P/R/F值）：[[文件:answer.txt]]；&lt;br /&gt;
** 正向最大匹配分词模型的预测结果（如果你的程序写对了，那么应该和这个结果一模一样）：[[文件:out.txt]]&lt;br /&gt;
&lt;br /&gt;
*正确实验结果&lt;br /&gt;
**正确识别的词数：20263&lt;br /&gt;
**识别出的总体个数：20397&lt;br /&gt;
**测试集中的总体个数：20454&lt;br /&gt;
**正确率：0.99343&lt;br /&gt;
**召回率：0.99066&lt;br /&gt;
**F值：0.99204&lt;/div&gt;</summary>
		<author><name>Liying</name></author>
	</entry>
	<entry>
		<id>http://hlt.suda.edu.cn/index.php?title=Ir-2019-spring&amp;diff=1292</id>
		<title>Ir-2019-spring</title>
		<link rel="alternate" type="text/html" href="http://hlt.suda.edu.cn/index.php?title=Ir-2019-spring&amp;diff=1292"/>
		<updated>2019-07-06T02:41:24Z</updated>

		<summary type="html">&lt;p&gt;Liying：&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;= 信息检索课程设计（Information Retrieval）Course Resources =&lt;br /&gt;
&lt;br /&gt;
Teacher: [http://hlt.suda.edu.cn/~zhli/en.html 李正华]&lt;br /&gt;
&lt;br /&gt;
Teach Assistant: &lt;br /&gt;
&lt;br /&gt;
课程交流学习群（qq）---- 群名称: ir-2019-spring 群 号: 697444164&lt;br /&gt;
&lt;br /&gt;
2019春季学期&lt;br /&gt;
周二5-8节&lt;br /&gt;
理工楼247和238&lt;br /&gt;
&lt;br /&gt;
= 课程建议 =&lt;br /&gt;
***每个作业，截止时间后，把成绩发给大家，并用ppt给大家讲一下批作业发现的问题，题目分析***&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
= 计算成绩的规则和说明 =&lt;br /&gt;
*实验作业:70-80分&lt;br /&gt;
** 一系列作业，每个作业10-20分&lt;br /&gt;
** 必须按照规定时间将实验报告+源代码，提交到csteaching&lt;br /&gt;
&lt;br /&gt;
* 期末面对面小测验：10分（待定）&lt;br /&gt;
** 考察课程相关的基础知识，看看作业是否是自己做的&lt;br /&gt;
&lt;br /&gt;
* 平时成绩：10-20分&lt;br /&gt;
** 不能迟到、早退，特殊情况必须请假，并带辅导员签字的假条；&lt;br /&gt;
** 点名时，如果发现名单上没有你的名字，及时提出&lt;br /&gt;
&lt;br /&gt;
= 提交作业说明 =&lt;br /&gt;
* 网址：[http://csteaching.suda.edu.cn csteaching]&lt;br /&gt;
* 在规定时间内提交作业，包含两部分&lt;br /&gt;
** 实验报告（word或pdf）&lt;br /&gt;
*** 认真填写个人信息、实验题目、实验内容等&lt;br /&gt;
*** 不要大段粘贴代码，最多可以粘贴核心的一小段代码&lt;br /&gt;
*** 写清楚自己的解决思路，尤其是遇到的难点和如何解决&lt;br /&gt;
*** 建议可以画流程图或者写伪代码&lt;br /&gt;
*** 将程序运行结果截图&lt;br /&gt;
** 附件（.zip压缩包）&lt;br /&gt;
*** 源代码&lt;br /&gt;
*** readme.txt文件：说明如何运行你的程序，需要什么环境，如windows或linux，python版本如python3.5&lt;br /&gt;
* 提交前自我检查&lt;br /&gt;
** 是否有包含readme.txt文件解释如何编译执行你的程序。如没有该文件，将减分&lt;br /&gt;
** 是否认真完成实验报告&lt;br /&gt;
** 是否可以按照readme.txt正确编译和运行程序&lt;br /&gt;
** 是否包含别人的代码&lt;br /&gt;
** 期末可能会用软件做自动抄袭检查&lt;br /&gt;
* 提交作业命名规则&lt;br /&gt;
** 实验报告（姓名学号.doc或姓名学号.pdf）&lt;br /&gt;
** 附件（姓名学号.zip）&lt;br /&gt;
&lt;br /&gt;
== 实验报告word模板 ==&lt;br /&gt;
* [http://hlt.suda.edu.cn/~zhli/teach/ir-2019-spring/report.doc 下载]&lt;br /&gt;
&lt;br /&gt;
== 信息检索课程介绍 ==&lt;br /&gt;
* [http://hlt.suda.edu.cn/~zhli/teach/ir-2019-spring/ir-introduction-v0.4.pdf PPT下载]&lt;br /&gt;
&lt;br /&gt;
= 作业 8：有监督隐马尔可夫模型HMM：用于词性标注 =&lt;br /&gt;
* 上课时间：2019.5.14&lt;br /&gt;
* 极大似然估计推导&lt;br /&gt;
** 极大似然估计的由来，公式推导见 [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/max-eq.pdf PDF下载] &lt;br /&gt;
**  HMM模型中极大似然估计的由来，公式推导见 [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/hmm-eq.pdf PDF下载] &lt;br /&gt;
* 隐马尔科夫模型（HMM）  &lt;br /&gt;
** Collins教授的课件 [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/collins-tagging.pdf PDF下载]，介绍至三元HMM模型最大似然参数估计，未讲Viterbi解码。&lt;br /&gt;
** 李老师的课件 [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/HMM-v2.pptx PPT下载]，李老师新增一页PPT [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/zhli-add.ppt PPT下载]&lt;br /&gt;
** Viterbi解码的一个动画例子[http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/hmm-zhli.pdf PDF下载]&lt;br /&gt;
* 数据&lt;br /&gt;
** 数据下载   [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/data.tar.gz data下载]&lt;br /&gt;
&lt;br /&gt;
= 作业 7：综合练习：桌面搜索 或 苏大网页搜索 =&lt;br /&gt;
* 两个作业任选一个，后一个作业更难，分数会相对高一些&lt;br /&gt;
* 把之前所有的内容串起来&lt;br /&gt;
* 桌面搜索&lt;br /&gt;
** 对整个操作系统所有的文件名建立倒排&lt;br /&gt;
** 用户输入一些关键字，可以返回相关（根据tf-idf排序）的文件&lt;br /&gt;
** 不要求分析文件内容，只看文件名即可。&lt;br /&gt;
* 苏大网页搜索&lt;br /&gt;
** 需要爬取所有的苏大网页，从苏大主页开始，根据锚文本和链接递归爬取&lt;br /&gt;
** 正文抽取&lt;br /&gt;
** 建立倒排&lt;br /&gt;
** 支持查询和排序&lt;br /&gt;
&lt;br /&gt;
= 作业 6：网页排序 =&lt;br /&gt;
* 上课时间：2019.4.23&lt;br /&gt;
* 课件 &lt;br /&gt;
** 网页排序原理课件  [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/web-page-rank.ppt PPT下载]  &lt;br /&gt;
** 网页排序实验作业课件  [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/web-page-rank-task.ppt PPT下载]  &lt;br /&gt;
* 数据&lt;br /&gt;
** 数据下载   [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/files-web-page.tar.gz data下载]&lt;br /&gt;
* 作业提交时间截止时间：2019.5.14上机课之前&lt;br /&gt;
&lt;br /&gt;
= 作业 5：中文多粒度分词标注 =&lt;br /&gt;
* 上课时间：2019.4.16&lt;br /&gt;
* 中文多粒度分词标注系统网址：http://101.132.166.249/anno-sys/index.php?action=index&lt;br /&gt;
* 多粒度分词标注规范  [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/MWS_guideline.pdf PDF下载]  &lt;br /&gt;
* 多粒度分词介绍以及标注系统使用说明  [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/MWS.pptx PPT下载]&lt;br /&gt;
* 作业完成时间：2019.4.26上午12：00以前。&lt;br /&gt;
*作业完成要求：完成110句的标注以及所有的学习任务。&lt;br /&gt;
&lt;br /&gt;
= 作业 4：倒排索引 =&lt;br /&gt;
&lt;br /&gt;
* 2019.3.26&lt;br /&gt;
* 课件 &lt;br /&gt;
** 倒排索引课件  [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/inverted-index.ppt PPT下载] &lt;br /&gt;
** 倒排索引课件(简化版)   [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/inverted-index-simplified.ppt PPT下载]  &lt;br /&gt;
** 倒排索引实验课件  [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/exp-inverted-index.ppt PPT下载]  &lt;br /&gt;
* 数据&lt;br /&gt;
** 数据下载   [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/files.tar.gz data下载]&lt;br /&gt;
* 作业提交时间截止时间：2019.4.30下课以前&lt;br /&gt;
&lt;br /&gt;
= 作业 3：网页正文抽取 =&lt;br /&gt;
&lt;br /&gt;
* 2019.3.26&lt;br /&gt;
* 课件 &lt;br /&gt;
** [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/web-page-content-extraction.ppt PPT下载] &lt;br /&gt;
** [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/web-page-content-extraction.pdf PDF下载]  &lt;br /&gt;
* 数据&lt;br /&gt;
**[http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/1.html 1.html]&lt;br /&gt;
**[http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/2.html 2.html]&lt;br /&gt;
&lt;br /&gt;
* 作业提交时间截止时间：2019.4.2&lt;br /&gt;
&lt;br /&gt;
= 作业 2：单词计数 =&lt;br /&gt;
* 2019.3.12&lt;br /&gt;
* 课件 [http://hlt.suda.edu.cn/~zhli/teach/ir-2019-spring/word-count.pdf PPT下载]&lt;br /&gt;
* 数据 [http://hlt.suda.edu.cn/~zhli/teach/ir-2019-spring/sample-en.txt txt下载]&lt;br /&gt;
* 作业提交时间截止时间：2019.4.2&lt;br /&gt;
&lt;br /&gt;
= 作业 1：最大匹配分词 = &lt;br /&gt;
* 2019.3.5&lt;br /&gt;
* 2019.3.19上机课前提交&lt;br /&gt;
*课件：前向最大匹配 PDF文件--[[文件:Word-seg-max-match.pdf]]；PPT文件--[[文件:Word-seg-max-match.zip]]&lt;br /&gt;
&lt;br /&gt;
*数据下载：&lt;br /&gt;
**字典：[[文件:dict.txt]] &lt;br /&gt;
**待分词：[[文件:sentence.txt]] &lt;br /&gt;
**正确答案（人工标注的，你的模型的预测结果要和这个文件进行对比，从而得到P/R/F值）：[[文件:answer.txt]]；&lt;br /&gt;
** 正向最大匹配分词模型的预测结果（如果你的程序写对了，那么应该和这个结果一模一样）：[[文件:out.txt]]&lt;br /&gt;
&lt;br /&gt;
*正确实验结果&lt;br /&gt;
**正确识别的词数：20263&lt;br /&gt;
**识别出的总体个数：20397&lt;br /&gt;
**测试集中的总体个数：20454&lt;br /&gt;
**正确率：0.99343&lt;br /&gt;
**召回率：0.99066&lt;br /&gt;
**F值：0.99204&lt;/div&gt;</summary>
		<author><name>Liying</name></author>
	</entry>
	<entry>
		<id>http://hlt.suda.edu.cn/index.php?title=Ir-2019-spring&amp;diff=1139</id>
		<title>Ir-2019-spring</title>
		<link rel="alternate" type="text/html" href="http://hlt.suda.edu.cn/index.php?title=Ir-2019-spring&amp;diff=1139"/>
		<updated>2019-05-14T11:10:39Z</updated>

		<summary type="html">&lt;p&gt;Liying：/* 作业 8：有监督隐马尔可夫模型HMM：用于词性标注 */&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;= 信息检索课程设计（Information Retrieval）Course Resources =&lt;br /&gt;
&lt;br /&gt;
Teacher: [http://hlt.suda.edu.cn/~zhli/en.html 李正华]&lt;br /&gt;
&lt;br /&gt;
Teach Assistant: &lt;br /&gt;
&lt;br /&gt;
课程交流学习群（qq）---- 群名称: ir-2019-spring 群 号: 697444164&lt;br /&gt;
&lt;br /&gt;
2019春季学期&lt;br /&gt;
周二5-8节&lt;br /&gt;
理工楼247和238&lt;br /&gt;
&lt;br /&gt;
= 计算成绩的规则和说明 =&lt;br /&gt;
*实验作业:70-80分&lt;br /&gt;
** 一系列作业，每个作业10-20分&lt;br /&gt;
** 必须按照规定时间将实验报告+源代码，提交到csteaching&lt;br /&gt;
&lt;br /&gt;
* 期末面对面小测验：10分（待定）&lt;br /&gt;
** 考察课程相关的基础知识，看看作业是否是自己做的&lt;br /&gt;
&lt;br /&gt;
* 平时成绩：10-20分&lt;br /&gt;
** 不能迟到、早退，特殊情况必须请假，并带辅导员签字的假条；&lt;br /&gt;
** 点名时，如果发现名单上没有你的名字，及时提出&lt;br /&gt;
&lt;br /&gt;
= 提交作业说明 =&lt;br /&gt;
* 网址：[http://csteaching.suda.edu.cn csteaching]&lt;br /&gt;
* 在规定时间内提交作业，包含两部分&lt;br /&gt;
** 实验报告（word或pdf）&lt;br /&gt;
*** 认真填写个人信息、实验题目、实验内容等&lt;br /&gt;
*** 不要大段粘贴代码，最多可以粘贴核心的一小段代码&lt;br /&gt;
*** 写清楚自己的解决思路，尤其是遇到的难点和如何解决&lt;br /&gt;
*** 建议可以画流程图或者写伪代码&lt;br /&gt;
*** 将程序运行结果截图&lt;br /&gt;
** 附件（.zip压缩包）&lt;br /&gt;
*** 源代码&lt;br /&gt;
*** readme.txt文件：说明如何运行你的程序，需要什么环境，如windows或linux，python版本如python3.5&lt;br /&gt;
* 提交前自我检查&lt;br /&gt;
** 是否有包含readme.txt文件解释如何编译执行你的程序。如没有该文件，将减分&lt;br /&gt;
** 是否认真完成实验报告&lt;br /&gt;
** 是否可以按照readme.txt正确编译和运行程序&lt;br /&gt;
** 是否包含别人的代码&lt;br /&gt;
** 期末可能会用软件做自动抄袭检查&lt;br /&gt;
* 提交作业命名规则&lt;br /&gt;
** 实验报告（姓名学号.doc或姓名学号.pdf）&lt;br /&gt;
** 附件（姓名学号.zip）&lt;br /&gt;
&lt;br /&gt;
== 实验报告word模板 ==&lt;br /&gt;
* [http://hlt.suda.edu.cn/~zhli/teach/ir-2019-spring/report.doc 下载]&lt;br /&gt;
&lt;br /&gt;
== 信息检索课程介绍 ==&lt;br /&gt;
* [http://hlt.suda.edu.cn/~zhli/teach/ir-2019-spring/ir-introduction-v0.4.pdf PPT下载]&lt;br /&gt;
&lt;br /&gt;
= 作业 8：有监督隐马尔可夫模型HMM：用于词性标注 =&lt;br /&gt;
* 上课时间：2019.5.14&lt;br /&gt;
* 极大似然估计推导&lt;br /&gt;
** 极大似然估计的由来，公式推导见 [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/max-eq.pdf PDF下载] &lt;br /&gt;
**  HMM模型中极大似然估计的由来，公式推导见 [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/hmm-eq.pdf PDF下载] &lt;br /&gt;
* 隐马尔科夫模型（HMM）  &lt;br /&gt;
** Collins教授的课件 [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/collins-tagging.pdf PDF下载]，介绍至三元HMM模型最大似然参数估计，未讲Viterbi解码。&lt;br /&gt;
** 李老师的课件 [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/HMM-v2.pptx PPT下载]，李老师新增一页PPT [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/zhli-add.ppt PPT下载]&lt;br /&gt;
** Viterbi解码的一个动画例子[http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/hmm-zhli.pdf PDF下载]&lt;br /&gt;
* 数据&lt;br /&gt;
** 数据下载   [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/data.tar.gz data下载]&lt;br /&gt;
&lt;br /&gt;
= 作业 7：综合练习：桌面搜索 或 苏大网页搜索 =&lt;br /&gt;
* 两个作业任选一个，后一个作业更难，分数会相对高一些&lt;br /&gt;
* 把之前所有的内容串起来&lt;br /&gt;
* 桌面搜索&lt;br /&gt;
** 对整个操作系统所有的文件名建立倒排&lt;br /&gt;
** 用户输入一些关键字，可以返回相关（根据tf-idf排序）的文件&lt;br /&gt;
** 不要求分析文件内容，只看文件名即可。&lt;br /&gt;
* 苏大网页搜索&lt;br /&gt;
** 需要爬取所有的苏大网页，从苏大主页开始，根据锚文本和链接递归爬取&lt;br /&gt;
** 正文抽取&lt;br /&gt;
** 建立倒排&lt;br /&gt;
** 支持查询和排序&lt;br /&gt;
&lt;br /&gt;
= 作业 6：网页排序 =&lt;br /&gt;
* 上课时间：2019.4.23&lt;br /&gt;
* 课件 &lt;br /&gt;
** 网页排序原理课件  [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/web-page-rank.ppt PPT下载]  &lt;br /&gt;
** 网页排序实验作业课件  [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/web-page-rank-task.ppt PPT下载]  &lt;br /&gt;
* 数据&lt;br /&gt;
** 数据下载   [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/files-web-page.tar.gz data下载]&lt;br /&gt;
* 作业提交时间截止时间：2019.5.14上机课之前&lt;br /&gt;
&lt;br /&gt;
= 作业 5：中文多粒度分词标注 =&lt;br /&gt;
* 上课时间：2019.4.16&lt;br /&gt;
* 中文多粒度分词标注系统网址：http://101.132.166.249/anno-sys/index.php?action=index&lt;br /&gt;
* 多粒度分词标注规范  [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/MWS_guideline.pdf PDF下载]  &lt;br /&gt;
* 多粒度分词介绍以及标注系统使用说明  [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/MWS.pptx PPT下载]&lt;br /&gt;
* 作业完成时间：2019.4.26上午12：00以前。&lt;br /&gt;
*作业完成要求：完成110句的标注以及所有的学习任务。&lt;br /&gt;
&lt;br /&gt;
= 作业 4：倒排索引 =&lt;br /&gt;
&lt;br /&gt;
* 2019.3.26&lt;br /&gt;
* 课件 &lt;br /&gt;
** 倒排索引课件  [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/inverted-index.ppt PPT下载] &lt;br /&gt;
** 倒排索引课件(简化版)   [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/inverted-index-simplified.ppt PPT下载]  &lt;br /&gt;
** 倒排索引实验课件  [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/exp-inverted-index.ppt PPT下载]  &lt;br /&gt;
* 数据&lt;br /&gt;
** 数据下载   [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/files.tar.gz data下载]&lt;br /&gt;
* 作业提交时间截止时间：2019.4.30下课以前&lt;br /&gt;
&lt;br /&gt;
= 作业 3：网页正文抽取 =&lt;br /&gt;
&lt;br /&gt;
* 2019.3.26&lt;br /&gt;
* 课件 &lt;br /&gt;
** [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/web-page-content-extraction.ppt PPT下载] &lt;br /&gt;
** [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/web-page-content-extraction.pdf PDF下载]  &lt;br /&gt;
* 数据&lt;br /&gt;
**[http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/1.html 1.html]&lt;br /&gt;
**[http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/2.html 2.html]&lt;br /&gt;
&lt;br /&gt;
* 作业提交时间截止时间：2019.4.2&lt;br /&gt;
&lt;br /&gt;
= 作业 2：单词计数 =&lt;br /&gt;
* 2019.3.12&lt;br /&gt;
* 课件 [http://hlt.suda.edu.cn/~zhli/teach/ir-2019-spring/word-count.pdf PPT下载]&lt;br /&gt;
* 数据 [http://hlt.suda.edu.cn/~zhli/teach/ir-2019-spring/sample-en.txt txt下载]&lt;br /&gt;
* 作业提交时间截止时间：2019.4.2&lt;br /&gt;
&lt;br /&gt;
= 作业 1：最大匹配分词 = &lt;br /&gt;
* 2019.3.5&lt;br /&gt;
* 2019.3.19上机课前提交&lt;br /&gt;
*课件：前向最大匹配 PDF文件--[[文件:Word-seg-max-match.pdf]]；PPT文件--[[文件:Word-seg-max-match.zip]]&lt;br /&gt;
&lt;br /&gt;
*数据下载：&lt;br /&gt;
**字典：[[文件:dict.txt]] &lt;br /&gt;
**待分词：[[文件:sentence.txt]] &lt;br /&gt;
**正确答案：[[文件:answer.txt]]；&lt;br /&gt;
**模型预测结果：[[文件:out.txt]]&lt;br /&gt;
&lt;br /&gt;
*正确实验结果&lt;br /&gt;
**正确识别的词数：20263&lt;br /&gt;
**识别出的总体个数：20397&lt;br /&gt;
**测试集中的总体个数：20454&lt;br /&gt;
**正确率：0.99343&lt;br /&gt;
**召回率：0.99066&lt;br /&gt;
**F值：0.99204&lt;/div&gt;</summary>
		<author><name>Liying</name></author>
	</entry>
	<entry>
		<id>http://hlt.suda.edu.cn/index.php?title=Ir-2019-spring&amp;diff=1138</id>
		<title>Ir-2019-spring</title>
		<link rel="alternate" type="text/html" href="http://hlt.suda.edu.cn/index.php?title=Ir-2019-spring&amp;diff=1138"/>
		<updated>2019-05-14T11:10:19Z</updated>

		<summary type="html">&lt;p&gt;Liying：/* 作业 8：有监督隐马尔可夫模型HMM：用于词性标注 */&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;= 信息检索课程设计（Information Retrieval）Course Resources =&lt;br /&gt;
&lt;br /&gt;
Teacher: [http://hlt.suda.edu.cn/~zhli/en.html 李正华]&lt;br /&gt;
&lt;br /&gt;
Teach Assistant: &lt;br /&gt;
&lt;br /&gt;
课程交流学习群（qq）---- 群名称: ir-2019-spring 群 号: 697444164&lt;br /&gt;
&lt;br /&gt;
2019春季学期&lt;br /&gt;
周二5-8节&lt;br /&gt;
理工楼247和238&lt;br /&gt;
&lt;br /&gt;
= 计算成绩的规则和说明 =&lt;br /&gt;
*实验作业:70-80分&lt;br /&gt;
** 一系列作业，每个作业10-20分&lt;br /&gt;
** 必须按照规定时间将实验报告+源代码，提交到csteaching&lt;br /&gt;
&lt;br /&gt;
* 期末面对面小测验：10分（待定）&lt;br /&gt;
** 考察课程相关的基础知识，看看作业是否是自己做的&lt;br /&gt;
&lt;br /&gt;
* 平时成绩：10-20分&lt;br /&gt;
** 不能迟到、早退，特殊情况必须请假，并带辅导员签字的假条；&lt;br /&gt;
** 点名时，如果发现名单上没有你的名字，及时提出&lt;br /&gt;
&lt;br /&gt;
= 提交作业说明 =&lt;br /&gt;
* 网址：[http://csteaching.suda.edu.cn csteaching]&lt;br /&gt;
* 在规定时间内提交作业，包含两部分&lt;br /&gt;
** 实验报告（word或pdf）&lt;br /&gt;
*** 认真填写个人信息、实验题目、实验内容等&lt;br /&gt;
*** 不要大段粘贴代码，最多可以粘贴核心的一小段代码&lt;br /&gt;
*** 写清楚自己的解决思路，尤其是遇到的难点和如何解决&lt;br /&gt;
*** 建议可以画流程图或者写伪代码&lt;br /&gt;
*** 将程序运行结果截图&lt;br /&gt;
** 附件（.zip压缩包）&lt;br /&gt;
*** 源代码&lt;br /&gt;
*** readme.txt文件：说明如何运行你的程序，需要什么环境，如windows或linux，python版本如python3.5&lt;br /&gt;
* 提交前自我检查&lt;br /&gt;
** 是否有包含readme.txt文件解释如何编译执行你的程序。如没有该文件，将减分&lt;br /&gt;
** 是否认真完成实验报告&lt;br /&gt;
** 是否可以按照readme.txt正确编译和运行程序&lt;br /&gt;
** 是否包含别人的代码&lt;br /&gt;
** 期末可能会用软件做自动抄袭检查&lt;br /&gt;
* 提交作业命名规则&lt;br /&gt;
** 实验报告（姓名学号.doc或姓名学号.pdf）&lt;br /&gt;
** 附件（姓名学号.zip）&lt;br /&gt;
&lt;br /&gt;
== 实验报告word模板 ==&lt;br /&gt;
* [http://hlt.suda.edu.cn/~zhli/teach/ir-2019-spring/report.doc 下载]&lt;br /&gt;
&lt;br /&gt;
== 信息检索课程介绍 ==&lt;br /&gt;
* [http://hlt.suda.edu.cn/~zhli/teach/ir-2019-spring/ir-introduction-v0.4.pdf PPT下载]&lt;br /&gt;
&lt;br /&gt;
= 作业 8：有监督隐马尔可夫模型HMM：用于词性标注 =&lt;br /&gt;
* 上课时间：2019.5.14&lt;br /&gt;
* 极大似然估计推导&lt;br /&gt;
** 极大似然估计的由来，公式推导见 [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/max-eq.pdf PDF下载] &lt;br /&gt;
**  HMM模型中极大似然估计的由来，公式推导见 [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/hmm-eq.pdf PDF下载] &lt;br /&gt;
* 隐马尔科夫模型（HMM）  &lt;br /&gt;
** Collins教授的课件 [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/collins-tagging.pdf PDF下载]，介绍至三元HMM模型最大似然参数估计，未讲Viterbi解码。&lt;br /&gt;
** 李老师的课件 [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/HMM-v2.pptx PPT下载]，李老师新增一页PPT [[http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/zhli-add.ppt PPT下载]&lt;br /&gt;
** Viterbi解码的一个动画例子[http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/hmm-zhli.pdf PDF下载]&lt;br /&gt;
* 数据&lt;br /&gt;
** 数据下载   [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/data.tar.gz data下载]&lt;br /&gt;
&lt;br /&gt;
= 作业 7：综合练习：桌面搜索 或 苏大网页搜索 =&lt;br /&gt;
* 两个作业任选一个，后一个作业更难，分数会相对高一些&lt;br /&gt;
* 把之前所有的内容串起来&lt;br /&gt;
* 桌面搜索&lt;br /&gt;
** 对整个操作系统所有的文件名建立倒排&lt;br /&gt;
** 用户输入一些关键字，可以返回相关（根据tf-idf排序）的文件&lt;br /&gt;
** 不要求分析文件内容，只看文件名即可。&lt;br /&gt;
* 苏大网页搜索&lt;br /&gt;
** 需要爬取所有的苏大网页，从苏大主页开始，根据锚文本和链接递归爬取&lt;br /&gt;
** 正文抽取&lt;br /&gt;
** 建立倒排&lt;br /&gt;
** 支持查询和排序&lt;br /&gt;
&lt;br /&gt;
= 作业 6：网页排序 =&lt;br /&gt;
* 上课时间：2019.4.23&lt;br /&gt;
* 课件 &lt;br /&gt;
** 网页排序原理课件  [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/web-page-rank.ppt PPT下载]  &lt;br /&gt;
** 网页排序实验作业课件  [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/web-page-rank-task.ppt PPT下载]  &lt;br /&gt;
* 数据&lt;br /&gt;
** 数据下载   [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/files-web-page.tar.gz data下载]&lt;br /&gt;
* 作业提交时间截止时间：2019.5.14上机课之前&lt;br /&gt;
&lt;br /&gt;
= 作业 5：中文多粒度分词标注 =&lt;br /&gt;
* 上课时间：2019.4.16&lt;br /&gt;
* 中文多粒度分词标注系统网址：http://101.132.166.249/anno-sys/index.php?action=index&lt;br /&gt;
* 多粒度分词标注规范  [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/MWS_guideline.pdf PDF下载]  &lt;br /&gt;
* 多粒度分词介绍以及标注系统使用说明  [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/MWS.pptx PPT下载]&lt;br /&gt;
* 作业完成时间：2019.4.26上午12：00以前。&lt;br /&gt;
*作业完成要求：完成110句的标注以及所有的学习任务。&lt;br /&gt;
&lt;br /&gt;
= 作业 4：倒排索引 =&lt;br /&gt;
&lt;br /&gt;
* 2019.3.26&lt;br /&gt;
* 课件 &lt;br /&gt;
** 倒排索引课件  [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/inverted-index.ppt PPT下载] &lt;br /&gt;
** 倒排索引课件(简化版)   [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/inverted-index-simplified.ppt PPT下载]  &lt;br /&gt;
** 倒排索引实验课件  [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/exp-inverted-index.ppt PPT下载]  &lt;br /&gt;
* 数据&lt;br /&gt;
** 数据下载   [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/files.tar.gz data下载]&lt;br /&gt;
* 作业提交时间截止时间：2019.4.30下课以前&lt;br /&gt;
&lt;br /&gt;
= 作业 3：网页正文抽取 =&lt;br /&gt;
&lt;br /&gt;
* 2019.3.26&lt;br /&gt;
* 课件 &lt;br /&gt;
** [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/web-page-content-extraction.ppt PPT下载] &lt;br /&gt;
** [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/web-page-content-extraction.pdf PDF下载]  &lt;br /&gt;
* 数据&lt;br /&gt;
**[http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/1.html 1.html]&lt;br /&gt;
**[http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/2.html 2.html]&lt;br /&gt;
&lt;br /&gt;
* 作业提交时间截止时间：2019.4.2&lt;br /&gt;
&lt;br /&gt;
= 作业 2：单词计数 =&lt;br /&gt;
* 2019.3.12&lt;br /&gt;
* 课件 [http://hlt.suda.edu.cn/~zhli/teach/ir-2019-spring/word-count.pdf PPT下载]&lt;br /&gt;
* 数据 [http://hlt.suda.edu.cn/~zhli/teach/ir-2019-spring/sample-en.txt txt下载]&lt;br /&gt;
* 作业提交时间截止时间：2019.4.2&lt;br /&gt;
&lt;br /&gt;
= 作业 1：最大匹配分词 = &lt;br /&gt;
* 2019.3.5&lt;br /&gt;
* 2019.3.19上机课前提交&lt;br /&gt;
*课件：前向最大匹配 PDF文件--[[文件:Word-seg-max-match.pdf]]；PPT文件--[[文件:Word-seg-max-match.zip]]&lt;br /&gt;
&lt;br /&gt;
*数据下载：&lt;br /&gt;
**字典：[[文件:dict.txt]] &lt;br /&gt;
**待分词：[[文件:sentence.txt]] &lt;br /&gt;
**正确答案：[[文件:answer.txt]]；&lt;br /&gt;
**模型预测结果：[[文件:out.txt]]&lt;br /&gt;
&lt;br /&gt;
*正确实验结果&lt;br /&gt;
**正确识别的词数：20263&lt;br /&gt;
**识别出的总体个数：20397&lt;br /&gt;
**测试集中的总体个数：20454&lt;br /&gt;
**正确率：0.99343&lt;br /&gt;
**召回率：0.99066&lt;br /&gt;
**F值：0.99204&lt;/div&gt;</summary>
		<author><name>Liying</name></author>
	</entry>
	<entry>
		<id>http://hlt.suda.edu.cn/index.php?title=Ir-2019-spring&amp;diff=1137</id>
		<title>Ir-2019-spring</title>
		<link rel="alternate" type="text/html" href="http://hlt.suda.edu.cn/index.php?title=Ir-2019-spring&amp;diff=1137"/>
		<updated>2019-05-14T07:37:51Z</updated>

		<summary type="html">&lt;p&gt;Liying：/* 作业 8：有监督隐马尔可夫模型HMM：用于词性标注 */&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;= 信息检索课程设计（Information Retrieval）Course Resources =&lt;br /&gt;
&lt;br /&gt;
Teacher: [http://hlt.suda.edu.cn/~zhli/en.html 李正华]&lt;br /&gt;
&lt;br /&gt;
Teach Assistant: &lt;br /&gt;
&lt;br /&gt;
课程交流学习群（qq）---- 群名称: ir-2019-spring 群 号: 697444164&lt;br /&gt;
&lt;br /&gt;
2019春季学期&lt;br /&gt;
周二5-8节&lt;br /&gt;
理工楼247和238&lt;br /&gt;
&lt;br /&gt;
= 计算成绩的规则和说明 =&lt;br /&gt;
*实验作业:70-80分&lt;br /&gt;
** 一系列作业，每个作业10-20分&lt;br /&gt;
** 必须按照规定时间将实验报告+源代码，提交到csteaching&lt;br /&gt;
&lt;br /&gt;
* 期末面对面小测验：10分（待定）&lt;br /&gt;
** 考察课程相关的基础知识，看看作业是否是自己做的&lt;br /&gt;
&lt;br /&gt;
* 平时成绩：10-20分&lt;br /&gt;
** 不能迟到、早退，特殊情况必须请假，并带辅导员签字的假条；&lt;br /&gt;
** 点名时，如果发现名单上没有你的名字，及时提出&lt;br /&gt;
&lt;br /&gt;
= 提交作业说明 =&lt;br /&gt;
* 网址：[http://csteaching.suda.edu.cn csteaching]&lt;br /&gt;
* 在规定时间内提交作业，包含两部分&lt;br /&gt;
** 实验报告（word或pdf）&lt;br /&gt;
*** 认真填写个人信息、实验题目、实验内容等&lt;br /&gt;
*** 不要大段粘贴代码，最多可以粘贴核心的一小段代码&lt;br /&gt;
*** 写清楚自己的解决思路，尤其是遇到的难点和如何解决&lt;br /&gt;
*** 建议可以画流程图或者写伪代码&lt;br /&gt;
*** 将程序运行结果截图&lt;br /&gt;
** 附件（.zip压缩包）&lt;br /&gt;
*** 源代码&lt;br /&gt;
*** readme.txt文件：说明如何运行你的程序，需要什么环境，如windows或linux，python版本如python3.5&lt;br /&gt;
* 提交前自我检查&lt;br /&gt;
** 是否有包含readme.txt文件解释如何编译执行你的程序。如没有该文件，将减分&lt;br /&gt;
** 是否认真完成实验报告&lt;br /&gt;
** 是否可以按照readme.txt正确编译和运行程序&lt;br /&gt;
** 是否包含别人的代码&lt;br /&gt;
** 期末可能会用软件做自动抄袭检查&lt;br /&gt;
* 提交作业命名规则&lt;br /&gt;
** 实验报告（姓名学号.doc或姓名学号.pdf）&lt;br /&gt;
** 附件（姓名学号.zip）&lt;br /&gt;
&lt;br /&gt;
== 实验报告word模板 ==&lt;br /&gt;
* [http://hlt.suda.edu.cn/~zhli/teach/ir-2019-spring/report.doc 下载]&lt;br /&gt;
&lt;br /&gt;
== 信息检索课程介绍 ==&lt;br /&gt;
* [http://hlt.suda.edu.cn/~zhli/teach/ir-2019-spring/ir-introduction-v0.4.pdf PPT下载]&lt;br /&gt;
&lt;br /&gt;
= 作业 8：有监督隐马尔可夫模型HMM：用于词性标注 =&lt;br /&gt;
* 上课时间：2019.5.14&lt;br /&gt;
* 极大似然估计推导&lt;br /&gt;
** 极大似然估计的由来，公式推导见 [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/max-eq.pdf PDF下载] &lt;br /&gt;
**  HMM模型中极大似然估计的由来，公式推导见 [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/hmm-eq.pdf PDF下载] &lt;br /&gt;
* 隐马尔科夫模型（HMM）  &lt;br /&gt;
** Collins教授的课件 [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/collins-tagging.pdf PDF下载]，介绍至三元HMM模型最大似然参数估计，未讲Viterbi解码。&lt;br /&gt;
** 李老师的课件 [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/HMM-v2.pptx PDF下载]（内含15分编程作业，截止时间：15周（含）上机课前，2元HMM词性标注，hmm-viterbi）&lt;br /&gt;
** Viterbi解码的一个动画例子[http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/hmm-zhli.pdf PPT下载]&lt;br /&gt;
* 数据&lt;br /&gt;
** 数据下载   [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/data.tar.gz data下载]&lt;br /&gt;
&lt;br /&gt;
= 作业 7：综合练习：桌面搜索 或 苏大网页搜索 =&lt;br /&gt;
* 两个作业任选一个，后一个作业更难，分数会相对高一些&lt;br /&gt;
* 把之前所有的内容串起来&lt;br /&gt;
* 桌面搜索&lt;br /&gt;
** 对整个操作系统所有的文件名建立倒排&lt;br /&gt;
** 用户输入一些关键字，可以返回相关（根据tf-idf排序）的文件&lt;br /&gt;
** 不要求分析文件内容，只看文件名即可。&lt;br /&gt;
* 苏大网页搜索&lt;br /&gt;
** 需要爬取所有的苏大网页，从苏大主页开始，根据锚文本和链接递归爬取&lt;br /&gt;
** 正文抽取&lt;br /&gt;
** 建立倒排&lt;br /&gt;
** 支持查询和排序&lt;br /&gt;
&lt;br /&gt;
= 作业 6：网页排序 =&lt;br /&gt;
* 上课时间：2019.4.23&lt;br /&gt;
* 课件 &lt;br /&gt;
** 网页排序原理课件  [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/web-page-rank.ppt PPT下载]  &lt;br /&gt;
** 网页排序实验作业课件  [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/web-page-rank-task.ppt PPT下载]  &lt;br /&gt;
* 数据&lt;br /&gt;
** 数据下载   [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/files-web-page.tar.gz data下载]&lt;br /&gt;
* 作业提交时间截止时间：2019.5.14上机课之前&lt;br /&gt;
&lt;br /&gt;
= 作业 5：中文多粒度分词标注 =&lt;br /&gt;
* 上课时间：2019.4.16&lt;br /&gt;
* 中文多粒度分词标注系统网址：http://101.132.166.249/anno-sys/index.php?action=index&lt;br /&gt;
* 多粒度分词标注规范  [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/MWS_guideline.pdf PDF下载]  &lt;br /&gt;
* 多粒度分词介绍以及标注系统使用说明  [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/MWS.pptx PPT下载]&lt;br /&gt;
* 作业完成时间：2019.4.26上午12：00以前。&lt;br /&gt;
*作业完成要求：完成110句的标注以及所有的学习任务。&lt;br /&gt;
&lt;br /&gt;
= 作业 4：倒排索引 =&lt;br /&gt;
&lt;br /&gt;
* 2019.3.26&lt;br /&gt;
* 课件 &lt;br /&gt;
** 倒排索引课件  [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/inverted-index.ppt PPT下载] &lt;br /&gt;
** 倒排索引课件(简化版)   [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/inverted-index-simplified.ppt PPT下载]  &lt;br /&gt;
** 倒排索引实验课件  [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/exp-inverted-index.ppt PPT下载]  &lt;br /&gt;
* 数据&lt;br /&gt;
** 数据下载   [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/files.tar.gz data下载]&lt;br /&gt;
* 作业提交时间截止时间：2019.4.30下课以前&lt;br /&gt;
&lt;br /&gt;
= 作业 3：网页正文抽取 =&lt;br /&gt;
&lt;br /&gt;
* 2019.3.26&lt;br /&gt;
* 课件 &lt;br /&gt;
** [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/web-page-content-extraction.ppt PPT下载] &lt;br /&gt;
** [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/web-page-content-extraction.pdf PDF下载]  &lt;br /&gt;
* 数据&lt;br /&gt;
**[http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/1.html 1.html]&lt;br /&gt;
**[http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/2.html 2.html]&lt;br /&gt;
&lt;br /&gt;
* 作业提交时间截止时间：2019.4.2&lt;br /&gt;
&lt;br /&gt;
= 作业 2：单词计数 =&lt;br /&gt;
* 2019.3.12&lt;br /&gt;
* 课件 [http://hlt.suda.edu.cn/~zhli/teach/ir-2019-spring/word-count.pdf PPT下载]&lt;br /&gt;
* 数据 [http://hlt.suda.edu.cn/~zhli/teach/ir-2019-spring/sample-en.txt txt下载]&lt;br /&gt;
* 作业提交时间截止时间：2019.4.2&lt;br /&gt;
&lt;br /&gt;
= 作业 1：最大匹配分词 = &lt;br /&gt;
* 2019.3.5&lt;br /&gt;
* 2019.3.19上机课前提交&lt;br /&gt;
*课件：前向最大匹配 PDF文件--[[文件:Word-seg-max-match.pdf]]；PPT文件--[[文件:Word-seg-max-match.zip]]&lt;br /&gt;
&lt;br /&gt;
*数据下载：&lt;br /&gt;
**字典：[[文件:dict.txt]] &lt;br /&gt;
**待分词：[[文件:sentence.txt]] &lt;br /&gt;
**正确答案：[[文件:answer.txt]]；&lt;br /&gt;
**模型预测结果：[[文件:out.txt]]&lt;br /&gt;
&lt;br /&gt;
*正确实验结果&lt;br /&gt;
**正确识别的词数：20263&lt;br /&gt;
**识别出的总体个数：20397&lt;br /&gt;
**测试集中的总体个数：20454&lt;br /&gt;
**正确率：0.99343&lt;br /&gt;
**召回率：0.99066&lt;br /&gt;
**F值：0.99204&lt;/div&gt;</summary>
		<author><name>Liying</name></author>
	</entry>
	<entry>
		<id>http://hlt.suda.edu.cn/index.php?title=Ir-2019-spring&amp;diff=1133</id>
		<title>Ir-2019-spring</title>
		<link rel="alternate" type="text/html" href="http://hlt.suda.edu.cn/index.php?title=Ir-2019-spring&amp;diff=1133"/>
		<updated>2019-05-14T02:59:03Z</updated>

		<summary type="html">&lt;p&gt;Liying：/* 作业 8：有监督隐马尔可夫模型HMM：用于词性标注 */&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;= 信息检索课程设计（Information Retrieval）Course Resources =&lt;br /&gt;
&lt;br /&gt;
Teacher: [http://hlt.suda.edu.cn/~zhli/en.html 李正华]&lt;br /&gt;
&lt;br /&gt;
Teach Assistant: &lt;br /&gt;
&lt;br /&gt;
课程交流学习群（qq）---- 群名称: ir-2019-spring 群 号: 697444164&lt;br /&gt;
&lt;br /&gt;
2019春季学期&lt;br /&gt;
周二5-8节&lt;br /&gt;
理工楼247和238&lt;br /&gt;
&lt;br /&gt;
= 计算成绩的规则和说明 =&lt;br /&gt;
*实验作业:70-80分&lt;br /&gt;
** 一系列作业，每个作业10-20分&lt;br /&gt;
** 必须按照规定时间将实验报告+源代码，提交到csteaching&lt;br /&gt;
&lt;br /&gt;
* 期末面对面小测验：10分（待定）&lt;br /&gt;
** 考察课程相关的基础知识，看看作业是否是自己做的&lt;br /&gt;
&lt;br /&gt;
* 平时成绩：10-20分&lt;br /&gt;
** 不能迟到、早退，特殊情况必须请假，并带辅导员签字的假条；&lt;br /&gt;
** 点名时，如果发现名单上没有你的名字，及时提出&lt;br /&gt;
&lt;br /&gt;
= 提交作业说明 =&lt;br /&gt;
* 网址：[http://csteaching.suda.edu.cn csteaching]&lt;br /&gt;
* 在规定时间内提交作业，包含两部分&lt;br /&gt;
** 实验报告（word或pdf）&lt;br /&gt;
*** 认真填写个人信息、实验题目、实验内容等&lt;br /&gt;
*** 不要大段粘贴代码，最多可以粘贴核心的一小段代码&lt;br /&gt;
*** 写清楚自己的解决思路，尤其是遇到的难点和如何解决&lt;br /&gt;
*** 建议可以画流程图或者写伪代码&lt;br /&gt;
*** 将程序运行结果截图&lt;br /&gt;
** 附件（.zip压缩包）&lt;br /&gt;
*** 源代码&lt;br /&gt;
*** readme.txt文件：说明如何运行你的程序，需要什么环境，如windows或linux，python版本如python3.5&lt;br /&gt;
* 提交前自我检查&lt;br /&gt;
** 是否有包含readme.txt文件解释如何编译执行你的程序。如没有该文件，将减分&lt;br /&gt;
** 是否认真完成实验报告&lt;br /&gt;
** 是否可以按照readme.txt正确编译和运行程序&lt;br /&gt;
** 是否包含别人的代码&lt;br /&gt;
** 期末可能会用软件做自动抄袭检查&lt;br /&gt;
* 提交作业命名规则&lt;br /&gt;
** 实验报告（姓名学号.doc或姓名学号.pdf）&lt;br /&gt;
** 附件（姓名学号.zip）&lt;br /&gt;
&lt;br /&gt;
== 实验报告word模板 ==&lt;br /&gt;
* [http://hlt.suda.edu.cn/~zhli/teach/ir-2019-spring/report.doc 下载]&lt;br /&gt;
&lt;br /&gt;
== 信息检索课程介绍 ==&lt;br /&gt;
* [http://hlt.suda.edu.cn/~zhli/teach/ir-2019-spring/ir-introduction-v0.4.pdf PPT下载]&lt;br /&gt;
&lt;br /&gt;
= 作业 8：有监督隐马尔可夫模型HMM：用于词性标注 =&lt;br /&gt;
* 上课时间：2019.5.14&lt;br /&gt;
* 极大似然估计推导&lt;br /&gt;
** 极大似然估计的由来，公式推导见 [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/max-eq.pdf PDF下载] &lt;br /&gt;
**  HMM模型中极大似然估计的由来，公式推导见 [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/hmm-eq.pdf PDF下载] &lt;br /&gt;
* 隐马尔科夫模型（HMM）  &lt;br /&gt;
** Collins教授的课件 [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/collins-tagging.pdf PDF下载]，介绍至三元HMM模型最大似然参数估计，未讲Viterbi解码。&lt;br /&gt;
** 李老师的课件 [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/HMM-v2.pptx PDF下载]（内含15分编程作业，截止时间：15周（含）上机课前，2元HMM词性标注，hmm-viterbi）&lt;br /&gt;
** Viterbi解码的一个动画例子[http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/hmm-zhli.pdf PPT下载]&lt;br /&gt;
* 数据&lt;br /&gt;
** 数据下载   [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/data-hmm.txt data下载]&lt;br /&gt;
&lt;br /&gt;
= 作业 7：综合练习：桌面搜索 或 苏大网页搜索 =&lt;br /&gt;
* 两个作业任选一个，后一个作业更难，分数会相对高一些&lt;br /&gt;
* 把之前所有的内容串起来&lt;br /&gt;
* 桌面搜索&lt;br /&gt;
** 对整个操作系统所有的文件名建立倒排&lt;br /&gt;
** 用户输入一些关键字，可以返回相关（根据tf-idf排序）的文件&lt;br /&gt;
** 不要求分析文件内容，只看文件名即可。&lt;br /&gt;
* 苏大网页搜索&lt;br /&gt;
** 需要爬取所有的苏大网页，从苏大主页开始，根据锚文本和链接递归爬取&lt;br /&gt;
** 正文抽取&lt;br /&gt;
** 建立倒排&lt;br /&gt;
** 支持查询和排序&lt;br /&gt;
&lt;br /&gt;
= 作业 6：网页排序 =&lt;br /&gt;
* 上课时间：2019.4.23&lt;br /&gt;
* 课件 &lt;br /&gt;
** 网页排序原理课件  [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/web-page-rank.ppt PPT下载]  &lt;br /&gt;
** 网页排序实验作业课件  [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/web-page-rank-task.ppt PPT下载]  &lt;br /&gt;
* 数据&lt;br /&gt;
** 数据下载   [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/files-web-page.tar.gz data下载]&lt;br /&gt;
* 作业提交时间截止时间：2019.5.14上机课之前&lt;br /&gt;
&lt;br /&gt;
= 作业 5：中文多粒度分词标注 =&lt;br /&gt;
* 上课时间：2019.4.16&lt;br /&gt;
* 中文多粒度分词标注系统网址：http://101.132.166.249/anno-sys/index.php?action=index&lt;br /&gt;
* 多粒度分词标注规范  [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/MWS_guideline.pdf PDF下载]  &lt;br /&gt;
* 多粒度分词介绍以及标注系统使用说明  [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/MWS.pptx PPT下载]&lt;br /&gt;
* 作业完成时间：2019.4.26上午12：00以前。&lt;br /&gt;
*作业完成要求：完成110句的标注以及所有的学习任务。&lt;br /&gt;
&lt;br /&gt;
= 作业 4：倒排索引 =&lt;br /&gt;
&lt;br /&gt;
* 2019.3.26&lt;br /&gt;
* 课件 &lt;br /&gt;
** 倒排索引课件  [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/inverted-index.ppt PPT下载] &lt;br /&gt;
** 倒排索引课件(简化版)   [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/inverted-index-simplified.ppt PPT下载]  &lt;br /&gt;
** 倒排索引实验课件  [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/exp-inverted-index.ppt PPT下载]  &lt;br /&gt;
* 数据&lt;br /&gt;
** 数据下载   [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/files.tar.gz data下载]&lt;br /&gt;
* 作业提交时间截止时间：2019.4.30下课以前&lt;br /&gt;
&lt;br /&gt;
= 作业 3：网页正文抽取 =&lt;br /&gt;
&lt;br /&gt;
* 2019.3.26&lt;br /&gt;
* 课件 &lt;br /&gt;
** [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/web-page-content-extraction.ppt PPT下载] &lt;br /&gt;
** [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/web-page-content-extraction.pdf PDF下载]  &lt;br /&gt;
* 数据&lt;br /&gt;
**[http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/1.html 1.html]&lt;br /&gt;
**[http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/2.html 2.html]&lt;br /&gt;
&lt;br /&gt;
* 作业提交时间截止时间：2019.4.2&lt;br /&gt;
&lt;br /&gt;
= 作业 2：单词计数 =&lt;br /&gt;
* 2019.3.12&lt;br /&gt;
* 课件 [http://hlt.suda.edu.cn/~zhli/teach/ir-2019-spring/word-count.pdf PPT下载]&lt;br /&gt;
* 数据 [http://hlt.suda.edu.cn/~zhli/teach/ir-2019-spring/sample-en.txt txt下载]&lt;br /&gt;
* 作业提交时间截止时间：2019.4.2&lt;br /&gt;
&lt;br /&gt;
= 作业 1：最大匹配分词 = &lt;br /&gt;
* 2019.3.5&lt;br /&gt;
* 2019.3.19上机课前提交&lt;br /&gt;
*课件：前向最大匹配 PDF文件--[[文件:Word-seg-max-match.pdf]]；PPT文件--[[文件:Word-seg-max-match.zip]]&lt;br /&gt;
&lt;br /&gt;
*数据下载：&lt;br /&gt;
**字典：[[文件:dict.txt]] &lt;br /&gt;
**待分词：[[文件:sentence.txt]] &lt;br /&gt;
**正确答案：[[文件:answer.txt]]；&lt;br /&gt;
**模型预测结果：[[文件:out.txt]]&lt;br /&gt;
&lt;br /&gt;
*正确实验结果&lt;br /&gt;
**正确识别的词数：20263&lt;br /&gt;
**识别出的总体个数：20397&lt;br /&gt;
**测试集中的总体个数：20454&lt;br /&gt;
**正确率：0.99343&lt;br /&gt;
**召回率：0.99066&lt;br /&gt;
**F值：0.99204&lt;/div&gt;</summary>
		<author><name>Liying</name></author>
	</entry>
	<entry>
		<id>http://hlt.suda.edu.cn/index.php?title=Ir-2019-spring&amp;diff=1128</id>
		<title>Ir-2019-spring</title>
		<link rel="alternate" type="text/html" href="http://hlt.suda.edu.cn/index.php?title=Ir-2019-spring&amp;diff=1128"/>
		<updated>2019-05-14T02:47:40Z</updated>

		<summary type="html">&lt;p&gt;Liying：/* 作业 8：有监督隐马尔可夫模型HMM：用于词性标注 */&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;= 信息检索课程设计（Information Retrieval）Course Resources =&lt;br /&gt;
&lt;br /&gt;
Teacher: [http://hlt.suda.edu.cn/~zhli/en.html 李正华]&lt;br /&gt;
&lt;br /&gt;
Teach Assistant: &lt;br /&gt;
&lt;br /&gt;
课程交流学习群（qq）---- 群名称: ir-2019-spring 群 号: 697444164&lt;br /&gt;
&lt;br /&gt;
2019春季学期&lt;br /&gt;
周二5-8节&lt;br /&gt;
理工楼247和238&lt;br /&gt;
&lt;br /&gt;
= 计算成绩的规则和说明 =&lt;br /&gt;
*实验作业:70-80分&lt;br /&gt;
** 一系列作业，每个作业10-20分&lt;br /&gt;
** 必须按照规定时间将实验报告+源代码，提交到csteaching&lt;br /&gt;
&lt;br /&gt;
* 期末面对面小测验：10分（待定）&lt;br /&gt;
** 考察课程相关的基础知识，看看作业是否是自己做的&lt;br /&gt;
&lt;br /&gt;
* 平时成绩：10-20分&lt;br /&gt;
** 不能迟到、早退，特殊情况必须请假，并带辅导员签字的假条；&lt;br /&gt;
** 点名时，如果发现名单上没有你的名字，及时提出&lt;br /&gt;
&lt;br /&gt;
= 提交作业说明 =&lt;br /&gt;
* 网址：[http://csteaching.suda.edu.cn csteaching]&lt;br /&gt;
* 在规定时间内提交作业，包含两部分&lt;br /&gt;
** 实验报告（word或pdf）&lt;br /&gt;
*** 认真填写个人信息、实验题目、实验内容等&lt;br /&gt;
*** 不要大段粘贴代码，最多可以粘贴核心的一小段代码&lt;br /&gt;
*** 写清楚自己的解决思路，尤其是遇到的难点和如何解决&lt;br /&gt;
*** 建议可以画流程图或者写伪代码&lt;br /&gt;
*** 将程序运行结果截图&lt;br /&gt;
** 附件（.zip压缩包）&lt;br /&gt;
*** 源代码&lt;br /&gt;
*** readme.txt文件：说明如何运行你的程序，需要什么环境，如windows或linux，python版本如python3.5&lt;br /&gt;
* 提交前自我检查&lt;br /&gt;
** 是否有包含readme.txt文件解释如何编译执行你的程序。如没有该文件，将减分&lt;br /&gt;
** 是否认真完成实验报告&lt;br /&gt;
** 是否可以按照readme.txt正确编译和运行程序&lt;br /&gt;
** 是否包含别人的代码&lt;br /&gt;
** 期末可能会用软件做自动抄袭检查&lt;br /&gt;
* 提交作业命名规则&lt;br /&gt;
** 实验报告（姓名学号.doc或姓名学号.pdf）&lt;br /&gt;
** 附件（姓名学号.zip）&lt;br /&gt;
&lt;br /&gt;
== 实验报告word模板 ==&lt;br /&gt;
* [http://hlt.suda.edu.cn/~zhli/teach/ir-2019-spring/report.doc 下载]&lt;br /&gt;
&lt;br /&gt;
== 信息检索课程介绍 ==&lt;br /&gt;
* [http://hlt.suda.edu.cn/~zhli/teach/ir-2019-spring/ir-introduction-v0.4.pdf PPT下载]&lt;br /&gt;
&lt;br /&gt;
= 作业 8：有监督隐马尔可夫模型HMM：用于词性标注 =&lt;br /&gt;
* 上课时间：2019.5.14&lt;br /&gt;
* 极大似然估计推导&lt;br /&gt;
** 极大似然估计的由来，公式推导见 [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/max-eq.pdf PDF下载] &lt;br /&gt;
**  HMM模型中极大似然估计的由来，公式推导见 [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/hmm-eq.pdf PDF下载] &lt;br /&gt;
* 隐马尔科夫模型（HMM）  &lt;br /&gt;
** Collins教授的课件 [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/collins-tagging.pdf PDF下载]，介绍至三元HMM模型最大似然参数估计，未讲Viterbi解码。&lt;br /&gt;
** 李老师的课件 [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/HMM-v2.pptx PDF下载]（内含15分编程作业，截止时间：15周（含）上机课前，2元HMM词性标注，hmm-viterbi）&lt;br /&gt;
** Viterbi解码的一个动画例子[http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/hmm-zhli.pdf PPT下载]&lt;br /&gt;
* 数据&lt;br /&gt;
** 数据下载   [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/files-web-page.tar.gz data下载]&lt;br /&gt;
&lt;br /&gt;
= 作业 7：综合练习：桌面搜索 或 苏大网页搜索 =&lt;br /&gt;
* 两个作业任选一个，后一个作业更难，分数会相对高一些&lt;br /&gt;
* 把之前所有的内容串起来&lt;br /&gt;
* 桌面搜索&lt;br /&gt;
** 对整个操作系统所有的文件名建立倒排&lt;br /&gt;
** 用户输入一些关键字，可以返回相关（根据tf-idf排序）的文件&lt;br /&gt;
** 不要求分析文件内容，只看文件名即可。&lt;br /&gt;
* 苏大网页搜索&lt;br /&gt;
** 需要爬取所有的苏大网页，从苏大主页开始，根据锚文本和链接递归爬取&lt;br /&gt;
** 正文抽取&lt;br /&gt;
** 建立倒排&lt;br /&gt;
** 支持查询和排序&lt;br /&gt;
&lt;br /&gt;
= 作业 6：网页排序 =&lt;br /&gt;
* 上课时间：2019.4.23&lt;br /&gt;
* 课件 &lt;br /&gt;
** 网页排序原理课件  [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/web-page-rank.ppt PPT下载]  &lt;br /&gt;
** 网页排序实验作业课件  [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/web-page-rank-task.ppt PPT下载]  &lt;br /&gt;
* 数据&lt;br /&gt;
** 数据下载   [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/files-web-page.tar.gz data下载]&lt;br /&gt;
* 作业提交时间截止时间：2019.5.14上机课之前&lt;br /&gt;
&lt;br /&gt;
= 作业 5：中文多粒度分词标注 =&lt;br /&gt;
* 上课时间：2019.4.16&lt;br /&gt;
* 中文多粒度分词标注系统网址：http://101.132.166.249/anno-sys/index.php?action=index&lt;br /&gt;
* 多粒度分词标注规范  [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/MWS_guideline.pdf PDF下载]  &lt;br /&gt;
* 多粒度分词介绍以及标注系统使用说明  [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/MWS.pptx PPT下载]&lt;br /&gt;
* 作业完成时间：2019.4.26上午12：00以前。&lt;br /&gt;
*作业完成要求：完成110句的标注以及所有的学习任务。&lt;br /&gt;
&lt;br /&gt;
= 作业 4：倒排索引 =&lt;br /&gt;
&lt;br /&gt;
* 2019.3.26&lt;br /&gt;
* 课件 &lt;br /&gt;
** 倒排索引课件  [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/inverted-index.ppt PPT下载] &lt;br /&gt;
** 倒排索引课件(简化版)   [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/inverted-index-simplified.ppt PPT下载]  &lt;br /&gt;
** 倒排索引实验课件  [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/exp-inverted-index.ppt PPT下载]  &lt;br /&gt;
* 数据&lt;br /&gt;
** 数据下载   [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/files.tar.gz data下载]&lt;br /&gt;
* 作业提交时间截止时间：2019.4.30下课以前&lt;br /&gt;
&lt;br /&gt;
= 作业 3：网页正文抽取 =&lt;br /&gt;
&lt;br /&gt;
* 2019.3.26&lt;br /&gt;
* 课件 &lt;br /&gt;
** [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/web-page-content-extraction.ppt PPT下载] &lt;br /&gt;
** [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/web-page-content-extraction.pdf PDF下载]  &lt;br /&gt;
* 数据&lt;br /&gt;
**[http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/1.html 1.html]&lt;br /&gt;
**[http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/2.html 2.html]&lt;br /&gt;
&lt;br /&gt;
* 作业提交时间截止时间：2019.4.2&lt;br /&gt;
&lt;br /&gt;
= 作业 2：单词计数 =&lt;br /&gt;
* 2019.3.12&lt;br /&gt;
* 课件 [http://hlt.suda.edu.cn/~zhli/teach/ir-2019-spring/word-count.pdf PPT下载]&lt;br /&gt;
* 数据 [http://hlt.suda.edu.cn/~zhli/teach/ir-2019-spring/sample-en.txt txt下载]&lt;br /&gt;
* 作业提交时间截止时间：2019.4.2&lt;br /&gt;
&lt;br /&gt;
= 作业 1：最大匹配分词 = &lt;br /&gt;
* 2019.3.5&lt;br /&gt;
* 2019.3.19上机课前提交&lt;br /&gt;
*课件：前向最大匹配 PDF文件--[[文件:Word-seg-max-match.pdf]]；PPT文件--[[文件:Word-seg-max-match.zip]]&lt;br /&gt;
&lt;br /&gt;
*数据下载：&lt;br /&gt;
**字典：[[文件:dict.txt]] &lt;br /&gt;
**待分词：[[文件:sentence.txt]] &lt;br /&gt;
**正确答案：[[文件:answer.txt]]；&lt;br /&gt;
**模型预测结果：[[文件:out.txt]]&lt;br /&gt;
&lt;br /&gt;
*正确实验结果&lt;br /&gt;
**正确识别的词数：20263&lt;br /&gt;
**识别出的总体个数：20397&lt;br /&gt;
**测试集中的总体个数：20454&lt;br /&gt;
**正确率：0.99343&lt;br /&gt;
**召回率：0.99066&lt;br /&gt;
**F值：0.99204&lt;/div&gt;</summary>
		<author><name>Liying</name></author>
	</entry>
	<entry>
		<id>http://hlt.suda.edu.cn/index.php?title=Ir-2019-spring&amp;diff=1037</id>
		<title>Ir-2019-spring</title>
		<link rel="alternate" type="text/html" href="http://hlt.suda.edu.cn/index.php?title=Ir-2019-spring&amp;diff=1037"/>
		<updated>2019-04-23T02:05:00Z</updated>

		<summary type="html">&lt;p&gt;Liying：/* 作业 5：中文多粒度分词标注 */&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;= 信息检索课程设计（Information Retrieval）Course Resources =&lt;br /&gt;
&lt;br /&gt;
Teacher: [http://hlt.suda.edu.cn/~zhli/en.html 李正华]&lt;br /&gt;
&lt;br /&gt;
Teach Assistant: &lt;br /&gt;
&lt;br /&gt;
课程交流学习群（qq）---- 群名称: ir-2019-spring 群 号: 697444164&lt;br /&gt;
&lt;br /&gt;
2019春季学期&lt;br /&gt;
周二5-8节&lt;br /&gt;
理工楼247和238&lt;br /&gt;
&lt;br /&gt;
= 计算成绩的规则和说明 =&lt;br /&gt;
*实验作业:70-80分&lt;br /&gt;
** 一系列作业，每个作业10-20分&lt;br /&gt;
** 必须按照规定时间将实验报告+源代码，提交到csteaching&lt;br /&gt;
&lt;br /&gt;
* 期末面对面小测验：10分（待定）&lt;br /&gt;
** 考察课程相关的基础知识，看看作业是否是自己做的&lt;br /&gt;
&lt;br /&gt;
* 平时成绩：10-20分&lt;br /&gt;
** 不能迟到、早退，特殊情况必须请假，并带辅导员签字的假条；&lt;br /&gt;
** 点名时，如果发现名单上没有你的名字，及时提出&lt;br /&gt;
&lt;br /&gt;
= 提交作业说明 =&lt;br /&gt;
* 网址：[http://csteaching.suda.edu.cn csteaching]&lt;br /&gt;
* 在规定时间内提交作业，包含两部分&lt;br /&gt;
** 实验报告（word或pdf）&lt;br /&gt;
*** 认真填写个人信息、实验题目、实验内容等&lt;br /&gt;
*** 不要大段粘贴代码，最多可以粘贴核心的一小段代码&lt;br /&gt;
*** 写清楚自己的解决思路，尤其是遇到的难点和如何解决&lt;br /&gt;
*** 建议可以画流程图或者写伪代码&lt;br /&gt;
*** 将程序运行结果截图&lt;br /&gt;
** 附件（.zip压缩包）&lt;br /&gt;
*** 源代码&lt;br /&gt;
*** readme.txt文件：说明如何运行你的程序，需要什么环境，如windows或linux，python版本如python3.5&lt;br /&gt;
* 提交前自我检查&lt;br /&gt;
** 是否有包含readme.txt文件解释如何编译执行你的程序。如没有该文件，将减分&lt;br /&gt;
** 是否认真完成实验报告&lt;br /&gt;
** 是否可以按照readme.txt正确编译和运行程序&lt;br /&gt;
** 是否包含别人的代码&lt;br /&gt;
** 期末可能会用软件做自动抄袭检查&lt;br /&gt;
* 提交作业命名规则&lt;br /&gt;
** 实验报告（姓名学号.doc或姓名学号.pdf）&lt;br /&gt;
** 附件（姓名学号.zip）&lt;br /&gt;
&lt;br /&gt;
== 实验报告word模板 ==&lt;br /&gt;
* [http://hlt.suda.edu.cn/~zhli/teach/ir-2019-spring/report.doc 下载]&lt;br /&gt;
&lt;br /&gt;
== 信息检索课程介绍 ==&lt;br /&gt;
* [http://hlt.suda.edu.cn/~zhli/teach/ir-2019-spring/ir-introduction-v0.4.pdf PPT下载]&lt;br /&gt;
&lt;br /&gt;
= 作业 6：网页排序 =&lt;br /&gt;
* 上课时间：2019.4.23&lt;br /&gt;
* 课件 &lt;br /&gt;
** 网页排序原理课件  [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/web-page-rank.ppt PPT下载]  &lt;br /&gt;
** 网页排序实验作业课件  [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/web-page-rank-task.ppt PPT下载]  &lt;br /&gt;
* 数据&lt;br /&gt;
** 数据下载   [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/files-web-page.tar.gz data下载]&lt;br /&gt;
* 作业提交时间截止时间：2019.5.7&lt;br /&gt;
&lt;br /&gt;
= 作业 5：中文多粒度分词标注 =&lt;br /&gt;
* 上课时间：2019.4.16&lt;br /&gt;
* 中文多粒度分词标注系统网址：http://101.132.166.249/anno-sys/index.php?action=index&lt;br /&gt;
* 多粒度分词标注规范  [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/MWS_guideline.pdf PDF下载]  &lt;br /&gt;
* 多粒度分词介绍以及标注系统使用说明  [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/MWS.pptx PPT下载]&lt;br /&gt;
* 作业完成时间：2019.4.26上午12：00以前。&lt;br /&gt;
*作业完成要求：完成110句的标注以及所有的学习任务。&lt;br /&gt;
&lt;br /&gt;
= 作业 4：倒排索引 =&lt;br /&gt;
&lt;br /&gt;
* 2019.3.26&lt;br /&gt;
* 课件 &lt;br /&gt;
** 倒排索引课件  [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/inverted-index.ppt PPT下载] &lt;br /&gt;
** 倒排索引课件(简化版)   [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/inverted-index-simplified.ppt PPT下载]  &lt;br /&gt;
** 倒排索引实验课件  [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/exp-inverted-index.ppt PPT下载]  &lt;br /&gt;
* 数据&lt;br /&gt;
** 数据下载   [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/files.tar.gz data下载]&lt;br /&gt;
* 作业提交时间截止时间：2019.4.30下课以前&lt;br /&gt;
&lt;br /&gt;
= 作业 3：网页正文抽取 =&lt;br /&gt;
&lt;br /&gt;
* 2019.3.26&lt;br /&gt;
* 课件 &lt;br /&gt;
** [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/web-page-content-extraction.ppt PPT下载] &lt;br /&gt;
** [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/web-page-content-extraction.pdf PDF下载]  &lt;br /&gt;
* 数据&lt;br /&gt;
**[http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/1.html 1.html]&lt;br /&gt;
**[http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/2.html 2.html]&lt;br /&gt;
&lt;br /&gt;
* 作业提交时间截止时间：2019.4.2&lt;br /&gt;
&lt;br /&gt;
= 作业 2：单词计数 =&lt;br /&gt;
* 2019.3.12&lt;br /&gt;
* 课件 [http://hlt.suda.edu.cn/~zhli/teach/ir-2019-spring/word-count.pdf PPT下载]&lt;br /&gt;
* 数据 [http://hlt.suda.edu.cn/~zhli/teach/ir-2019-spring/sample-en.txt txt下载]&lt;br /&gt;
* 作业提交时间截止时间：2019.4.2&lt;br /&gt;
&lt;br /&gt;
= 作业 1：最大匹配分词 = &lt;br /&gt;
* 2019.3.5&lt;br /&gt;
* 2019.3.19上机课前提交&lt;br /&gt;
*课件：前向最大匹配 PDF文件--[[文件:Word-seg-max-match.pdf]]；PPT文件--[[文件:Word-seg-max-match.zip]]&lt;br /&gt;
&lt;br /&gt;
*数据下载：&lt;br /&gt;
**字典：[[文件:dict.txt]] &lt;br /&gt;
**待分词：[[文件:sentence.txt]] &lt;br /&gt;
**正确答案：[[文件:answer.txt]]；&lt;br /&gt;
**模型预测结果：[[文件:out.txt]]&lt;br /&gt;
&lt;br /&gt;
*正确实验结果&lt;br /&gt;
**正确识别的词数：20263&lt;br /&gt;
**识别出的总体个数：20397&lt;br /&gt;
**测试集中的总体个数：20454&lt;br /&gt;
**正确率：0.99343&lt;br /&gt;
**召回率：0.99066&lt;br /&gt;
**F值：0.99204&lt;/div&gt;</summary>
		<author><name>Liying</name></author>
	</entry>
	<entry>
		<id>http://hlt.suda.edu.cn/index.php?title=Ir-2019-spring&amp;diff=1036</id>
		<title>Ir-2019-spring</title>
		<link rel="alternate" type="text/html" href="http://hlt.suda.edu.cn/index.php?title=Ir-2019-spring&amp;diff=1036"/>
		<updated>2019-04-19T02:40:03Z</updated>

		<summary type="html">&lt;p&gt;Liying：/* 作业 5：中文多粒度分词标注 */&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;= 信息检索课程设计（Information Retrieval）Course Resources =&lt;br /&gt;
&lt;br /&gt;
Teacher: [http://hlt.suda.edu.cn/~zhli/en.html 李正华]&lt;br /&gt;
&lt;br /&gt;
Teach Assistant: &lt;br /&gt;
&lt;br /&gt;
课程交流学习群（qq）---- 群名称: ir-2019-spring 群 号: 697444164&lt;br /&gt;
&lt;br /&gt;
2019春季学期&lt;br /&gt;
周二5-8节&lt;br /&gt;
理工楼247和238&lt;br /&gt;
&lt;br /&gt;
= 计算成绩的规则和说明 =&lt;br /&gt;
*实验作业:70-80分&lt;br /&gt;
** 一系列作业，每个作业10-20分&lt;br /&gt;
** 必须按照规定时间将实验报告+源代码，提交到csteaching&lt;br /&gt;
&lt;br /&gt;
* 期末面对面小测验：10分（待定）&lt;br /&gt;
** 考察课程相关的基础知识，看看作业是否是自己做的&lt;br /&gt;
&lt;br /&gt;
* 平时成绩：10-20分&lt;br /&gt;
** 不能迟到、早退，特殊情况必须请假，并带辅导员签字的假条；&lt;br /&gt;
** 点名时，如果发现名单上没有你的名字，及时提出&lt;br /&gt;
&lt;br /&gt;
= 提交作业说明 =&lt;br /&gt;
* 网址：[http://csteaching.suda.edu.cn csteaching]&lt;br /&gt;
* 在规定时间内提交作业，包含两部分&lt;br /&gt;
** 实验报告（word或pdf）&lt;br /&gt;
*** 认真填写个人信息、实验题目、实验内容等&lt;br /&gt;
*** 不要大段粘贴代码，最多可以粘贴核心的一小段代码&lt;br /&gt;
*** 写清楚自己的解决思路，尤其是遇到的难点和如何解决&lt;br /&gt;
*** 建议可以画流程图或者写伪代码&lt;br /&gt;
*** 将程序运行结果截图&lt;br /&gt;
** 附件（.zip压缩包）&lt;br /&gt;
*** 源代码&lt;br /&gt;
*** readme.txt文件：说明如何运行你的程序，需要什么环境，如windows或linux，python版本如python3.5&lt;br /&gt;
* 提交前自我检查&lt;br /&gt;
** 是否有包含readme.txt文件解释如何编译执行你的程序。如没有该文件，将减分&lt;br /&gt;
** 是否认真完成实验报告&lt;br /&gt;
** 是否可以按照readme.txt正确编译和运行程序&lt;br /&gt;
** 是否包含别人的代码&lt;br /&gt;
** 期末可能会用软件做自动抄袭检查&lt;br /&gt;
* 提交作业命名规则&lt;br /&gt;
** 实验报告（姓名学号.doc或姓名学号.pdf）&lt;br /&gt;
** 附件（姓名学号.zip）&lt;br /&gt;
&lt;br /&gt;
== 实验报告word模板 ==&lt;br /&gt;
* [http://hlt.suda.edu.cn/~zhli/teach/ir-2019-spring/report.doc 下载]&lt;br /&gt;
&lt;br /&gt;
== 信息检索课程介绍 ==&lt;br /&gt;
* [http://hlt.suda.edu.cn/~zhli/teach/ir-2019-spring/ir-introduction-v0.4.pdf PPT下载]&lt;br /&gt;
&lt;br /&gt;
= 作业 6：网页排序 =&lt;br /&gt;
* 上课时间：2019.4.23&lt;br /&gt;
* 课件 &lt;br /&gt;
** 网页排序原理课件  [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/web-page-rank.ppt PPT下载]  &lt;br /&gt;
** 网页排序实验作业课件  [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/web-page-rank-task.ppt PPT下载]  &lt;br /&gt;
* 数据&lt;br /&gt;
** 数据下载   [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/files-web-page.tar.gz data下载]&lt;br /&gt;
* 作业提交时间截止时间：2019.5.7&lt;br /&gt;
&lt;br /&gt;
= 作业 5：中文多粒度分词标注 =&lt;br /&gt;
* 上课时间：2019.4.16&lt;br /&gt;
* 中文多粒度分词标注系统网址：http://101.132.166.249/anno-sys/index.php?action=index&lt;br /&gt;
* 多粒度分词标注规范  [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/MWS-guideline.pdf PDF下载]  &lt;br /&gt;
* 多粒度分词介绍以及标注系统使用说明  [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/MWS.pptx PPT下载]&lt;br /&gt;
* 作业完成时间：2019.4.26上午12：00以前。&lt;br /&gt;
*作业完成要求：完成110句的标注以及所有的学习任务。&lt;br /&gt;
&lt;br /&gt;
= 作业 4：倒排索引 =&lt;br /&gt;
&lt;br /&gt;
* 2019.3.26&lt;br /&gt;
* 课件 &lt;br /&gt;
** 倒排索引课件  [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/inverted-index.ppt PPT下载] &lt;br /&gt;
** 倒排索引课件(简化版)   [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/inverted-index-simplified.ppt PPT下载]  &lt;br /&gt;
** 倒排索引实验课件  [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/exp-inverted-index.ppt PPT下载]  &lt;br /&gt;
* 数据&lt;br /&gt;
** 数据下载   [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/files.tar.gz data下载]&lt;br /&gt;
* 作业提交时间截止时间：2019.4.30下课以前&lt;br /&gt;
&lt;br /&gt;
= 作业 3：网页正文抽取 =&lt;br /&gt;
&lt;br /&gt;
* 2019.3.26&lt;br /&gt;
* 课件 &lt;br /&gt;
** [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/web-page-content-extraction.ppt PPT下载] &lt;br /&gt;
** [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/web-page-content-extraction.pdf PDF下载]  &lt;br /&gt;
* 数据&lt;br /&gt;
**[http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/1.html 1.html]&lt;br /&gt;
**[http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/2.html 2.html]&lt;br /&gt;
&lt;br /&gt;
* 作业提交时间截止时间：2019.4.2&lt;br /&gt;
&lt;br /&gt;
= 作业 2：单词计数 =&lt;br /&gt;
* 2019.3.12&lt;br /&gt;
* 课件 [http://hlt.suda.edu.cn/~zhli/teach/ir-2019-spring/word-count.pdf PPT下载]&lt;br /&gt;
* 数据 [http://hlt.suda.edu.cn/~zhli/teach/ir-2019-spring/sample-en.txt txt下载]&lt;br /&gt;
* 作业提交时间截止时间：2019.4.2&lt;br /&gt;
&lt;br /&gt;
= 作业 1：最大匹配分词 = &lt;br /&gt;
* 2019.3.5&lt;br /&gt;
* 2019.3.19上机课前提交&lt;br /&gt;
*课件：前向最大匹配 PDF文件--[[文件:Word-seg-max-match.pdf]]；PPT文件--[[文件:Word-seg-max-match.zip]]&lt;br /&gt;
&lt;br /&gt;
*数据下载：&lt;br /&gt;
**字典：[[文件:dict.txt]] &lt;br /&gt;
**待分词：[[文件:sentence.txt]] &lt;br /&gt;
**正确答案：[[文件:answer.txt]]；&lt;br /&gt;
**模型预测结果：[[文件:out.txt]]&lt;br /&gt;
&lt;br /&gt;
*正确实验结果&lt;br /&gt;
**正确识别的词数：20263&lt;br /&gt;
**识别出的总体个数：20397&lt;br /&gt;
**测试集中的总体个数：20454&lt;br /&gt;
**正确率：0.99343&lt;br /&gt;
**召回率：0.99066&lt;br /&gt;
**F值：0.99204&lt;/div&gt;</summary>
		<author><name>Liying</name></author>
	</entry>
	<entry>
		<id>http://hlt.suda.edu.cn/index.php?title=Ir-2019-spring&amp;diff=1023</id>
		<title>Ir-2019-spring</title>
		<link rel="alternate" type="text/html" href="http://hlt.suda.edu.cn/index.php?title=Ir-2019-spring&amp;diff=1023"/>
		<updated>2019-04-16T08:52:17Z</updated>

		<summary type="html">&lt;p&gt;Liying：/* 作业 6：网页排序 */&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;= 信息检索课程设计（Information Retrieval）Course Resources =&lt;br /&gt;
&lt;br /&gt;
Teacher: [http://hlt.suda.edu.cn/~zhli/en.html 李正华]&lt;br /&gt;
&lt;br /&gt;
Teach Assistant: &lt;br /&gt;
&lt;br /&gt;
课程交流学习群（qq）---- 群名称: ir-2019-spring 群 号: 697444164&lt;br /&gt;
&lt;br /&gt;
2019春季学期&lt;br /&gt;
周二5-8节&lt;br /&gt;
理工楼247和238&lt;br /&gt;
&lt;br /&gt;
= 计算成绩的规则和说明 =&lt;br /&gt;
*实验作业:70-80分&lt;br /&gt;
** 一系列作业，每个作业10-20分&lt;br /&gt;
** 必须按照规定时间将实验报告+源代码，提交到csteaching&lt;br /&gt;
&lt;br /&gt;
* 期末面对面小测验：10分（待定）&lt;br /&gt;
** 考察课程相关的基础知识，看看作业是否是自己做的&lt;br /&gt;
&lt;br /&gt;
* 平时成绩：10-20分&lt;br /&gt;
** 不能迟到、早退，特殊情况必须请假，并带辅导员签字的假条；&lt;br /&gt;
** 点名时，如果发现名单上没有你的名字，及时提出&lt;br /&gt;
&lt;br /&gt;
= 提交作业说明 =&lt;br /&gt;
* 网址：[http://csteaching.suda.edu.cn csteaching]&lt;br /&gt;
* 在规定时间内提交作业，包含两部分&lt;br /&gt;
** 实验报告（word或pdf）&lt;br /&gt;
*** 认真填写个人信息、实验题目、实验内容等&lt;br /&gt;
*** 不要大段粘贴代码，最多可以粘贴核心的一小段代码&lt;br /&gt;
*** 写清楚自己的解决思路，尤其是遇到的难点和如何解决&lt;br /&gt;
*** 建议可以画流程图或者写伪代码&lt;br /&gt;
*** 将程序运行结果截图&lt;br /&gt;
** 附件（.zip压缩包）&lt;br /&gt;
*** 源代码&lt;br /&gt;
*** readme.txt文件：说明如何运行你的程序，需要什么环境，如windows或linux，python版本如python3.5&lt;br /&gt;
* 提交前自我检查&lt;br /&gt;
** 是否有包含readme.txt文件解释如何编译执行你的程序。如没有该文件，将减分&lt;br /&gt;
** 是否认真完成实验报告&lt;br /&gt;
** 是否可以按照readme.txt正确编译和运行程序&lt;br /&gt;
** 是否包含别人的代码&lt;br /&gt;
** 期末可能会用软件做自动抄袭检查&lt;br /&gt;
* 提交作业命名规则&lt;br /&gt;
** 实验报告（姓名学号.doc或姓名学号.pdf）&lt;br /&gt;
** 附件（姓名学号.zip）&lt;br /&gt;
&lt;br /&gt;
== 实验报告word模板 ==&lt;br /&gt;
* [http://hlt.suda.edu.cn/~zhli/teach/ir-2019-spring/report.doc 下载]&lt;br /&gt;
&lt;br /&gt;
== 信息检索课程介绍 ==&lt;br /&gt;
* [http://hlt.suda.edu.cn/~zhli/teach/ir-2019-spring/ir-introduction-v0.4.pdf PPT下载]&lt;br /&gt;
&lt;br /&gt;
= 作业 6：网页排序 =&lt;br /&gt;
* 上课时间：2019.4.23&lt;br /&gt;
* 课件 &lt;br /&gt;
** 网页排序原理课件  [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/web-page-rank.ppt PPT下载]  &lt;br /&gt;
** 网页排序实验作业课件  [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/web-page-rank-task.ppt PPT下载]  &lt;br /&gt;
* 数据&lt;br /&gt;
** 数据下载   [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/files-web-page.tar.gz data下载]&lt;br /&gt;
* 作业提交时间截止时间：2019.5.7&lt;br /&gt;
&lt;br /&gt;
= 作业 5：中文多粒度分词标注 =&lt;br /&gt;
* 上课时间：2019.4.16&lt;br /&gt;
* 中文多粒度分词标注系统网址：http://101.132.166.249/anno-sys/index.php?action=index&lt;br /&gt;
* 多粒度分词标注规范  [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/MWS-guideline.pdf PDF下载]  &lt;br /&gt;
* 多粒度分词介绍以及标注系统使用说明  [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/MWS.pptx PPT下载]&lt;br /&gt;
* 作业完成时间：2019.4.19上午12：00以前。&lt;br /&gt;
*作业完成要求：完成110句的标注以及所有的学习任务。&lt;br /&gt;
&lt;br /&gt;
= 作业 4：倒排索引 =&lt;br /&gt;
&lt;br /&gt;
* 2019.3.26&lt;br /&gt;
* 课件 &lt;br /&gt;
** 倒排索引课件  [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/inverted-index.ppt PPT下载] &lt;br /&gt;
** 倒排索引课件(简化版)   [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/inverted-index-simplified.ppt PPT下载]  &lt;br /&gt;
** 倒排索引实验课件  [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/exp-inverted-index.ppt PPT下载]  &lt;br /&gt;
* 数据&lt;br /&gt;
** 数据下载   [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/files.tar.gz data下载]&lt;br /&gt;
* 作业提交时间截止时间：2019.4.30下课以前&lt;br /&gt;
&lt;br /&gt;
= 作业 3：网页正文抽取 =&lt;br /&gt;
&lt;br /&gt;
* 2019.3.26&lt;br /&gt;
* 课件 &lt;br /&gt;
** [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/web-page-content-extraction.ppt PPT下载] &lt;br /&gt;
** [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/web-page-content-extraction.pdf PDF下载]  &lt;br /&gt;
* 数据&lt;br /&gt;
**[http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/1.html 1.html]&lt;br /&gt;
**[http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/2.html 2.html]&lt;br /&gt;
&lt;br /&gt;
* 作业提交时间截止时间：2019.4.2&lt;br /&gt;
&lt;br /&gt;
= 作业 2：单词计数 =&lt;br /&gt;
* 2019.3.12&lt;br /&gt;
* 课件 [http://hlt.suda.edu.cn/~zhli/teach/ir-2019-spring/word-count.pdf PPT下载]&lt;br /&gt;
* 数据 [http://hlt.suda.edu.cn/~zhli/teach/ir-2019-spring/sample-en.txt txt下载]&lt;br /&gt;
* 作业提交时间截止时间：2019.4.2&lt;br /&gt;
&lt;br /&gt;
= 作业 1：最大匹配分词 = &lt;br /&gt;
* 2019.3.5&lt;br /&gt;
* 2019.3.19上机课前提交&lt;br /&gt;
*课件：前向最大匹配 PDF文件--[[文件:Word-seg-max-match.pdf]]；PPT文件--[[文件:Word-seg-max-match.zip]]&lt;br /&gt;
&lt;br /&gt;
*数据下载：&lt;br /&gt;
**字典：[[文件:dict.txt]] &lt;br /&gt;
**待分词：[[文件:sentence.txt]] &lt;br /&gt;
**正确答案：[[文件:answer.txt]]；&lt;br /&gt;
**模型预测结果：[[文件:out.txt]]&lt;br /&gt;
&lt;br /&gt;
*正确实验结果&lt;br /&gt;
**正确识别的词数：20263&lt;br /&gt;
**识别出的总体个数：20397&lt;br /&gt;
**测试集中的总体个数：20454&lt;br /&gt;
**正确率：0.99343&lt;br /&gt;
**召回率：0.99066&lt;br /&gt;
**F值：0.99204&lt;/div&gt;</summary>
		<author><name>Liying</name></author>
	</entry>
	<entry>
		<id>http://hlt.suda.edu.cn/index.php?title=Ir-2019-spring&amp;diff=1022</id>
		<title>Ir-2019-spring</title>
		<link rel="alternate" type="text/html" href="http://hlt.suda.edu.cn/index.php?title=Ir-2019-spring&amp;diff=1022"/>
		<updated>2019-04-16T07:52:44Z</updated>

		<summary type="html">&lt;p&gt;Liying：/* 作业 4：倒排索引 */&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;= 信息检索课程设计（Information Retrieval）Course Resources =&lt;br /&gt;
&lt;br /&gt;
Teacher: [http://hlt.suda.edu.cn/~zhli/en.html 李正华]&lt;br /&gt;
&lt;br /&gt;
Teach Assistant: &lt;br /&gt;
&lt;br /&gt;
课程交流学习群（qq）---- 群名称: ir-2019-spring 群 号: 697444164&lt;br /&gt;
&lt;br /&gt;
2019春季学期&lt;br /&gt;
周二5-8节&lt;br /&gt;
理工楼247和238&lt;br /&gt;
&lt;br /&gt;
= 计算成绩的规则和说明 =&lt;br /&gt;
*实验作业:70-80分&lt;br /&gt;
** 一系列作业，每个作业10-20分&lt;br /&gt;
** 必须按照规定时间将实验报告+源代码，提交到csteaching&lt;br /&gt;
&lt;br /&gt;
* 期末面对面小测验：10分（待定）&lt;br /&gt;
** 考察课程相关的基础知识，看看作业是否是自己做的&lt;br /&gt;
&lt;br /&gt;
* 平时成绩：10-20分&lt;br /&gt;
** 不能迟到、早退，特殊情况必须请假，并带辅导员签字的假条；&lt;br /&gt;
** 点名时，如果发现名单上没有你的名字，及时提出&lt;br /&gt;
&lt;br /&gt;
= 提交作业说明 =&lt;br /&gt;
* 网址：[http://csteaching.suda.edu.cn csteaching]&lt;br /&gt;
* 在规定时间内提交作业，包含两部分&lt;br /&gt;
** 实验报告（word或pdf）&lt;br /&gt;
*** 认真填写个人信息、实验题目、实验内容等&lt;br /&gt;
*** 不要大段粘贴代码，最多可以粘贴核心的一小段代码&lt;br /&gt;
*** 写清楚自己的解决思路，尤其是遇到的难点和如何解决&lt;br /&gt;
*** 建议可以画流程图或者写伪代码&lt;br /&gt;
*** 将程序运行结果截图&lt;br /&gt;
** 附件（.zip压缩包）&lt;br /&gt;
*** 源代码&lt;br /&gt;
*** readme.txt文件：说明如何运行你的程序，需要什么环境，如windows或linux，python版本如python3.5&lt;br /&gt;
* 提交前自我检查&lt;br /&gt;
** 是否有包含readme.txt文件解释如何编译执行你的程序。如没有该文件，将减分&lt;br /&gt;
** 是否认真完成实验报告&lt;br /&gt;
** 是否可以按照readme.txt正确编译和运行程序&lt;br /&gt;
** 是否包含别人的代码&lt;br /&gt;
** 期末可能会用软件做自动抄袭检查&lt;br /&gt;
* 提交作业命名规则&lt;br /&gt;
** 实验报告（姓名学号.doc或姓名学号.pdf）&lt;br /&gt;
** 附件（姓名学号.zip）&lt;br /&gt;
&lt;br /&gt;
== 实验报告word模板 ==&lt;br /&gt;
* [http://hlt.suda.edu.cn/~zhli/teach/ir-2019-spring/report.doc 下载]&lt;br /&gt;
&lt;br /&gt;
== 信息检索课程介绍 ==&lt;br /&gt;
* [http://hlt.suda.edu.cn/~zhli/teach/ir-2019-spring/ir-introduction-v0.4.pdf PPT下载]&lt;br /&gt;
&lt;br /&gt;
= 作业 6：网页排序 =&lt;br /&gt;
* 课件 &lt;br /&gt;
** 网页排序原理课件  [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/web-page-rank.ppt PPT下载]  &lt;br /&gt;
** 网页排序实验作业课件  [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/web-page-rank-task.ppt PPT下载]  &lt;br /&gt;
* 数据&lt;br /&gt;
** 数据下载   [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/files-web-page.tar.gz data下载]&lt;br /&gt;
* 作业提交时间截止时间：2019.5.7&lt;br /&gt;
&lt;br /&gt;
= 作业 5：中文多粒度分词标注 =&lt;br /&gt;
* 上课时间：2019.4.16&lt;br /&gt;
* 中文多粒度分词标注系统网址：http://101.132.166.249/anno-sys/index.php?action=index&lt;br /&gt;
* 多粒度分词标注规范  [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/MWS-guideline.pdf PDF下载]  &lt;br /&gt;
* 多粒度分词介绍以及标注系统使用说明  [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/MWS.pptx PPT下载]&lt;br /&gt;
* 作业完成时间：2019.4.19上午12：00以前。&lt;br /&gt;
*作业完成要求：完成110句的标注以及所有的学习任务。&lt;br /&gt;
&lt;br /&gt;
= 作业 4：倒排索引 =&lt;br /&gt;
&lt;br /&gt;
* 2019.3.26&lt;br /&gt;
* 课件 &lt;br /&gt;
** 倒排索引课件  [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/inverted-index.ppt PPT下载] &lt;br /&gt;
** 倒排索引课件(简化版)   [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/inverted-index-simplified.ppt PPT下载]  &lt;br /&gt;
** 倒排索引实验课件  [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/exp-inverted-index.ppt PPT下载]  &lt;br /&gt;
* 数据&lt;br /&gt;
** 数据下载   [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/files.tar.gz data下载]&lt;br /&gt;
* 作业提交时间截止时间：2019.4.30下课以前&lt;br /&gt;
&lt;br /&gt;
= 作业 3：网页正文抽取 =&lt;br /&gt;
&lt;br /&gt;
* 2019.3.26&lt;br /&gt;
* 课件 &lt;br /&gt;
** [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/web-page-content-extraction.ppt PPT下载] &lt;br /&gt;
** [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/web-page-content-extraction.pdf PDF下载]  &lt;br /&gt;
* 数据&lt;br /&gt;
**[http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/1.html 1.html]&lt;br /&gt;
**[http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/2.html 2.html]&lt;br /&gt;
&lt;br /&gt;
* 作业提交时间截止时间：2019.4.2&lt;br /&gt;
&lt;br /&gt;
= 作业 2：单词计数 =&lt;br /&gt;
* 2019.3.12&lt;br /&gt;
* 课件 [http://hlt.suda.edu.cn/~zhli/teach/ir-2019-spring/word-count.pdf PPT下载]&lt;br /&gt;
* 数据 [http://hlt.suda.edu.cn/~zhli/teach/ir-2019-spring/sample-en.txt txt下载]&lt;br /&gt;
* 作业提交时间截止时间：2019.4.2&lt;br /&gt;
&lt;br /&gt;
= 作业 1：最大匹配分词 = &lt;br /&gt;
* 2019.3.5&lt;br /&gt;
* 2019.3.19上机课前提交&lt;br /&gt;
*课件：前向最大匹配 PDF文件--[[文件:Word-seg-max-match.pdf]]；PPT文件--[[文件:Word-seg-max-match.zip]]&lt;br /&gt;
&lt;br /&gt;
*数据下载：&lt;br /&gt;
**字典：[[文件:dict.txt]] &lt;br /&gt;
**待分词：[[文件:sentence.txt]] &lt;br /&gt;
**正确答案：[[文件:answer.txt]]；&lt;br /&gt;
**模型预测结果：[[文件:out.txt]]&lt;br /&gt;
&lt;br /&gt;
*正确实验结果&lt;br /&gt;
**正确识别的词数：20263&lt;br /&gt;
**识别出的总体个数：20397&lt;br /&gt;
**测试集中的总体个数：20454&lt;br /&gt;
**正确率：0.99343&lt;br /&gt;
**召回率：0.99066&lt;br /&gt;
**F值：0.99204&lt;/div&gt;</summary>
		<author><name>Liying</name></author>
	</entry>
	<entry>
		<id>http://hlt.suda.edu.cn/index.php?title=Ir-2019-spring&amp;diff=1021</id>
		<title>Ir-2019-spring</title>
		<link rel="alternate" type="text/html" href="http://hlt.suda.edu.cn/index.php?title=Ir-2019-spring&amp;diff=1021"/>
		<updated>2019-04-16T07:51:40Z</updated>

		<summary type="html">&lt;p&gt;Liying：/* 作业 5：中文多粒度分词标注 */&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;= 信息检索课程设计（Information Retrieval）Course Resources =&lt;br /&gt;
&lt;br /&gt;
Teacher: [http://hlt.suda.edu.cn/~zhli/en.html 李正华]&lt;br /&gt;
&lt;br /&gt;
Teach Assistant: &lt;br /&gt;
&lt;br /&gt;
课程交流学习群（qq）---- 群名称: ir-2019-spring 群 号: 697444164&lt;br /&gt;
&lt;br /&gt;
2019春季学期&lt;br /&gt;
周二5-8节&lt;br /&gt;
理工楼247和238&lt;br /&gt;
&lt;br /&gt;
= 计算成绩的规则和说明 =&lt;br /&gt;
*实验作业:70-80分&lt;br /&gt;
** 一系列作业，每个作业10-20分&lt;br /&gt;
** 必须按照规定时间将实验报告+源代码，提交到csteaching&lt;br /&gt;
&lt;br /&gt;
* 期末面对面小测验：10分（待定）&lt;br /&gt;
** 考察课程相关的基础知识，看看作业是否是自己做的&lt;br /&gt;
&lt;br /&gt;
* 平时成绩：10-20分&lt;br /&gt;
** 不能迟到、早退，特殊情况必须请假，并带辅导员签字的假条；&lt;br /&gt;
** 点名时，如果发现名单上没有你的名字，及时提出&lt;br /&gt;
&lt;br /&gt;
= 提交作业说明 =&lt;br /&gt;
* 网址：[http://csteaching.suda.edu.cn csteaching]&lt;br /&gt;
* 在规定时间内提交作业，包含两部分&lt;br /&gt;
** 实验报告（word或pdf）&lt;br /&gt;
*** 认真填写个人信息、实验题目、实验内容等&lt;br /&gt;
*** 不要大段粘贴代码，最多可以粘贴核心的一小段代码&lt;br /&gt;
*** 写清楚自己的解决思路，尤其是遇到的难点和如何解决&lt;br /&gt;
*** 建议可以画流程图或者写伪代码&lt;br /&gt;
*** 将程序运行结果截图&lt;br /&gt;
** 附件（.zip压缩包）&lt;br /&gt;
*** 源代码&lt;br /&gt;
*** readme.txt文件：说明如何运行你的程序，需要什么环境，如windows或linux，python版本如python3.5&lt;br /&gt;
* 提交前自我检查&lt;br /&gt;
** 是否有包含readme.txt文件解释如何编译执行你的程序。如没有该文件，将减分&lt;br /&gt;
** 是否认真完成实验报告&lt;br /&gt;
** 是否可以按照readme.txt正确编译和运行程序&lt;br /&gt;
** 是否包含别人的代码&lt;br /&gt;
** 期末可能会用软件做自动抄袭检查&lt;br /&gt;
* 提交作业命名规则&lt;br /&gt;
** 实验报告（姓名学号.doc或姓名学号.pdf）&lt;br /&gt;
** 附件（姓名学号.zip）&lt;br /&gt;
&lt;br /&gt;
== 实验报告word模板 ==&lt;br /&gt;
* [http://hlt.suda.edu.cn/~zhli/teach/ir-2019-spring/report.doc 下载]&lt;br /&gt;
&lt;br /&gt;
== 信息检索课程介绍 ==&lt;br /&gt;
* [http://hlt.suda.edu.cn/~zhli/teach/ir-2019-spring/ir-introduction-v0.4.pdf PPT下载]&lt;br /&gt;
&lt;br /&gt;
= 作业 6：网页排序 =&lt;br /&gt;
* 课件 &lt;br /&gt;
** 网页排序原理课件  [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/web-page-rank.ppt PPT下载]  &lt;br /&gt;
** 网页排序实验作业课件  [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/web-page-rank-task.ppt PPT下载]  &lt;br /&gt;
* 数据&lt;br /&gt;
** 数据下载   [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/files-web-page.tar.gz data下载]&lt;br /&gt;
* 作业提交时间截止时间：2019.5.7&lt;br /&gt;
&lt;br /&gt;
= 作业 5：中文多粒度分词标注 =&lt;br /&gt;
* 上课时间：2019.4.16&lt;br /&gt;
* 中文多粒度分词标注系统网址：http://101.132.166.249/anno-sys/index.php?action=index&lt;br /&gt;
* 多粒度分词标注规范  [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/MWS-guideline.pdf PDF下载]  &lt;br /&gt;
* 多粒度分词介绍以及标注系统使用说明  [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/MWS.pptx PPT下载]&lt;br /&gt;
* 作业完成时间：2019.4.19上午12：00以前。&lt;br /&gt;
*作业完成要求：完成110句的标注以及所有的学习任务。&lt;br /&gt;
&lt;br /&gt;
= 作业 4：倒排索引 =&lt;br /&gt;
&lt;br /&gt;
* 2019.3.26&lt;br /&gt;
* 课件 &lt;br /&gt;
** 倒排索引课件  [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/inverted-index.ppt PPT下载] &lt;br /&gt;
** 倒排索引课件(简化版)   [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/inverted-index-simplified.ppt PPT下载]  &lt;br /&gt;
** 倒排索引实验课件  [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/exp-inverted-index.ppt PPT下载]  &lt;br /&gt;
* 数据&lt;br /&gt;
** 数据下载   [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/files.tar.gz data下载]&lt;br /&gt;
* 作业提交时间截止时间：2019.4.23&lt;br /&gt;
&lt;br /&gt;
= 作业 3：网页正文抽取 =&lt;br /&gt;
&lt;br /&gt;
* 2019.3.26&lt;br /&gt;
* 课件 &lt;br /&gt;
** [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/web-page-content-extraction.ppt PPT下载] &lt;br /&gt;
** [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/web-page-content-extraction.pdf PDF下载]  &lt;br /&gt;
* 数据&lt;br /&gt;
**[http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/1.html 1.html]&lt;br /&gt;
**[http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/2.html 2.html]&lt;br /&gt;
&lt;br /&gt;
* 作业提交时间截止时间：2019.4.2&lt;br /&gt;
&lt;br /&gt;
= 作业 2：单词计数 =&lt;br /&gt;
* 2019.3.12&lt;br /&gt;
* 课件 [http://hlt.suda.edu.cn/~zhli/teach/ir-2019-spring/word-count.pdf PPT下载]&lt;br /&gt;
* 数据 [http://hlt.suda.edu.cn/~zhli/teach/ir-2019-spring/sample-en.txt txt下载]&lt;br /&gt;
* 作业提交时间截止时间：2019.4.2&lt;br /&gt;
&lt;br /&gt;
= 作业 1：最大匹配分词 = &lt;br /&gt;
* 2019.3.5&lt;br /&gt;
* 2019.3.19上机课前提交&lt;br /&gt;
*课件：前向最大匹配 PDF文件--[[文件:Word-seg-max-match.pdf]]；PPT文件--[[文件:Word-seg-max-match.zip]]&lt;br /&gt;
&lt;br /&gt;
*数据下载：&lt;br /&gt;
**字典：[[文件:dict.txt]] &lt;br /&gt;
**待分词：[[文件:sentence.txt]] &lt;br /&gt;
**正确答案：[[文件:answer.txt]]；&lt;br /&gt;
**模型预测结果：[[文件:out.txt]]&lt;br /&gt;
&lt;br /&gt;
*正确实验结果&lt;br /&gt;
**正确识别的词数：20263&lt;br /&gt;
**识别出的总体个数：20397&lt;br /&gt;
**测试集中的总体个数：20454&lt;br /&gt;
**正确率：0.99343&lt;br /&gt;
**召回率：0.99066&lt;br /&gt;
**F值：0.99204&lt;/div&gt;</summary>
		<author><name>Liying</name></author>
	</entry>
	<entry>
		<id>http://hlt.suda.edu.cn/index.php?title=Ir-2019-spring&amp;diff=1020</id>
		<title>Ir-2019-spring</title>
		<link rel="alternate" type="text/html" href="http://hlt.suda.edu.cn/index.php?title=Ir-2019-spring&amp;diff=1020"/>
		<updated>2019-04-16T04:52:12Z</updated>

		<summary type="html">&lt;p&gt;Liying：/* 作业 5：网页排序 */&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;= 信息检索课程设计（Information Retrieval）Course Resources =&lt;br /&gt;
&lt;br /&gt;
Teacher: [http://hlt.suda.edu.cn/~zhli/en.html 李正华]&lt;br /&gt;
&lt;br /&gt;
Teach Assistant: &lt;br /&gt;
&lt;br /&gt;
课程交流学习群（qq）---- 群名称: ir-2019-spring 群 号: 697444164&lt;br /&gt;
&lt;br /&gt;
2019春季学期&lt;br /&gt;
周二5-8节&lt;br /&gt;
理工楼247和238&lt;br /&gt;
&lt;br /&gt;
= 计算成绩的规则和说明 =&lt;br /&gt;
*实验作业:70-80分&lt;br /&gt;
** 一系列作业，每个作业10-20分&lt;br /&gt;
** 必须按照规定时间将实验报告+源代码，提交到csteaching&lt;br /&gt;
&lt;br /&gt;
* 期末面对面小测验：10分（待定）&lt;br /&gt;
** 考察课程相关的基础知识，看看作业是否是自己做的&lt;br /&gt;
&lt;br /&gt;
* 平时成绩：10-20分&lt;br /&gt;
** 不能迟到、早退，特殊情况必须请假，并带辅导员签字的假条；&lt;br /&gt;
** 点名时，如果发现名单上没有你的名字，及时提出&lt;br /&gt;
&lt;br /&gt;
= 提交作业说明 =&lt;br /&gt;
* 网址：[http://csteaching.suda.edu.cn csteaching]&lt;br /&gt;
* 在规定时间内提交作业，包含两部分&lt;br /&gt;
** 实验报告（word或pdf）&lt;br /&gt;
*** 认真填写个人信息、实验题目、实验内容等&lt;br /&gt;
*** 不要大段粘贴代码，最多可以粘贴核心的一小段代码&lt;br /&gt;
*** 写清楚自己的解决思路，尤其是遇到的难点和如何解决&lt;br /&gt;
*** 建议可以画流程图或者写伪代码&lt;br /&gt;
*** 将程序运行结果截图&lt;br /&gt;
** 附件（.zip压缩包）&lt;br /&gt;
*** 源代码&lt;br /&gt;
*** readme.txt文件：说明如何运行你的程序，需要什么环境，如windows或linux，python版本如python3.5&lt;br /&gt;
* 提交前自我检查&lt;br /&gt;
** 是否有包含readme.txt文件解释如何编译执行你的程序。如没有该文件，将减分&lt;br /&gt;
** 是否认真完成实验报告&lt;br /&gt;
** 是否可以按照readme.txt正确编译和运行程序&lt;br /&gt;
** 是否包含别人的代码&lt;br /&gt;
** 期末可能会用软件做自动抄袭检查&lt;br /&gt;
* 提交作业命名规则&lt;br /&gt;
** 实验报告（姓名学号.doc或姓名学号.pdf）&lt;br /&gt;
** 附件（姓名学号.zip）&lt;br /&gt;
&lt;br /&gt;
== 实验报告word模板 ==&lt;br /&gt;
* [http://hlt.suda.edu.cn/~zhli/teach/ir-2019-spring/report.doc 下载]&lt;br /&gt;
&lt;br /&gt;
== 信息检索课程介绍 ==&lt;br /&gt;
* [http://hlt.suda.edu.cn/~zhli/teach/ir-2019-spring/ir-introduction-v0.4.pdf PPT下载]&lt;br /&gt;
&lt;br /&gt;
= 作业 6：网页排序 =&lt;br /&gt;
* 课件 &lt;br /&gt;
** 网页排序原理课件  [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/web-page-rank.ppt PPT下载]  &lt;br /&gt;
** 网页排序实验作业课件  [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/web-page-rank-task.ppt PPT下载]  &lt;br /&gt;
* 数据&lt;br /&gt;
** 数据下载   [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/files-web-page.tar.gz data下载]&lt;br /&gt;
* 作业提交时间截止时间：2019.5.7&lt;br /&gt;
&lt;br /&gt;
= 作业 5：中文多粒度分词标注 =&lt;br /&gt;
* 中文多粒度分词标注系统网址：http://101.132.166.249/anno-sys/index.php?action=index&lt;br /&gt;
* 多粒度分词标注规范  [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/MWS-guideline.pdf PDF下载]  &lt;br /&gt;
* 多粒度分词介绍以及标注系统使用说明  [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/MWS.pptx PPT下载]&lt;br /&gt;
&lt;br /&gt;
= 作业 4：倒排索引 =&lt;br /&gt;
&lt;br /&gt;
* 2019.3.26&lt;br /&gt;
* 课件 &lt;br /&gt;
** 倒排索引课件  [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/inverted-index.ppt PPT下载] &lt;br /&gt;
** 倒排索引课件(简化版)   [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/inverted-index-simplified.ppt PPT下载]  &lt;br /&gt;
** 倒排索引实验课件  [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/exp-inverted-index.ppt PPT下载]  &lt;br /&gt;
* 数据&lt;br /&gt;
** 数据下载   [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/files.tar.gz data下载]&lt;br /&gt;
* 作业提交时间截止时间：2019.4.23&lt;br /&gt;
&lt;br /&gt;
= 作业 3：网页正文抽取 =&lt;br /&gt;
&lt;br /&gt;
* 2019.3.26&lt;br /&gt;
* 课件 &lt;br /&gt;
** [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/web-page-content-extraction.ppt PPT下载] &lt;br /&gt;
** [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/web-page-content-extraction.pdf PDF下载]  &lt;br /&gt;
* 数据&lt;br /&gt;
**[http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/1.html 1.html]&lt;br /&gt;
**[http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/2.html 2.html]&lt;br /&gt;
&lt;br /&gt;
* 作业提交时间截止时间：2019.4.2&lt;br /&gt;
&lt;br /&gt;
= 作业 2：单词计数 =&lt;br /&gt;
* 2019.3.12&lt;br /&gt;
* 课件 [http://hlt.suda.edu.cn/~zhli/teach/ir-2019-spring/word-count.pdf PPT下载]&lt;br /&gt;
* 数据 [http://hlt.suda.edu.cn/~zhli/teach/ir-2019-spring/sample-en.txt txt下载]&lt;br /&gt;
* 作业提交时间截止时间：2019.4.2&lt;br /&gt;
&lt;br /&gt;
= 作业 1：最大匹配分词 = &lt;br /&gt;
* 2019.3.5&lt;br /&gt;
* 2019.3.19上机课前提交&lt;br /&gt;
*课件：前向最大匹配 PDF文件--[[文件:Word-seg-max-match.pdf]]；PPT文件--[[文件:Word-seg-max-match.zip]]&lt;br /&gt;
&lt;br /&gt;
*数据下载：&lt;br /&gt;
**字典：[[文件:dict.txt]] &lt;br /&gt;
**待分词：[[文件:sentence.txt]] &lt;br /&gt;
**正确答案：[[文件:answer.txt]]；&lt;br /&gt;
**模型预测结果：[[文件:out.txt]]&lt;br /&gt;
&lt;br /&gt;
*正确实验结果&lt;br /&gt;
**正确识别的词数：20263&lt;br /&gt;
**识别出的总体个数：20397&lt;br /&gt;
**测试集中的总体个数：20454&lt;br /&gt;
**正确率：0.99343&lt;br /&gt;
**召回率：0.99066&lt;br /&gt;
**F值：0.99204&lt;/div&gt;</summary>
		<author><name>Liying</name></author>
	</entry>
	<entry>
		<id>http://hlt.suda.edu.cn/index.php?title=Ir-2019-spring&amp;diff=993</id>
		<title>Ir-2019-spring</title>
		<link rel="alternate" type="text/html" href="http://hlt.suda.edu.cn/index.php?title=Ir-2019-spring&amp;diff=993"/>
		<updated>2019-04-09T11:16:18Z</updated>

		<summary type="html">&lt;p&gt;Liying：/* 作业 5：网页排序 */&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;= 信息检索课程设计（Information Retrieval）Course Resources =&lt;br /&gt;
&lt;br /&gt;
Teacher: [http://hlt.suda.edu.cn/~zhli/en.html 李正华]&lt;br /&gt;
&lt;br /&gt;
Teach Assistant: &lt;br /&gt;
&lt;br /&gt;
课程交流学习群（qq）---- 群名称: ir-2019-spring 群 号: 697444164&lt;br /&gt;
&lt;br /&gt;
2019春季学期&lt;br /&gt;
周二5-8节&lt;br /&gt;
理工楼247和238&lt;br /&gt;
&lt;br /&gt;
= 计算成绩的规则和说明 =&lt;br /&gt;
*实验作业:70-80分&lt;br /&gt;
** 一系列作业，每个作业10-20分&lt;br /&gt;
** 必须按照规定时间将实验报告+源代码，提交到csteaching&lt;br /&gt;
&lt;br /&gt;
* 期末面对面小测验：10分（待定）&lt;br /&gt;
** 考察课程相关的基础知识，看看作业是否是自己做的&lt;br /&gt;
&lt;br /&gt;
* 平时成绩：10-20分&lt;br /&gt;
** 不能迟到、早退，特殊情况必须请假，并带辅导员签字的假条；&lt;br /&gt;
** 点名时，如果发现名单上没有你的名字，及时提出&lt;br /&gt;
&lt;br /&gt;
= 提交作业说明 =&lt;br /&gt;
* 网址：[http://csteaching.suda.edu.cn csteaching]&lt;br /&gt;
* 在规定时间内提交作业，包含两部分&lt;br /&gt;
** 实验报告（word或pdf）&lt;br /&gt;
*** 认真填写个人信息、实验题目、实验内容等&lt;br /&gt;
*** 不要大段粘贴代码，最多可以粘贴核心的一小段代码&lt;br /&gt;
*** 写清楚自己的解决思路，尤其是遇到的难点和如何解决&lt;br /&gt;
*** 建议可以画流程图或者写伪代码&lt;br /&gt;
*** 将程序运行结果截图&lt;br /&gt;
** 附件（.zip压缩包）&lt;br /&gt;
*** 源代码&lt;br /&gt;
*** readme.txt文件：说明如何运行你的程序，需要什么环境，如windows或linux，python版本如python3.5&lt;br /&gt;
* 提交前自我检查&lt;br /&gt;
** 是否有包含readme.txt文件解释如何编译执行你的程序。如没有该文件，将减分&lt;br /&gt;
** 是否认真完成实验报告&lt;br /&gt;
** 是否可以按照readme.txt正确编译和运行程序&lt;br /&gt;
** 是否包含别人的代码&lt;br /&gt;
** 期末可能会用软件做自动抄袭检查&lt;br /&gt;
* 提交作业命名规则&lt;br /&gt;
** 实验报告（姓名学号.doc或姓名学号.pdf）&lt;br /&gt;
** 附件（姓名学号.zip）&lt;br /&gt;
&lt;br /&gt;
== 实验报告word模板 ==&lt;br /&gt;
* [http://hlt.suda.edu.cn/~zhli/teach/ir-2019-spring/report.doc 下载]&lt;br /&gt;
&lt;br /&gt;
== 信息检索课程介绍 ==&lt;br /&gt;
* [http://hlt.suda.edu.cn/~zhli/teach/ir-2019-spring/ir-introduction-v0.4.pdf PPT下载]&lt;br /&gt;
&lt;br /&gt;
= 作业 5：网页排序 =&lt;br /&gt;
* 课件 &lt;br /&gt;
** 网页排序原理课件  [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/web-page-rank.ppt PPT下载]  &lt;br /&gt;
** 网页排序实验作业课件  [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/web-page-rank-task.ppt PPT下载]  &lt;br /&gt;
* 数据&lt;br /&gt;
** 数据下载   [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/files-web-page.tar.gz data下载]&lt;br /&gt;
* 作业提交时间截止时间：2019.5.7&lt;br /&gt;
&lt;br /&gt;
= 作业 4：倒排索引 =&lt;br /&gt;
&lt;br /&gt;
* 2019.3.26&lt;br /&gt;
* 课件 &lt;br /&gt;
** 倒排索引课件  [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/inverted-index.ppt PPT下载] &lt;br /&gt;
** 倒排索引课件(简化版)   [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/inverted-index-simplified.ppt PPT下载]  &lt;br /&gt;
** 倒排索引实验课件  [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/exp-inverted-index.ppt PPT下载]  &lt;br /&gt;
* 数据&lt;br /&gt;
** 数据下载   [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/files.tar.gz data下载]&lt;br /&gt;
* 作业提交时间截止时间：2019.4.23&lt;br /&gt;
&lt;br /&gt;
= 作业 3：网页正文抽取 =&lt;br /&gt;
&lt;br /&gt;
* 2019.3.26&lt;br /&gt;
* 课件 &lt;br /&gt;
** [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/web-page-content-extraction.ppt PPT下载] &lt;br /&gt;
** [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/web-page-content-extraction.pdf PDF下载]  &lt;br /&gt;
* 数据&lt;br /&gt;
**[http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/1.html 1.html]&lt;br /&gt;
**[http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/2.html 2.html]&lt;br /&gt;
&lt;br /&gt;
* 作业提交时间截止时间：2019.4.2&lt;br /&gt;
&lt;br /&gt;
= 作业 2：单词计数 =&lt;br /&gt;
* 2019.3.12&lt;br /&gt;
* 课件 [http://hlt.suda.edu.cn/~zhli/teach/ir-2019-spring/word-count.pdf PPT下载]&lt;br /&gt;
* 数据 [http://hlt.suda.edu.cn/~zhli/teach/ir-2019-spring/sample-en.txt txt下载]&lt;br /&gt;
* 作业提交时间截止时间：2019.4.2&lt;br /&gt;
&lt;br /&gt;
= 作业 1：最大匹配分词 = &lt;br /&gt;
* 2019.3.5&lt;br /&gt;
* 2019.3.19上机课前提交&lt;br /&gt;
*课件：前向最大匹配 PDF文件--[[文件:Word-seg-max-match.pdf]]；PPT文件--[[文件:Word-seg-max-match.zip]]&lt;br /&gt;
&lt;br /&gt;
*数据下载：&lt;br /&gt;
**字典：[[文件:dict.txt]] &lt;br /&gt;
**待分词：[[文件:sentence.txt]] &lt;br /&gt;
**正确答案：[[文件:answer.txt]]；&lt;br /&gt;
**模型预测结果：[[文件:out.txt]]&lt;br /&gt;
&lt;br /&gt;
*正确实验结果&lt;br /&gt;
**正确识别的词数：20263&lt;br /&gt;
**识别出的总体个数：20397&lt;br /&gt;
**测试集中的总体个数：20454&lt;br /&gt;
**正确率：0.99343&lt;br /&gt;
**召回率：0.99066&lt;br /&gt;
**F值：0.99204&lt;/div&gt;</summary>
		<author><name>Liying</name></author>
	</entry>
	<entry>
		<id>http://hlt.suda.edu.cn/index.php?title=Ir-2019-spring&amp;diff=992</id>
		<title>Ir-2019-spring</title>
		<link rel="alternate" type="text/html" href="http://hlt.suda.edu.cn/index.php?title=Ir-2019-spring&amp;diff=992"/>
		<updated>2019-04-09T06:49:23Z</updated>

		<summary type="html">&lt;p&gt;Liying：/* 作业 4：倒排索引 */&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;= 信息检索课程设计（Information Retrieval）Course Resources =&lt;br /&gt;
&lt;br /&gt;
Teacher: [http://hlt.suda.edu.cn/~zhli/en.html 李正华]&lt;br /&gt;
&lt;br /&gt;
Teach Assistant: &lt;br /&gt;
&lt;br /&gt;
课程交流学习群（qq）---- 群名称: ir-2019-spring 群 号: 697444164&lt;br /&gt;
&lt;br /&gt;
2019春季学期&lt;br /&gt;
周二5-8节&lt;br /&gt;
理工楼247和238&lt;br /&gt;
&lt;br /&gt;
= 计算成绩的规则和说明 =&lt;br /&gt;
*实验作业:70-80分&lt;br /&gt;
** 一系列作业，每个作业10-20分&lt;br /&gt;
** 必须按照规定时间将实验报告+源代码，提交到csteaching&lt;br /&gt;
&lt;br /&gt;
* 期末面对面小测验：10分（待定）&lt;br /&gt;
** 考察课程相关的基础知识，看看作业是否是自己做的&lt;br /&gt;
&lt;br /&gt;
* 平时成绩：10-20分&lt;br /&gt;
** 不能迟到、早退，特殊情况必须请假，并带辅导员签字的假条；&lt;br /&gt;
** 点名时，如果发现名单上没有你的名字，及时提出&lt;br /&gt;
&lt;br /&gt;
= 提交作业说明 =&lt;br /&gt;
* 网址：[http://csteaching.suda.edu.cn csteaching]&lt;br /&gt;
* 在规定时间内提交作业，包含两部分&lt;br /&gt;
** 实验报告（word或pdf）&lt;br /&gt;
*** 认真填写个人信息、实验题目、实验内容等&lt;br /&gt;
*** 不要大段粘贴代码，最多可以粘贴核心的一小段代码&lt;br /&gt;
*** 写清楚自己的解决思路，尤其是遇到的难点和如何解决&lt;br /&gt;
*** 建议可以画流程图或者写伪代码&lt;br /&gt;
*** 将程序运行结果截图&lt;br /&gt;
** 附件（.zip压缩包）&lt;br /&gt;
*** 源代码&lt;br /&gt;
*** readme.txt文件：说明如何运行你的程序，需要什么环境，如windows或linux，python版本如python3.5&lt;br /&gt;
* 提交前自我检查&lt;br /&gt;
** 是否有包含readme.txt文件解释如何编译执行你的程序。如没有该文件，将减分&lt;br /&gt;
** 是否认真完成实验报告&lt;br /&gt;
** 是否可以按照readme.txt正确编译和运行程序&lt;br /&gt;
** 是否包含别人的代码&lt;br /&gt;
** 期末可能会用软件做自动抄袭检查&lt;br /&gt;
* 提交作业命名规则&lt;br /&gt;
** 实验报告（姓名学号.doc或姓名学号.pdf）&lt;br /&gt;
** 附件（姓名学号.zip）&lt;br /&gt;
&lt;br /&gt;
== 实验报告word模板 ==&lt;br /&gt;
* [http://hlt.suda.edu.cn/~zhli/teach/ir-2019-spring/report.doc 下载]&lt;br /&gt;
&lt;br /&gt;
== 信息检索课程介绍 ==&lt;br /&gt;
* [http://hlt.suda.edu.cn/~zhli/teach/ir-2019-spring/ir-introduction-v0.4.pdf PPT下载]&lt;br /&gt;
&lt;br /&gt;
= 作业 5：网页排序 =&lt;br /&gt;
&lt;br /&gt;
* 2019.4.2&lt;br /&gt;
* 课件 &lt;br /&gt;
&lt;br /&gt;
= 作业 4：倒排索引 =&lt;br /&gt;
&lt;br /&gt;
* 2019.3.26&lt;br /&gt;
* 课件 &lt;br /&gt;
** 倒排索引课件  [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/inverted-index.ppt PPT下载] &lt;br /&gt;
** 倒排索引课件(简化版)   [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/inverted-index-simplified.ppt PPT下载]  &lt;br /&gt;
** 倒排索引实验课件  [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/exp-inverted-index.ppt PPT下载]  &lt;br /&gt;
* 数据&lt;br /&gt;
** 数据下载   [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/files.tar.gz data下载]&lt;br /&gt;
* 作业提交时间截止时间：2019.4.23&lt;br /&gt;
&lt;br /&gt;
= 作业 3：网页正文抽取 =&lt;br /&gt;
&lt;br /&gt;
* 2019.3.26&lt;br /&gt;
* 课件 &lt;br /&gt;
** [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/web-page-content-extraction.ppt PPT下载] &lt;br /&gt;
** [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/web-page-content-extraction.pdf PDF下载]  &lt;br /&gt;
* 数据&lt;br /&gt;
**[http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/1.html 1.html]&lt;br /&gt;
**[http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/2.html 2.html]&lt;br /&gt;
&lt;br /&gt;
* 作业提交时间截止时间：2019.4.2&lt;br /&gt;
&lt;br /&gt;
= 作业 2：单词计数 =&lt;br /&gt;
* 2019.3.12&lt;br /&gt;
* 课件 [http://hlt.suda.edu.cn/~zhli/teach/ir-2019-spring/word-count.pdf PPT下载]&lt;br /&gt;
* 数据 [http://hlt.suda.edu.cn/~zhli/teach/ir-2019-spring/sample-en.txt txt下载]&lt;br /&gt;
* 作业提交时间截止时间：2019.4.2&lt;br /&gt;
&lt;br /&gt;
= 作业 1：最大匹配分词 = &lt;br /&gt;
* 2019.3.5&lt;br /&gt;
* 2019.3.19上机课前提交&lt;br /&gt;
*课件：前向最大匹配 PDF文件--[[文件:Word-seg-max-match.pdf]]；PPT文件--[[文件:Word-seg-max-match.zip]]&lt;br /&gt;
&lt;br /&gt;
*数据下载：&lt;br /&gt;
**字典：[[文件:dict.txt]] &lt;br /&gt;
**待分词：[[文件:sentence.txt]] &lt;br /&gt;
**正确答案：[[文件:answer.txt]]；&lt;br /&gt;
**模型预测结果：[[文件:out.txt]]&lt;br /&gt;
&lt;br /&gt;
*正确实验结果&lt;br /&gt;
**正确识别的词数：20263&lt;br /&gt;
**识别出的总体个数：20397&lt;br /&gt;
**测试集中的总体个数：20454&lt;br /&gt;
**正确率：0.99343&lt;br /&gt;
**召回率：0.99066&lt;br /&gt;
**F值：0.99204&lt;/div&gt;</summary>
		<author><name>Liying</name></author>
	</entry>
	<entry>
		<id>http://hlt.suda.edu.cn/index.php?title=Ir-2019-spring&amp;diff=991</id>
		<title>Ir-2019-spring</title>
		<link rel="alternate" type="text/html" href="http://hlt.suda.edu.cn/index.php?title=Ir-2019-spring&amp;diff=991"/>
		<updated>2019-04-09T06:42:55Z</updated>

		<summary type="html">&lt;p&gt;Liying：/* 作业 4：倒排索引 */&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;= 信息检索课程设计（Information Retrieval）Course Resources =&lt;br /&gt;
&lt;br /&gt;
Teacher: [http://hlt.suda.edu.cn/~zhli/en.html 李正华]&lt;br /&gt;
&lt;br /&gt;
Teach Assistant: &lt;br /&gt;
&lt;br /&gt;
课程交流学习群（qq）---- 群名称: ir-2019-spring 群 号: 697444164&lt;br /&gt;
&lt;br /&gt;
2019春季学期&lt;br /&gt;
周二5-8节&lt;br /&gt;
理工楼247和238&lt;br /&gt;
&lt;br /&gt;
= 计算成绩的规则和说明 =&lt;br /&gt;
*实验作业:70-80分&lt;br /&gt;
** 一系列作业，每个作业10-20分&lt;br /&gt;
** 必须按照规定时间将实验报告+源代码，提交到csteaching&lt;br /&gt;
&lt;br /&gt;
* 期末面对面小测验：10分（待定）&lt;br /&gt;
** 考察课程相关的基础知识，看看作业是否是自己做的&lt;br /&gt;
&lt;br /&gt;
* 平时成绩：10-20分&lt;br /&gt;
** 不能迟到、早退，特殊情况必须请假，并带辅导员签字的假条；&lt;br /&gt;
** 点名时，如果发现名单上没有你的名字，及时提出&lt;br /&gt;
&lt;br /&gt;
= 提交作业说明 =&lt;br /&gt;
* 网址：[http://csteaching.suda.edu.cn csteaching]&lt;br /&gt;
* 在规定时间内提交作业，包含两部分&lt;br /&gt;
** 实验报告（word或pdf）&lt;br /&gt;
*** 认真填写个人信息、实验题目、实验内容等&lt;br /&gt;
*** 不要大段粘贴代码，最多可以粘贴核心的一小段代码&lt;br /&gt;
*** 写清楚自己的解决思路，尤其是遇到的难点和如何解决&lt;br /&gt;
*** 建议可以画流程图或者写伪代码&lt;br /&gt;
*** 将程序运行结果截图&lt;br /&gt;
** 附件（.zip压缩包）&lt;br /&gt;
*** 源代码&lt;br /&gt;
*** readme.txt文件：说明如何运行你的程序，需要什么环境，如windows或linux，python版本如python3.5&lt;br /&gt;
* 提交前自我检查&lt;br /&gt;
** 是否有包含readme.txt文件解释如何编译执行你的程序。如没有该文件，将减分&lt;br /&gt;
** 是否认真完成实验报告&lt;br /&gt;
** 是否可以按照readme.txt正确编译和运行程序&lt;br /&gt;
** 是否包含别人的代码&lt;br /&gt;
** 期末可能会用软件做自动抄袭检查&lt;br /&gt;
* 提交作业命名规则&lt;br /&gt;
** 实验报告（姓名学号.doc或姓名学号.pdf）&lt;br /&gt;
** 附件（姓名学号.zip）&lt;br /&gt;
&lt;br /&gt;
== 实验报告word模板 ==&lt;br /&gt;
* [http://hlt.suda.edu.cn/~zhli/teach/ir-2019-spring/report.doc 下载]&lt;br /&gt;
&lt;br /&gt;
== 信息检索课程介绍 ==&lt;br /&gt;
* [http://hlt.suda.edu.cn/~zhli/teach/ir-2019-spring/ir-introduction-v0.4.pdf PPT下载]&lt;br /&gt;
&lt;br /&gt;
= 作业 4：倒排索引 =&lt;br /&gt;
&lt;br /&gt;
* 2019.3.26&lt;br /&gt;
* 课件 &lt;br /&gt;
** 倒排索引课件  [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/inverted-index.ppt PPT下载] &lt;br /&gt;
** 倒排索引课件(简化版)   [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/inverted-index-simplified.ppt PPT下载]  &lt;br /&gt;
** 倒排索引实验课件  [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/exp-inverted-index.ppt PPT下载]  &lt;br /&gt;
* 数据&lt;br /&gt;
** 数据下载   [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/files.tar.gz data下载]&lt;br /&gt;
* 作业提交时间截止时间：2019.4.23&lt;br /&gt;
&lt;br /&gt;
= 作业 3：网页正文抽取 =&lt;br /&gt;
&lt;br /&gt;
* 2019.3.26&lt;br /&gt;
* 课件 &lt;br /&gt;
** [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/web-page-content-extraction.ppt PPT下载] &lt;br /&gt;
** [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/web-page-content-extraction.pdf PDF下载]  &lt;br /&gt;
* 数据&lt;br /&gt;
**[http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/1.html 1.html]&lt;br /&gt;
**[http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/2.html 2.html]&lt;br /&gt;
&lt;br /&gt;
* 作业提交时间截止时间：2019.4.2&lt;br /&gt;
&lt;br /&gt;
= 作业 2：单词计数 =&lt;br /&gt;
* 2019.3.12&lt;br /&gt;
* 课件 [http://hlt.suda.edu.cn/~zhli/teach/ir-2019-spring/word-count.pdf PPT下载]&lt;br /&gt;
* 数据 [http://hlt.suda.edu.cn/~zhli/teach/ir-2019-spring/sample-en.txt txt下载]&lt;br /&gt;
* 作业提交时间截止时间：2019.4.2&lt;br /&gt;
&lt;br /&gt;
= 作业 1：最大匹配分词 = &lt;br /&gt;
* 2019.3.5&lt;br /&gt;
* 2019.3.19上机课前提交&lt;br /&gt;
*课件：前向最大匹配 PDF文件--[[文件:Word-seg-max-match.pdf]]；PPT文件--[[文件:Word-seg-max-match.zip]]&lt;br /&gt;
&lt;br /&gt;
*数据下载：&lt;br /&gt;
**字典：[[文件:dict.txt]] &lt;br /&gt;
**待分词：[[文件:sentence.txt]] &lt;br /&gt;
**正确答案：[[文件:answer.txt]]；&lt;br /&gt;
**模型预测结果：[[文件:out.txt]]&lt;br /&gt;
&lt;br /&gt;
*正确实验结果&lt;br /&gt;
**正确识别的词数：20263&lt;br /&gt;
**识别出的总体个数：20397&lt;br /&gt;
**测试集中的总体个数：20454&lt;br /&gt;
**正确率：0.99343&lt;br /&gt;
**召回率：0.99066&lt;br /&gt;
**F值：0.99204&lt;/div&gt;</summary>
		<author><name>Liying</name></author>
	</entry>
	<entry>
		<id>http://hlt.suda.edu.cn/index.php?title=Ir-2019-spring&amp;diff=898</id>
		<title>Ir-2019-spring</title>
		<link rel="alternate" type="text/html" href="http://hlt.suda.edu.cn/index.php?title=Ir-2019-spring&amp;diff=898"/>
		<updated>2019-04-02T04:48:18Z</updated>

		<summary type="html">&lt;p&gt;Liying：/* 作业 4：倒排索引 */&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;= 信息检索课程设计（Information Retrieval）Course Resources =&lt;br /&gt;
&lt;br /&gt;
Teacher: [http://hlt.suda.edu.cn/~zhli/en.html 李正华]&lt;br /&gt;
&lt;br /&gt;
Teach Assistant: &lt;br /&gt;
&lt;br /&gt;
课程交流学习群（qq）---- 群名称: ir-2019-spring 群 号: 697444164&lt;br /&gt;
&lt;br /&gt;
2019春季学期&lt;br /&gt;
周二5-8节&lt;br /&gt;
理工楼247和238&lt;br /&gt;
&lt;br /&gt;
= 计算成绩的规则和说明 =&lt;br /&gt;
*实验作业:70-80分&lt;br /&gt;
** 一系列作业，每个作业10-20分&lt;br /&gt;
** 必须按照规定时间将实验报告+源代码，提交到csteaching&lt;br /&gt;
&lt;br /&gt;
* 期末面对面小测验：10分（待定）&lt;br /&gt;
** 考察课程相关的基础知识，看看作业是否是自己做的&lt;br /&gt;
&lt;br /&gt;
* 平时成绩：10-20分&lt;br /&gt;
** 不能迟到、早退，特殊情况必须请假，并带辅导员签字的假条；&lt;br /&gt;
** 点名时，如果发现名单上没有你的名字，及时提出&lt;br /&gt;
&lt;br /&gt;
= 提交作业说明 =&lt;br /&gt;
* 网址：[http://csteaching.suda.edu.cn csteaching]&lt;br /&gt;
* 在规定时间内提交作业，包含两部分&lt;br /&gt;
** 实验报告（word或pdf）&lt;br /&gt;
*** 认真填写个人信息、实验题目、实验内容等&lt;br /&gt;
*** 不要大段粘贴代码，最多可以粘贴核心的一小段代码&lt;br /&gt;
*** 写清楚自己的解决思路，尤其是遇到的难点和如何解决&lt;br /&gt;
*** 建议可以画流程图或者写伪代码&lt;br /&gt;
*** 将程序运行结果截图&lt;br /&gt;
** 附件（.zip压缩包）&lt;br /&gt;
*** 源代码&lt;br /&gt;
*** readme.txt文件：说明如何运行你的程序，需要什么环境，如windows或linux，python版本如python3.5&lt;br /&gt;
* 提交前自我检查&lt;br /&gt;
** 是否有包含readme.txt文件解释如何编译执行你的程序。如没有该文件，将减分&lt;br /&gt;
** 是否认真完成实验报告&lt;br /&gt;
** 是否可以按照readme.txt正确编译和运行程序&lt;br /&gt;
** 是否包含别人的代码&lt;br /&gt;
** 期末可能会用软件做自动抄袭检查&lt;br /&gt;
* 提交作业命名规则&lt;br /&gt;
** 实验报告（姓名学号.doc或姓名学号.pdf）&lt;br /&gt;
** 附件（姓名学号.zip）&lt;br /&gt;
&lt;br /&gt;
== 实验报告word模板 ==&lt;br /&gt;
* [http://hlt.suda.edu.cn/~zhli/teach/ir-2019-spring/report.doc 下载]&lt;br /&gt;
&lt;br /&gt;
== 信息检索课程介绍 ==&lt;br /&gt;
* [http://hlt.suda.edu.cn/~zhli/teach/ir-2019-spring/ir-introduction-v0.4.pdf PPT下载]&lt;br /&gt;
&lt;br /&gt;
= 作业 4：倒排索引 =&lt;br /&gt;
&lt;br /&gt;
* 2019.3.26&lt;br /&gt;
* 课件 &lt;br /&gt;
** 倒排索引课件  [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/inverted-index.ppt PPT下载] &lt;br /&gt;
** 倒排索引课件(简化版)   [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/inverted-index-simplified.ppt PPT下载]  &lt;br /&gt;
** 倒排索引实验课件  [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/exp-inverted-index.ppt PPT下载]  &lt;br /&gt;
* 数据&lt;br /&gt;
** 数据下载   [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/files.tar.gz data下载]&lt;br /&gt;
* 作业提交时间截止时间：2019.4.16&lt;br /&gt;
&lt;br /&gt;
= 作业 3：网页正文抽取 =&lt;br /&gt;
&lt;br /&gt;
* 2019.3.26&lt;br /&gt;
* 课件 &lt;br /&gt;
** [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/web-page-content-extraction.ppt PPT下载] &lt;br /&gt;
** [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/web-page-content-extraction.pdf PDF下载]  &lt;br /&gt;
* 数据&lt;br /&gt;
**[http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/1.html 1.html]&lt;br /&gt;
**[http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/2.html 2.html]&lt;br /&gt;
&lt;br /&gt;
* 作业提交时间截止时间：2019.4.2&lt;br /&gt;
&lt;br /&gt;
= 作业 2：单词计数 =&lt;br /&gt;
* 2019.3.12&lt;br /&gt;
* 课件 [http://hlt.suda.edu.cn/~zhli/teach/ir-2019-spring/word-count.pdf PPT下载]&lt;br /&gt;
* 数据 [http://hlt.suda.edu.cn/~zhli/teach/ir-2019-spring/sample-en.txt txt下载]&lt;br /&gt;
* 作业提交时间截止时间：2019.4.2&lt;br /&gt;
&lt;br /&gt;
= 作业 1：最大匹配分词 = &lt;br /&gt;
* 2019.3.5&lt;br /&gt;
* 2019.3.19上机课前提交&lt;br /&gt;
*课件：前向最大匹配 PDF文件--[[文件:Word-seg-max-match.pdf]]；PPT文件--[[文件:Word-seg-max-match.zip]]&lt;br /&gt;
&lt;br /&gt;
*数据下载：&lt;br /&gt;
**字典：[[文件:dict.txt]] &lt;br /&gt;
**待分词：[[文件:sentence.txt]] &lt;br /&gt;
**正确答案：[[文件:answer.txt]]；&lt;br /&gt;
**模型预测结果：[[文件:out.txt]]&lt;br /&gt;
&lt;br /&gt;
*正确实验结果&lt;br /&gt;
**正确识别的词数：20263&lt;br /&gt;
**识别出的总体个数：20397&lt;br /&gt;
**测试集中的总体个数：20454&lt;br /&gt;
**正确率：0.99343&lt;br /&gt;
**召回率：0.99066&lt;br /&gt;
**F值：0.99204&lt;/div&gt;</summary>
		<author><name>Liying</name></author>
	</entry>
	<entry>
		<id>http://hlt.suda.edu.cn/index.php?title=Ir-2019-spring&amp;diff=897</id>
		<title>Ir-2019-spring</title>
		<link rel="alternate" type="text/html" href="http://hlt.suda.edu.cn/index.php?title=Ir-2019-spring&amp;diff=897"/>
		<updated>2019-04-02T04:47:26Z</updated>

		<summary type="html">&lt;p&gt;Liying：/* 作业 3：网页正文抽取 */&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;= 信息检索课程设计（Information Retrieval）Course Resources =&lt;br /&gt;
&lt;br /&gt;
Teacher: [http://hlt.suda.edu.cn/~zhli/en.html 李正华]&lt;br /&gt;
&lt;br /&gt;
Teach Assistant: &lt;br /&gt;
&lt;br /&gt;
课程交流学习群（qq）---- 群名称: ir-2019-spring 群 号: 697444164&lt;br /&gt;
&lt;br /&gt;
2019春季学期&lt;br /&gt;
周二5-8节&lt;br /&gt;
理工楼247和238&lt;br /&gt;
&lt;br /&gt;
= 计算成绩的规则和说明 =&lt;br /&gt;
*实验作业:70-80分&lt;br /&gt;
** 一系列作业，每个作业10-20分&lt;br /&gt;
** 必须按照规定时间将实验报告+源代码，提交到csteaching&lt;br /&gt;
&lt;br /&gt;
* 期末面对面小测验：10分（待定）&lt;br /&gt;
** 考察课程相关的基础知识，看看作业是否是自己做的&lt;br /&gt;
&lt;br /&gt;
* 平时成绩：10-20分&lt;br /&gt;
** 不能迟到、早退，特殊情况必须请假，并带辅导员签字的假条；&lt;br /&gt;
** 点名时，如果发现名单上没有你的名字，及时提出&lt;br /&gt;
&lt;br /&gt;
= 提交作业说明 =&lt;br /&gt;
* 网址：[http://csteaching.suda.edu.cn csteaching]&lt;br /&gt;
* 在规定时间内提交作业，包含两部分&lt;br /&gt;
** 实验报告（word或pdf）&lt;br /&gt;
*** 认真填写个人信息、实验题目、实验内容等&lt;br /&gt;
*** 不要大段粘贴代码，最多可以粘贴核心的一小段代码&lt;br /&gt;
*** 写清楚自己的解决思路，尤其是遇到的难点和如何解决&lt;br /&gt;
*** 建议可以画流程图或者写伪代码&lt;br /&gt;
*** 将程序运行结果截图&lt;br /&gt;
** 附件（.zip压缩包）&lt;br /&gt;
*** 源代码&lt;br /&gt;
*** readme.txt文件：说明如何运行你的程序，需要什么环境，如windows或linux，python版本如python3.5&lt;br /&gt;
* 提交前自我检查&lt;br /&gt;
** 是否有包含readme.txt文件解释如何编译执行你的程序。如没有该文件，将减分&lt;br /&gt;
** 是否认真完成实验报告&lt;br /&gt;
** 是否可以按照readme.txt正确编译和运行程序&lt;br /&gt;
** 是否包含别人的代码&lt;br /&gt;
** 期末可能会用软件做自动抄袭检查&lt;br /&gt;
* 提交作业命名规则&lt;br /&gt;
** 实验报告（姓名学号.doc或姓名学号.pdf）&lt;br /&gt;
** 附件（姓名学号.zip）&lt;br /&gt;
&lt;br /&gt;
== 实验报告word模板 ==&lt;br /&gt;
* [http://hlt.suda.edu.cn/~zhli/teach/ir-2019-spring/report.doc 下载]&lt;br /&gt;
&lt;br /&gt;
== 信息检索课程介绍 ==&lt;br /&gt;
* [http://hlt.suda.edu.cn/~zhli/teach/ir-2019-spring/ir-introduction-v0.4.pdf PPT下载]&lt;br /&gt;
&lt;br /&gt;
= 作业 4：倒排索引 =&lt;br /&gt;
&lt;br /&gt;
* 2019.3.26&lt;br /&gt;
* 课件 &lt;br /&gt;
** 倒排索引课件[http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/inverted-index.ppt PPT下载] &lt;br /&gt;
** 倒排索引课件(简化版)[http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/inverted-index-simplified.ppt PPT下载]  &lt;br /&gt;
** 倒排索引实验课件[http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/exp-inverted-index.ppt PPT下载]  &lt;br /&gt;
* 数据&lt;br /&gt;
** 数据下载 [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/files.tar.gz data下载]&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
* 作业提交时间截止时间：2019.4.16&lt;br /&gt;
&lt;br /&gt;
= 作业 3：网页正文抽取 =&lt;br /&gt;
&lt;br /&gt;
* 2019.3.26&lt;br /&gt;
* 课件 &lt;br /&gt;
** [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/web-page-content-extraction.ppt PPT下载] &lt;br /&gt;
** [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/web-page-content-extraction.pdf PDF下载]  &lt;br /&gt;
* 数据&lt;br /&gt;
**[http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/1.html 1.html]&lt;br /&gt;
**[http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/2.html 2.html]&lt;br /&gt;
&lt;br /&gt;
* 作业提交时间截止时间：2019.4.2&lt;br /&gt;
&lt;br /&gt;
= 作业 2：单词计数 =&lt;br /&gt;
* 2019.3.12&lt;br /&gt;
* 课件 [http://hlt.suda.edu.cn/~zhli/teach/ir-2019-spring/word-count.pdf PPT下载]&lt;br /&gt;
* 数据 [http://hlt.suda.edu.cn/~zhli/teach/ir-2019-spring/sample-en.txt txt下载]&lt;br /&gt;
* 作业提交时间截止时间：2019.4.2&lt;br /&gt;
&lt;br /&gt;
= 作业 1：最大匹配分词 = &lt;br /&gt;
* 2019.3.5&lt;br /&gt;
* 2019.3.19上机课前提交&lt;br /&gt;
*课件：前向最大匹配 PDF文件--[[文件:Word-seg-max-match.pdf]]；PPT文件--[[文件:Word-seg-max-match.zip]]&lt;br /&gt;
&lt;br /&gt;
*数据下载：&lt;br /&gt;
**字典：[[文件:dict.txt]] &lt;br /&gt;
**待分词：[[文件:sentence.txt]] &lt;br /&gt;
**正确答案：[[文件:answer.txt]]；&lt;br /&gt;
**模型预测结果：[[文件:out.txt]]&lt;br /&gt;
&lt;br /&gt;
*正确实验结果&lt;br /&gt;
**正确识别的词数：20263&lt;br /&gt;
**识别出的总体个数：20397&lt;br /&gt;
**测试集中的总体个数：20454&lt;br /&gt;
**正确率：0.99343&lt;br /&gt;
**召回率：0.99066&lt;br /&gt;
**F值：0.99204&lt;/div&gt;</summary>
		<author><name>Liying</name></author>
	</entry>
	<entry>
		<id>http://hlt.suda.edu.cn/index.php?title=Ir-2019-spring&amp;diff=896</id>
		<title>Ir-2019-spring</title>
		<link rel="alternate" type="text/html" href="http://hlt.suda.edu.cn/index.php?title=Ir-2019-spring&amp;diff=896"/>
		<updated>2019-04-02T04:41:00Z</updated>

		<summary type="html">&lt;p&gt;Liying：/* 作业 3：网页正文抽取 */&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;= 信息检索课程设计（Information Retrieval）Course Resources =&lt;br /&gt;
&lt;br /&gt;
Teacher: [http://hlt.suda.edu.cn/~zhli/en.html 李正华]&lt;br /&gt;
&lt;br /&gt;
Teach Assistant: &lt;br /&gt;
&lt;br /&gt;
课程交流学习群（qq）---- 群名称: ir-2019-spring 群 号: 697444164&lt;br /&gt;
&lt;br /&gt;
2019春季学期&lt;br /&gt;
周二5-8节&lt;br /&gt;
理工楼247和238&lt;br /&gt;
&lt;br /&gt;
= 计算成绩的规则和说明 =&lt;br /&gt;
*实验作业:70-80分&lt;br /&gt;
** 一系列作业，每个作业10-20分&lt;br /&gt;
** 必须按照规定时间将实验报告+源代码，提交到csteaching&lt;br /&gt;
&lt;br /&gt;
* 期末面对面小测验：10分（待定）&lt;br /&gt;
** 考察课程相关的基础知识，看看作业是否是自己做的&lt;br /&gt;
&lt;br /&gt;
* 平时成绩：10-20分&lt;br /&gt;
** 不能迟到、早退，特殊情况必须请假，并带辅导员签字的假条；&lt;br /&gt;
** 点名时，如果发现名单上没有你的名字，及时提出&lt;br /&gt;
&lt;br /&gt;
= 提交作业说明 =&lt;br /&gt;
* 网址：[http://csteaching.suda.edu.cn csteaching]&lt;br /&gt;
* 在规定时间内提交作业，包含两部分&lt;br /&gt;
** 实验报告（word或pdf）&lt;br /&gt;
*** 认真填写个人信息、实验题目、实验内容等&lt;br /&gt;
*** 不要大段粘贴代码，最多可以粘贴核心的一小段代码&lt;br /&gt;
*** 写清楚自己的解决思路，尤其是遇到的难点和如何解决&lt;br /&gt;
*** 建议可以画流程图或者写伪代码&lt;br /&gt;
*** 将程序运行结果截图&lt;br /&gt;
** 附件（.zip压缩包）&lt;br /&gt;
*** 源代码&lt;br /&gt;
*** readme.txt文件：说明如何运行你的程序，需要什么环境，如windows或linux，python版本如python3.5&lt;br /&gt;
* 提交前自我检查&lt;br /&gt;
** 是否有包含readme.txt文件解释如何编译执行你的程序。如没有该文件，将减分&lt;br /&gt;
** 是否认真完成实验报告&lt;br /&gt;
** 是否可以按照readme.txt正确编译和运行程序&lt;br /&gt;
** 是否包含别人的代码&lt;br /&gt;
** 期末可能会用软件做自动抄袭检查&lt;br /&gt;
* 提交作业命名规则&lt;br /&gt;
** 实验报告（姓名学号.doc或姓名学号.pdf）&lt;br /&gt;
** 附件（姓名学号.zip）&lt;br /&gt;
&lt;br /&gt;
== 实验报告word模板 ==&lt;br /&gt;
* [http://hlt.suda.edu.cn/~zhli/teach/ir-2019-spring/report.doc 下载]&lt;br /&gt;
&lt;br /&gt;
== 信息检索课程介绍 ==&lt;br /&gt;
* [http://hlt.suda.edu.cn/~zhli/teach/ir-2019-spring/ir-introduction-v0.4.pdf PPT下载]&lt;br /&gt;
&lt;br /&gt;
= 作业 3：网页正文抽取 =&lt;br /&gt;
&lt;br /&gt;
* 2019.3.26&lt;br /&gt;
* 课件 &lt;br /&gt;
** [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/web-page-content-extraction.ppt PPT下载] &lt;br /&gt;
** [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/web-page-content-extraction.pdf PDF下载]  &lt;br /&gt;
* 数据&lt;br /&gt;
**[http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/1.html 1.html]&lt;br /&gt;
**[http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/2.html 2.html]&lt;br /&gt;
&lt;br /&gt;
* 作业提交时间截止时间：2019.4.16&lt;br /&gt;
&lt;br /&gt;
= 作业 3：网页正文抽取 =&lt;br /&gt;
&lt;br /&gt;
* 2019.3.26&lt;br /&gt;
* 课件 &lt;br /&gt;
** [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/web-page-content-extraction.ppt PPT下载] &lt;br /&gt;
** [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/web-page-content-extraction.pdf PDF下载]  &lt;br /&gt;
* 数据&lt;br /&gt;
**[http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/1.html 1.html]&lt;br /&gt;
**[http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/2.html 2.html]&lt;br /&gt;
&lt;br /&gt;
* 作业提交时间截止时间：2019.4.2&lt;br /&gt;
&lt;br /&gt;
= 作业 2：单词计数 =&lt;br /&gt;
* 2019.3.12&lt;br /&gt;
* 课件 [http://hlt.suda.edu.cn/~zhli/teach/ir-2019-spring/word-count.pdf PPT下载]&lt;br /&gt;
* 数据 [http://hlt.suda.edu.cn/~zhli/teach/ir-2019-spring/sample-en.txt txt下载]&lt;br /&gt;
* 作业提交时间截止时间：2019.4.2&lt;br /&gt;
&lt;br /&gt;
= 作业 1：最大匹配分词 = &lt;br /&gt;
* 2019.3.5&lt;br /&gt;
* 2019.3.19上机课前提交&lt;br /&gt;
*课件：前向最大匹配 PDF文件--[[文件:Word-seg-max-match.pdf]]；PPT文件--[[文件:Word-seg-max-match.zip]]&lt;br /&gt;
&lt;br /&gt;
*数据下载：&lt;br /&gt;
**字典：[[文件:dict.txt]] &lt;br /&gt;
**待分词：[[文件:sentence.txt]] &lt;br /&gt;
**正确答案：[[文件:answer.txt]]；&lt;br /&gt;
**模型预测结果：[[文件:out.txt]]&lt;br /&gt;
&lt;br /&gt;
*正确实验结果&lt;br /&gt;
**正确识别的词数：20263&lt;br /&gt;
**识别出的总体个数：20397&lt;br /&gt;
**测试集中的总体个数：20454&lt;br /&gt;
**正确率：0.99343&lt;br /&gt;
**召回率：0.99066&lt;br /&gt;
**F值：0.99204&lt;/div&gt;</summary>
		<author><name>Liying</name></author>
	</entry>
	<entry>
		<id>http://hlt.suda.edu.cn/index.php?title=Ir-2019-spring&amp;diff=895</id>
		<title>Ir-2019-spring</title>
		<link rel="alternate" type="text/html" href="http://hlt.suda.edu.cn/index.php?title=Ir-2019-spring&amp;diff=895"/>
		<updated>2019-04-02T04:40:23Z</updated>

		<summary type="html">&lt;p&gt;Liying：/* 作业 3：网页正文抽取 */&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;= 信息检索课程设计（Information Retrieval）Course Resources =&lt;br /&gt;
&lt;br /&gt;
Teacher: [http://hlt.suda.edu.cn/~zhli/en.html 李正华]&lt;br /&gt;
&lt;br /&gt;
Teach Assistant: &lt;br /&gt;
&lt;br /&gt;
课程交流学习群（qq）---- 群名称: ir-2019-spring 群 号: 697444164&lt;br /&gt;
&lt;br /&gt;
2019春季学期&lt;br /&gt;
周二5-8节&lt;br /&gt;
理工楼247和238&lt;br /&gt;
&lt;br /&gt;
= 计算成绩的规则和说明 =&lt;br /&gt;
*实验作业:70-80分&lt;br /&gt;
** 一系列作业，每个作业10-20分&lt;br /&gt;
** 必须按照规定时间将实验报告+源代码，提交到csteaching&lt;br /&gt;
&lt;br /&gt;
* 期末面对面小测验：10分（待定）&lt;br /&gt;
** 考察课程相关的基础知识，看看作业是否是自己做的&lt;br /&gt;
&lt;br /&gt;
* 平时成绩：10-20分&lt;br /&gt;
** 不能迟到、早退，特殊情况必须请假，并带辅导员签字的假条；&lt;br /&gt;
** 点名时，如果发现名单上没有你的名字，及时提出&lt;br /&gt;
&lt;br /&gt;
= 提交作业说明 =&lt;br /&gt;
* 网址：[http://csteaching.suda.edu.cn csteaching]&lt;br /&gt;
* 在规定时间内提交作业，包含两部分&lt;br /&gt;
** 实验报告（word或pdf）&lt;br /&gt;
*** 认真填写个人信息、实验题目、实验内容等&lt;br /&gt;
*** 不要大段粘贴代码，最多可以粘贴核心的一小段代码&lt;br /&gt;
*** 写清楚自己的解决思路，尤其是遇到的难点和如何解决&lt;br /&gt;
*** 建议可以画流程图或者写伪代码&lt;br /&gt;
*** 将程序运行结果截图&lt;br /&gt;
** 附件（.zip压缩包）&lt;br /&gt;
*** 源代码&lt;br /&gt;
*** readme.txt文件：说明如何运行你的程序，需要什么环境，如windows或linux，python版本如python3.5&lt;br /&gt;
* 提交前自我检查&lt;br /&gt;
** 是否有包含readme.txt文件解释如何编译执行你的程序。如没有该文件，将减分&lt;br /&gt;
** 是否认真完成实验报告&lt;br /&gt;
** 是否可以按照readme.txt正确编译和运行程序&lt;br /&gt;
** 是否包含别人的代码&lt;br /&gt;
** 期末可能会用软件做自动抄袭检查&lt;br /&gt;
* 提交作业命名规则&lt;br /&gt;
** 实验报告（姓名学号.doc或姓名学号.pdf）&lt;br /&gt;
** 附件（姓名学号.zip）&lt;br /&gt;
&lt;br /&gt;
== 实验报告word模板 ==&lt;br /&gt;
* [http://hlt.suda.edu.cn/~zhli/teach/ir-2019-spring/report.doc 下载]&lt;br /&gt;
&lt;br /&gt;
== 信息检索课程介绍 ==&lt;br /&gt;
* [http://hlt.suda.edu.cn/~zhli/teach/ir-2019-spring/ir-introduction-v0.4.pdf PPT下载]&lt;br /&gt;
&lt;br /&gt;
= 作业 3：网页正文抽取 =&lt;br /&gt;
&lt;br /&gt;
* 2019.3.26&lt;br /&gt;
* 课件 &lt;br /&gt;
** [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/web-page-content-extraction.ppt PPT下载] &lt;br /&gt;
** [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/web-page-content-extraction.pdf PDF下载]  &lt;br /&gt;
* 数据&lt;br /&gt;
**[http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/1.html 1.html]&lt;br /&gt;
**[http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/2.html 2.html]&lt;br /&gt;
&lt;br /&gt;
* 作业提交时间截止时间：2019.4.2&lt;br /&gt;
&lt;br /&gt;
= 作业 2：单词计数 =&lt;br /&gt;
* 2019.3.12&lt;br /&gt;
* 课件 [http://hlt.suda.edu.cn/~zhli/teach/ir-2019-spring/word-count.pdf PPT下载]&lt;br /&gt;
* 数据 [http://hlt.suda.edu.cn/~zhli/teach/ir-2019-spring/sample-en.txt txt下载]&lt;br /&gt;
* 作业提交时间截止时间：2019.4.2&lt;br /&gt;
&lt;br /&gt;
= 作业 1：最大匹配分词 = &lt;br /&gt;
* 2019.3.5&lt;br /&gt;
* 2019.3.19上机课前提交&lt;br /&gt;
*课件：前向最大匹配 PDF文件--[[文件:Word-seg-max-match.pdf]]；PPT文件--[[文件:Word-seg-max-match.zip]]&lt;br /&gt;
&lt;br /&gt;
*数据下载：&lt;br /&gt;
**字典：[[文件:dict.txt]] &lt;br /&gt;
**待分词：[[文件:sentence.txt]] &lt;br /&gt;
**正确答案：[[文件:answer.txt]]；&lt;br /&gt;
**模型预测结果：[[文件:out.txt]]&lt;br /&gt;
&lt;br /&gt;
*正确实验结果&lt;br /&gt;
**正确识别的词数：20263&lt;br /&gt;
**识别出的总体个数：20397&lt;br /&gt;
**测试集中的总体个数：20454&lt;br /&gt;
**正确率：0.99343&lt;br /&gt;
**召回率：0.99066&lt;br /&gt;
**F值：0.99204&lt;/div&gt;</summary>
		<author><name>Liying</name></author>
	</entry>
	<entry>
		<id>http://hlt.suda.edu.cn/index.php?title=Ir-2019-spring&amp;diff=894</id>
		<title>Ir-2019-spring</title>
		<link rel="alternate" type="text/html" href="http://hlt.suda.edu.cn/index.php?title=Ir-2019-spring&amp;diff=894"/>
		<updated>2019-04-02T04:39:54Z</updated>

		<summary type="html">&lt;p&gt;Liying：/* 作业 2：单词计数 */&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;= 信息检索课程设计（Information Retrieval）Course Resources =&lt;br /&gt;
&lt;br /&gt;
Teacher: [http://hlt.suda.edu.cn/~zhli/en.html 李正华]&lt;br /&gt;
&lt;br /&gt;
Teach Assistant: &lt;br /&gt;
&lt;br /&gt;
课程交流学习群（qq）---- 群名称: ir-2019-spring 群 号: 697444164&lt;br /&gt;
&lt;br /&gt;
2019春季学期&lt;br /&gt;
周二5-8节&lt;br /&gt;
理工楼247和238&lt;br /&gt;
&lt;br /&gt;
= 计算成绩的规则和说明 =&lt;br /&gt;
*实验作业:70-80分&lt;br /&gt;
** 一系列作业，每个作业10-20分&lt;br /&gt;
** 必须按照规定时间将实验报告+源代码，提交到csteaching&lt;br /&gt;
&lt;br /&gt;
* 期末面对面小测验：10分（待定）&lt;br /&gt;
** 考察课程相关的基础知识，看看作业是否是自己做的&lt;br /&gt;
&lt;br /&gt;
* 平时成绩：10-20分&lt;br /&gt;
** 不能迟到、早退，特殊情况必须请假，并带辅导员签字的假条；&lt;br /&gt;
** 点名时，如果发现名单上没有你的名字，及时提出&lt;br /&gt;
&lt;br /&gt;
= 提交作业说明 =&lt;br /&gt;
* 网址：[http://csteaching.suda.edu.cn csteaching]&lt;br /&gt;
* 在规定时间内提交作业，包含两部分&lt;br /&gt;
** 实验报告（word或pdf）&lt;br /&gt;
*** 认真填写个人信息、实验题目、实验内容等&lt;br /&gt;
*** 不要大段粘贴代码，最多可以粘贴核心的一小段代码&lt;br /&gt;
*** 写清楚自己的解决思路，尤其是遇到的难点和如何解决&lt;br /&gt;
*** 建议可以画流程图或者写伪代码&lt;br /&gt;
*** 将程序运行结果截图&lt;br /&gt;
** 附件（.zip压缩包）&lt;br /&gt;
*** 源代码&lt;br /&gt;
*** readme.txt文件：说明如何运行你的程序，需要什么环境，如windows或linux，python版本如python3.5&lt;br /&gt;
* 提交前自我检查&lt;br /&gt;
** 是否有包含readme.txt文件解释如何编译执行你的程序。如没有该文件，将减分&lt;br /&gt;
** 是否认真完成实验报告&lt;br /&gt;
** 是否可以按照readme.txt正确编译和运行程序&lt;br /&gt;
** 是否包含别人的代码&lt;br /&gt;
** 期末可能会用软件做自动抄袭检查&lt;br /&gt;
* 提交作业命名规则&lt;br /&gt;
** 实验报告（姓名学号.doc或姓名学号.pdf）&lt;br /&gt;
** 附件（姓名学号.zip）&lt;br /&gt;
&lt;br /&gt;
== 实验报告word模板 ==&lt;br /&gt;
* [http://hlt.suda.edu.cn/~zhli/teach/ir-2019-spring/report.doc 下载]&lt;br /&gt;
&lt;br /&gt;
== 信息检索课程介绍 ==&lt;br /&gt;
* [http://hlt.suda.edu.cn/~zhli/teach/ir-2019-spring/ir-introduction-v0.4.pdf PPT下载]&lt;br /&gt;
&lt;br /&gt;
= 作业 3：网页正文抽取 =&lt;br /&gt;
&lt;br /&gt;
* 2019.3.26&lt;br /&gt;
* 课件 &lt;br /&gt;
** [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/web-page-content-extraction.ppt PPT下载] &lt;br /&gt;
** [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/web-page-content-extraction.pdf PDF下载]  &lt;br /&gt;
* 数据&lt;br /&gt;
**[http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/1.html 1.html]&lt;br /&gt;
**[http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/2.html 2.html]&lt;br /&gt;
&lt;br /&gt;
= 作业 2：单词计数 =&lt;br /&gt;
* 2019.3.12&lt;br /&gt;
* 课件 [http://hlt.suda.edu.cn/~zhli/teach/ir-2019-spring/word-count.pdf PPT下载]&lt;br /&gt;
* 数据 [http://hlt.suda.edu.cn/~zhli/teach/ir-2019-spring/sample-en.txt txt下载]&lt;br /&gt;
* 作业提交时间截止时间：2019.4.2&lt;br /&gt;
&lt;br /&gt;
= 作业 1：最大匹配分词 = &lt;br /&gt;
* 2019.3.5&lt;br /&gt;
* 2019.3.19上机课前提交&lt;br /&gt;
*课件：前向最大匹配 PDF文件--[[文件:Word-seg-max-match.pdf]]；PPT文件--[[文件:Word-seg-max-match.zip]]&lt;br /&gt;
&lt;br /&gt;
*数据下载：&lt;br /&gt;
**字典：[[文件:dict.txt]] &lt;br /&gt;
**待分词：[[文件:sentence.txt]] &lt;br /&gt;
**正确答案：[[文件:answer.txt]]；&lt;br /&gt;
**模型预测结果：[[文件:out.txt]]&lt;br /&gt;
&lt;br /&gt;
*正确实验结果&lt;br /&gt;
**正确识别的词数：20263&lt;br /&gt;
**识别出的总体个数：20397&lt;br /&gt;
**测试集中的总体个数：20454&lt;br /&gt;
**正确率：0.99343&lt;br /&gt;
**召回率：0.99066&lt;br /&gt;
**F值：0.99204&lt;/div&gt;</summary>
		<author><name>Liying</name></author>
	</entry>
	<entry>
		<id>http://hlt.suda.edu.cn/index.php?title=Ir-2019-spring&amp;diff=893</id>
		<title>Ir-2019-spring</title>
		<link rel="alternate" type="text/html" href="http://hlt.suda.edu.cn/index.php?title=Ir-2019-spring&amp;diff=893"/>
		<updated>2019-04-02T04:39:38Z</updated>

		<summary type="html">&lt;p&gt;Liying：/* 作业 2：单词计数 */&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;= 信息检索课程设计（Information Retrieval）Course Resources =&lt;br /&gt;
&lt;br /&gt;
Teacher: [http://hlt.suda.edu.cn/~zhli/en.html 李正华]&lt;br /&gt;
&lt;br /&gt;
Teach Assistant: &lt;br /&gt;
&lt;br /&gt;
课程交流学习群（qq）---- 群名称: ir-2019-spring 群 号: 697444164&lt;br /&gt;
&lt;br /&gt;
2019春季学期&lt;br /&gt;
周二5-8节&lt;br /&gt;
理工楼247和238&lt;br /&gt;
&lt;br /&gt;
= 计算成绩的规则和说明 =&lt;br /&gt;
*实验作业:70-80分&lt;br /&gt;
** 一系列作业，每个作业10-20分&lt;br /&gt;
** 必须按照规定时间将实验报告+源代码，提交到csteaching&lt;br /&gt;
&lt;br /&gt;
* 期末面对面小测验：10分（待定）&lt;br /&gt;
** 考察课程相关的基础知识，看看作业是否是自己做的&lt;br /&gt;
&lt;br /&gt;
* 平时成绩：10-20分&lt;br /&gt;
** 不能迟到、早退，特殊情况必须请假，并带辅导员签字的假条；&lt;br /&gt;
** 点名时，如果发现名单上没有你的名字，及时提出&lt;br /&gt;
&lt;br /&gt;
= 提交作业说明 =&lt;br /&gt;
* 网址：[http://csteaching.suda.edu.cn csteaching]&lt;br /&gt;
* 在规定时间内提交作业，包含两部分&lt;br /&gt;
** 实验报告（word或pdf）&lt;br /&gt;
*** 认真填写个人信息、实验题目、实验内容等&lt;br /&gt;
*** 不要大段粘贴代码，最多可以粘贴核心的一小段代码&lt;br /&gt;
*** 写清楚自己的解决思路，尤其是遇到的难点和如何解决&lt;br /&gt;
*** 建议可以画流程图或者写伪代码&lt;br /&gt;
*** 将程序运行结果截图&lt;br /&gt;
** 附件（.zip压缩包）&lt;br /&gt;
*** 源代码&lt;br /&gt;
*** readme.txt文件：说明如何运行你的程序，需要什么环境，如windows或linux，python版本如python3.5&lt;br /&gt;
* 提交前自我检查&lt;br /&gt;
** 是否有包含readme.txt文件解释如何编译执行你的程序。如没有该文件，将减分&lt;br /&gt;
** 是否认真完成实验报告&lt;br /&gt;
** 是否可以按照readme.txt正确编译和运行程序&lt;br /&gt;
** 是否包含别人的代码&lt;br /&gt;
** 期末可能会用软件做自动抄袭检查&lt;br /&gt;
* 提交作业命名规则&lt;br /&gt;
** 实验报告（姓名学号.doc或姓名学号.pdf）&lt;br /&gt;
** 附件（姓名学号.zip）&lt;br /&gt;
&lt;br /&gt;
== 实验报告word模板 ==&lt;br /&gt;
* [http://hlt.suda.edu.cn/~zhli/teach/ir-2019-spring/report.doc 下载]&lt;br /&gt;
&lt;br /&gt;
== 信息检索课程介绍 ==&lt;br /&gt;
* [http://hlt.suda.edu.cn/~zhli/teach/ir-2019-spring/ir-introduction-v0.4.pdf PPT下载]&lt;br /&gt;
&lt;br /&gt;
= 作业 3：网页正文抽取 =&lt;br /&gt;
&lt;br /&gt;
* 2019.3.26&lt;br /&gt;
* 课件 &lt;br /&gt;
** [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/web-page-content-extraction.ppt PPT下载] &lt;br /&gt;
** [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/web-page-content-extraction.pdf PDF下载]  &lt;br /&gt;
* 数据&lt;br /&gt;
**[http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/1.html 1.html]&lt;br /&gt;
**[http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/2.html 2.html]&lt;br /&gt;
&lt;br /&gt;
= 作业 2：单词计数 =&lt;br /&gt;
&lt;br /&gt;
* 2019.3.12&lt;br /&gt;
* 课件 [http://hlt.suda.edu.cn/~zhli/teach/ir-2019-spring/word-count.pdf PPT下载]&lt;br /&gt;
* 数据 [http://hlt.suda.edu.cn/~zhli/teach/ir-2019-spring/sample-en.txt txt下载]&lt;br /&gt;
* 作业提交时间截止时间：2019.4.2&lt;br /&gt;
&lt;br /&gt;
= 作业 1：最大匹配分词 = &lt;br /&gt;
* 2019.3.5&lt;br /&gt;
* 2019.3.19上机课前提交&lt;br /&gt;
*课件：前向最大匹配 PDF文件--[[文件:Word-seg-max-match.pdf]]；PPT文件--[[文件:Word-seg-max-match.zip]]&lt;br /&gt;
&lt;br /&gt;
*数据下载：&lt;br /&gt;
**字典：[[文件:dict.txt]] &lt;br /&gt;
**待分词：[[文件:sentence.txt]] &lt;br /&gt;
**正确答案：[[文件:answer.txt]]；&lt;br /&gt;
**模型预测结果：[[文件:out.txt]]&lt;br /&gt;
&lt;br /&gt;
*正确实验结果&lt;br /&gt;
**正确识别的词数：20263&lt;br /&gt;
**识别出的总体个数：20397&lt;br /&gt;
**测试集中的总体个数：20454&lt;br /&gt;
**正确率：0.99343&lt;br /&gt;
**召回率：0.99066&lt;br /&gt;
**F值：0.99204&lt;/div&gt;</summary>
		<author><name>Liying</name></author>
	</entry>
	<entry>
		<id>http://hlt.suda.edu.cn/index.php?title=Ir-2019-spring&amp;diff=863</id>
		<title>Ir-2019-spring</title>
		<link rel="alternate" type="text/html" href="http://hlt.suda.edu.cn/index.php?title=Ir-2019-spring&amp;diff=863"/>
		<updated>2019-03-26T07:13:51Z</updated>

		<summary type="html">&lt;p&gt;Liying：/* 提交作业说明 */&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;= 信息检索课程设计（Information Retrieval）Course Resources =&lt;br /&gt;
&lt;br /&gt;
Teacher: [http://hlt.suda.edu.cn/~zhli/en.html 李正华]&lt;br /&gt;
&lt;br /&gt;
Teach Assistant: &lt;br /&gt;
&lt;br /&gt;
课程交流学习群（qq）---- 群名称: ir-2019-spring 群 号: 697444164&lt;br /&gt;
&lt;br /&gt;
2019春季学期&lt;br /&gt;
周二5-8节&lt;br /&gt;
理工楼247和238&lt;br /&gt;
&lt;br /&gt;
= 计算成绩的规则和说明 =&lt;br /&gt;
*实验作业:70-80分&lt;br /&gt;
** 一系列作业，每个作业10-20分&lt;br /&gt;
** 必须按照规定时间将实验报告+源代码，提交到csteaching&lt;br /&gt;
&lt;br /&gt;
* 期末面对面小测验：10分（待定）&lt;br /&gt;
** 考察课程相关的基础知识，看看作业是否是自己做的&lt;br /&gt;
&lt;br /&gt;
* 平时成绩：10-20分&lt;br /&gt;
** 不能迟到、早退，特殊情况必须请假，并带辅导员签字的假条；&lt;br /&gt;
** 点名时，如果发现名单上没有你的名字，及时提出&lt;br /&gt;
&lt;br /&gt;
= 提交作业说明 =&lt;br /&gt;
* 网址：[http://csteaching.suda.edu.cn csteaching]&lt;br /&gt;
* 在规定时间内提交作业，包含两部分&lt;br /&gt;
** 实验报告（word或pdf）&lt;br /&gt;
*** 认真填写个人信息、实验题目、实验内容等&lt;br /&gt;
*** 不要大段粘贴代码，最多可以粘贴核心的一小段代码&lt;br /&gt;
*** 写清楚自己的解决思路，尤其是遇到的难点和如何解决&lt;br /&gt;
*** 建议可以画流程图或者写伪代码&lt;br /&gt;
*** 将程序运行结果截图&lt;br /&gt;
** 附件（.zip压缩包）&lt;br /&gt;
*** 源代码&lt;br /&gt;
*** readme.txt文件：说明如何运行你的程序，需要什么环境，如windows或linux，python版本如python3.5&lt;br /&gt;
* 提交前自我检查&lt;br /&gt;
** 是否有包含readme.txt文件解释如何编译执行你的程序。如没有该文件，将减分&lt;br /&gt;
** 是否认真完成实验报告&lt;br /&gt;
** 是否可以按照readme.txt正确编译和运行程序&lt;br /&gt;
** 是否包含别人的代码&lt;br /&gt;
** 期末可能会用软件做自动抄袭检查&lt;br /&gt;
* 提交作业命名规则&lt;br /&gt;
** 实验报告（姓名学号.doc或姓名学号.pdf）&lt;br /&gt;
** 附件（姓名学号.zip）&lt;br /&gt;
&lt;br /&gt;
== 实验报告word模板 ==&lt;br /&gt;
* [http://hlt.suda.edu.cn/~zhli/teach/ir-2019-spring/report.doc 下载]&lt;br /&gt;
&lt;br /&gt;
== 信息检索课程介绍 ==&lt;br /&gt;
* [http://hlt.suda.edu.cn/~zhli/teach/ir-2019-spring/ir-introduction-v0.4.pdf PPT下载]&lt;br /&gt;
&lt;br /&gt;
= 作业 3：网页正文抽取 =&lt;br /&gt;
&lt;br /&gt;
* 2019.3.26&lt;br /&gt;
* 课件 &lt;br /&gt;
** [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/web-page-content-extraction.ppt PPT下载] &lt;br /&gt;
** [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/web-page-content-extraction.pdf PDF下载]  &lt;br /&gt;
* 数据&lt;br /&gt;
**[http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/1.html 1.html]&lt;br /&gt;
**[http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/2.html 2.html]&lt;br /&gt;
&lt;br /&gt;
= 作业 2：单词计数 =&lt;br /&gt;
&lt;br /&gt;
* 2019.3.12&lt;br /&gt;
* 课件 [http://hlt.suda.edu.cn/~zhli/teach/ir-2019-spring/word-count.pdf PPT下载]&lt;br /&gt;
* 数据 [http://hlt.suda.edu.cn/~zhli/teach/ir-2019-spring/sample-en.txt txt下载]&lt;br /&gt;
&lt;br /&gt;
= 作业 1：最大匹配分词 = &lt;br /&gt;
* 2019.3.5&lt;br /&gt;
* 2019.3.19上机课前提交&lt;br /&gt;
*课件：前向最大匹配 PDF文件--[[文件:Word-seg-max-match.pdf]]；PPT文件--[[文件:Word-seg-max-match.zip]]&lt;br /&gt;
&lt;br /&gt;
*数据下载：&lt;br /&gt;
**字典：[[文件:dict.txt]] &lt;br /&gt;
**待分词：[[文件:sentence.txt]] &lt;br /&gt;
**正确答案：[[文件:answer.txt]]；&lt;br /&gt;
**模型预测结果：[[文件:out.txt]]&lt;br /&gt;
&lt;br /&gt;
*正确实验结果&lt;br /&gt;
**正确识别的词数：20263&lt;br /&gt;
**识别出的总体个数：20397&lt;br /&gt;
**测试集中的总体个数：20454&lt;br /&gt;
**正确率：0.99343&lt;br /&gt;
**召回率：0.99066&lt;br /&gt;
**F值：0.99204&lt;/div&gt;</summary>
		<author><name>Liying</name></author>
	</entry>
	<entry>
		<id>http://hlt.suda.edu.cn/index.php?title=Ir-2019-spring&amp;diff=862</id>
		<title>Ir-2019-spring</title>
		<link rel="alternate" type="text/html" href="http://hlt.suda.edu.cn/index.php?title=Ir-2019-spring&amp;diff=862"/>
		<updated>2019-03-26T05:56:43Z</updated>

		<summary type="html">&lt;p&gt;Liying：/* 作业 3：网页正文抽取 */&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;= 信息检索课程设计（Information Retrieval）Course Resources =&lt;br /&gt;
&lt;br /&gt;
Teacher: [http://hlt.suda.edu.cn/~zhli/en.html 李正华]&lt;br /&gt;
&lt;br /&gt;
Teach Assistant: &lt;br /&gt;
&lt;br /&gt;
课程交流学习群（qq）---- 群名称: ir-2019-spring 群 号: 697444164&lt;br /&gt;
&lt;br /&gt;
2019春季学期&lt;br /&gt;
周二5-8节&lt;br /&gt;
理工楼247和238&lt;br /&gt;
&lt;br /&gt;
= 计算成绩的规则和说明 =&lt;br /&gt;
*实验作业:70-80分&lt;br /&gt;
** 一系列作业，每个作业10-20分&lt;br /&gt;
** 必须按照规定时间将实验报告+源代码，提交到csteaching&lt;br /&gt;
&lt;br /&gt;
* 期末面对面小测验：10分（待定）&lt;br /&gt;
** 考察课程相关的基础知识，看看作业是否是自己做的&lt;br /&gt;
&lt;br /&gt;
* 平时成绩：10-20分&lt;br /&gt;
** 不能迟到、早退，特殊情况必须请假，并带辅导员签字的假条；&lt;br /&gt;
** 点名时，如果发现名单上没有你的名字，及时提出&lt;br /&gt;
&lt;br /&gt;
= 提交作业说明 =&lt;br /&gt;
* 网址：[http://csteaching.suda.edu.cn csteaching]&lt;br /&gt;
* 在规定时间内提交作业，包含两部分&lt;br /&gt;
** 实验报告（word或pdf）&lt;br /&gt;
*** 认真填写个人信息、实验题目、实验内容等&lt;br /&gt;
*** 不要大段粘贴代码，最多可以粘贴核心的一小段代码&lt;br /&gt;
*** 写清楚自己的解决思路，尤其是遇到的难点和如何解决&lt;br /&gt;
*** 建议可以画流程图或者写伪代码&lt;br /&gt;
*** 将程序运行结果截图&lt;br /&gt;
** 附件（.zip压缩包）&lt;br /&gt;
*** 源代码&lt;br /&gt;
*** readme.txt文件：说明如何运行你的程序，需要什么环境，如windows或linux，python版本如python3.5&lt;br /&gt;
* 提交前自我检查&lt;br /&gt;
** 是否有包含readme.txt文件解释如何编译执行你的程序。如没有该文件，将减分&lt;br /&gt;
** 是否认真完成实验报告&lt;br /&gt;
** 是否可以按照readme.txt正确编译和运行程序&lt;br /&gt;
** 是否包含别人的代码&lt;br /&gt;
** 期末可能会用软件做自动抄袭检查&lt;br /&gt;
&lt;br /&gt;
== 实验报告word模板 ==&lt;br /&gt;
* [http://hlt.suda.edu.cn/~zhli/teach/ir-2019-spring/report.doc 下载]&lt;br /&gt;
&lt;br /&gt;
== 信息检索课程介绍 ==&lt;br /&gt;
* [http://hlt.suda.edu.cn/~zhli/teach/ir-2019-spring/ir-introduction-v0.4.pdf PPT下载]&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
= 作业 3：网页正文抽取 =&lt;br /&gt;
&lt;br /&gt;
* 2019.3.26&lt;br /&gt;
* 课件 &lt;br /&gt;
** [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/web-page-content-extraction.ppt PPT下载] &lt;br /&gt;
** [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/web-page-content-extraction.pdf PDF下载]  &lt;br /&gt;
* 数据&lt;br /&gt;
**[http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/1.html 1.html]&lt;br /&gt;
**[http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/2.html 2.html]&lt;br /&gt;
&lt;br /&gt;
= 作业 2：单词计数 =&lt;br /&gt;
&lt;br /&gt;
* 2019.3.12&lt;br /&gt;
* 课件 [http://hlt.suda.edu.cn/~zhli/teach/ir-2019-spring/word-count.pdf PPT下载]&lt;br /&gt;
* 数据 [http://hlt.suda.edu.cn/~zhli/teach/ir-2019-spring/sample-en.txt txt下载]&lt;br /&gt;
&lt;br /&gt;
= 作业 1：最大匹配分词 = &lt;br /&gt;
* 2019.3.5&lt;br /&gt;
* 2019.3.19上机课前提交&lt;br /&gt;
*课件：前向最大匹配 PDF文件--[[文件:Word-seg-max-match.pdf]]；PPT文件--[[文件:Word-seg-max-match.zip]]&lt;br /&gt;
&lt;br /&gt;
*数据下载：&lt;br /&gt;
**字典：[[文件:dict.txt]] &lt;br /&gt;
**待分词：[[文件:sentence.txt]] &lt;br /&gt;
**正确答案：[[文件:answer.txt]]；&lt;br /&gt;
**模型预测结果：[[文件:out.txt]]&lt;br /&gt;
&lt;br /&gt;
*正确实验结果&lt;br /&gt;
**正确识别的词数：20263&lt;br /&gt;
**识别出的总体个数：20397&lt;br /&gt;
**测试集中的总体个数：20454&lt;br /&gt;
**正确率：0.99343&lt;br /&gt;
**召回率：0.99066&lt;br /&gt;
**F值：0.99204&lt;/div&gt;</summary>
		<author><name>Liying</name></author>
	</entry>
	<entry>
		<id>http://hlt.suda.edu.cn/index.php?title=Ir-2019-spring&amp;diff=851</id>
		<title>Ir-2019-spring</title>
		<link rel="alternate" type="text/html" href="http://hlt.suda.edu.cn/index.php?title=Ir-2019-spring&amp;diff=851"/>
		<updated>2019-03-19T04:18:41Z</updated>

		<summary type="html">&lt;p&gt;Liying：/* 作业 3：网页正文抽取 */&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;= 信息检索课程设计（Information Retrieval）Course Resources =&lt;br /&gt;
&lt;br /&gt;
Teacher: [http://hlt.suda.edu.cn/~zhli/en.html 李正华]&lt;br /&gt;
&lt;br /&gt;
Teach Assistant: &lt;br /&gt;
&lt;br /&gt;
课程交流学习群（qq）---- 群名称: ir-2019-spring 群 号: 697444164&lt;br /&gt;
&lt;br /&gt;
2019春季学期&lt;br /&gt;
周二5-8节&lt;br /&gt;
理工楼247和238&lt;br /&gt;
&lt;br /&gt;
= 计算成绩的规则和说明 =&lt;br /&gt;
*实验作业:70-80分&lt;br /&gt;
** 一系列作业，每个作业10-20分&lt;br /&gt;
** 必须按照规定时间将实验报告+源代码，提交到csteaching&lt;br /&gt;
&lt;br /&gt;
* 期末面对面小测验：10分（待定）&lt;br /&gt;
** 考察课程相关的基础知识，看看作业是否是自己做的&lt;br /&gt;
&lt;br /&gt;
* 平时成绩：10-20分&lt;br /&gt;
** 不能迟到、早退，特殊情况必须请假，并带辅导员签字的假条；&lt;br /&gt;
** 点名时，如果发现名单上没有你的名字，及时提出&lt;br /&gt;
&lt;br /&gt;
= 提交作业说明 =&lt;br /&gt;
* 网址：[http://csteaching.suda.edu.cn csteaching]&lt;br /&gt;
* 在规定时间内提交作业，包含两部分&lt;br /&gt;
** 实验报告（word或pdf）&lt;br /&gt;
*** 认真填写个人信息、实验题目、实验内容等&lt;br /&gt;
*** 不要大段粘贴代码，最多可以粘贴核心的一小段代码&lt;br /&gt;
*** 写清楚自己的解决思路，尤其是遇到的难点和如何解决&lt;br /&gt;
*** 建议可以画流程图或者写伪代码&lt;br /&gt;
*** 将程序运行结果截图&lt;br /&gt;
** 附件（.zip压缩包）&lt;br /&gt;
*** 源代码&lt;br /&gt;
*** readme.txt文件：说明如何运行你的程序，需要什么环境，如windows或linux，python版本如python3.5&lt;br /&gt;
* 提交前自我检查&lt;br /&gt;
** 是否有包含readme.txt文件解释如何编译执行你的程序。如没有该文件，将减分&lt;br /&gt;
** 是否认真完成实验报告&lt;br /&gt;
** 是否可以按照readme.txt正确编译和运行程序&lt;br /&gt;
** 是否包含别人的代码&lt;br /&gt;
** 期末可能会用软件做自动抄袭检查&lt;br /&gt;
&lt;br /&gt;
== 实验报告word模板 ==&lt;br /&gt;
* [http://hlt.suda.edu.cn/~zhli/teach/ir-2019-spring/report.doc 下载]&lt;br /&gt;
&lt;br /&gt;
== 信息检索课程介绍 ==&lt;br /&gt;
* [http://hlt.suda.edu.cn/~zhli/teach/ir-2019-spring/ir-introduction-v0.4.pdf PPT下载]&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
= 作业 3：网页正文抽取 =&lt;br /&gt;
&lt;br /&gt;
* 2019.3.19&lt;br /&gt;
* 课件 &lt;br /&gt;
** [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/web-page-content-extraction.ppt PPT下载] &lt;br /&gt;
** [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/web-page-content-extraction.pdf PDF下载]  &lt;br /&gt;
* 数据&lt;br /&gt;
**[http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/1.html 1.html]&lt;br /&gt;
**[http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/2.html 2.html]&lt;br /&gt;
&lt;br /&gt;
= 作业 2：单词计数 =&lt;br /&gt;
&lt;br /&gt;
* 2019.3.12&lt;br /&gt;
* 课件 [http://hlt.suda.edu.cn/~zhli/teach/ir-2019-spring/word-count.pdf PPT下载]&lt;br /&gt;
* 数据 [http://hlt.suda.edu.cn/~zhli/teach/ir-2019-spring/sample-en.txt txt下载]&lt;br /&gt;
&lt;br /&gt;
= 作业 1：最大匹配分词 = &lt;br /&gt;
* 2019.3.5&lt;br /&gt;
* 2019.3.19上机课前提交&lt;br /&gt;
*课件：前向最大匹配 PDF文件--[[文件:Word-seg-max-match.pdf]]；PPT文件--[[文件:Word-seg-max-match.zip]]&lt;br /&gt;
&lt;br /&gt;
*数据下载：&lt;br /&gt;
**字典：[[文件:dict.txt]] &lt;br /&gt;
**待分词：[[文件:sentence.txt]] &lt;br /&gt;
**正确答案：[[文件:answer.txt]]；&lt;br /&gt;
**模型预测结果：[[文件:out.txt]]&lt;br /&gt;
&lt;br /&gt;
*正确实验结果&lt;br /&gt;
**正确识别的词数：20263&lt;br /&gt;
**识别出的总体个数：20397&lt;br /&gt;
**测试集中的总体个数：20454&lt;br /&gt;
**正确率：0.99343&lt;br /&gt;
**召回率：0.99066&lt;br /&gt;
**F值：0.99204&lt;/div&gt;</summary>
		<author><name>Liying</name></author>
	</entry>
	<entry>
		<id>http://hlt.suda.edu.cn/index.php?title=Ir-2019-spring&amp;diff=850</id>
		<title>Ir-2019-spring</title>
		<link rel="alternate" type="text/html" href="http://hlt.suda.edu.cn/index.php?title=Ir-2019-spring&amp;diff=850"/>
		<updated>2019-03-19T04:18:11Z</updated>

		<summary type="html">&lt;p&gt;Liying：/* 作业 3：网页正文抽取 */&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;= 信息检索课程设计（Information Retrieval）Course Resources =&lt;br /&gt;
&lt;br /&gt;
Teacher: [http://hlt.suda.edu.cn/~zhli/en.html 李正华]&lt;br /&gt;
&lt;br /&gt;
Teach Assistant: &lt;br /&gt;
&lt;br /&gt;
课程交流学习群（qq）---- 群名称: ir-2019-spring 群 号: 697444164&lt;br /&gt;
&lt;br /&gt;
2019春季学期&lt;br /&gt;
周二5-8节&lt;br /&gt;
理工楼247和238&lt;br /&gt;
&lt;br /&gt;
= 计算成绩的规则和说明 =&lt;br /&gt;
*实验作业:70-80分&lt;br /&gt;
** 一系列作业，每个作业10-20分&lt;br /&gt;
** 必须按照规定时间将实验报告+源代码，提交到csteaching&lt;br /&gt;
&lt;br /&gt;
* 期末面对面小测验：10分（待定）&lt;br /&gt;
** 考察课程相关的基础知识，看看作业是否是自己做的&lt;br /&gt;
&lt;br /&gt;
* 平时成绩：10-20分&lt;br /&gt;
** 不能迟到、早退，特殊情况必须请假，并带辅导员签字的假条；&lt;br /&gt;
** 点名时，如果发现名单上没有你的名字，及时提出&lt;br /&gt;
&lt;br /&gt;
= 提交作业说明 =&lt;br /&gt;
* 网址：[http://csteaching.suda.edu.cn csteaching]&lt;br /&gt;
* 在规定时间内提交作业，包含两部分&lt;br /&gt;
** 实验报告（word或pdf）&lt;br /&gt;
*** 认真填写个人信息、实验题目、实验内容等&lt;br /&gt;
*** 不要大段粘贴代码，最多可以粘贴核心的一小段代码&lt;br /&gt;
*** 写清楚自己的解决思路，尤其是遇到的难点和如何解决&lt;br /&gt;
*** 建议可以画流程图或者写伪代码&lt;br /&gt;
*** 将程序运行结果截图&lt;br /&gt;
** 附件（.zip压缩包）&lt;br /&gt;
*** 源代码&lt;br /&gt;
*** readme.txt文件：说明如何运行你的程序，需要什么环境，如windows或linux，python版本如python3.5&lt;br /&gt;
* 提交前自我检查&lt;br /&gt;
** 是否有包含readme.txt文件解释如何编译执行你的程序。如没有该文件，将减分&lt;br /&gt;
** 是否认真完成实验报告&lt;br /&gt;
** 是否可以按照readme.txt正确编译和运行程序&lt;br /&gt;
** 是否包含别人的代码&lt;br /&gt;
** 期末可能会用软件做自动抄袭检查&lt;br /&gt;
&lt;br /&gt;
== 实验报告word模板 ==&lt;br /&gt;
* [http://hlt.suda.edu.cn/~zhli/teach/ir-2019-spring/report.doc 下载]&lt;br /&gt;
&lt;br /&gt;
== 信息检索课程介绍 ==&lt;br /&gt;
* [http://hlt.suda.edu.cn/~zhli/teach/ir-2019-spring/ir-introduction-v0.4.pdf PPT下载]&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
= 作业 3：网页正文抽取 =&lt;br /&gt;
&lt;br /&gt;
* 2019.3.19&lt;br /&gt;
* 课件 &lt;br /&gt;
** [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/web-page-content-extraction.ppt PPT下载] &lt;br /&gt;
** [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/web-page-content-extraction.pdf PDF下载]  &lt;br /&gt;
**[http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/1.html 1.html]&lt;br /&gt;
**[http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/2.html 2.html]&lt;br /&gt;
&lt;br /&gt;
= 作业 2：单词计数 =&lt;br /&gt;
&lt;br /&gt;
* 2019.3.12&lt;br /&gt;
* 课件 [http://hlt.suda.edu.cn/~zhli/teach/ir-2019-spring/word-count.pdf PPT下载]&lt;br /&gt;
* 数据 [http://hlt.suda.edu.cn/~zhli/teach/ir-2019-spring/sample-en.txt txt下载]&lt;br /&gt;
&lt;br /&gt;
= 作业 1：最大匹配分词 = &lt;br /&gt;
* 2019.3.5&lt;br /&gt;
* 2019.3.19上机课前提交&lt;br /&gt;
*课件：前向最大匹配 PDF文件--[[文件:Word-seg-max-match.pdf]]；PPT文件--[[文件:Word-seg-max-match.zip]]&lt;br /&gt;
&lt;br /&gt;
*数据下载：&lt;br /&gt;
**字典：[[文件:dict.txt]] &lt;br /&gt;
**待分词：[[文件:sentence.txt]] &lt;br /&gt;
**正确答案：[[文件:answer.txt]]；&lt;br /&gt;
**模型预测结果：[[文件:out.txt]]&lt;br /&gt;
&lt;br /&gt;
*正确实验结果&lt;br /&gt;
**正确识别的词数：20263&lt;br /&gt;
**识别出的总体个数：20397&lt;br /&gt;
**测试集中的总体个数：20454&lt;br /&gt;
**正确率：0.99343&lt;br /&gt;
**召回率：0.99066&lt;br /&gt;
**F值：0.99204&lt;/div&gt;</summary>
		<author><name>Liying</name></author>
	</entry>
	<entry>
		<id>http://hlt.suda.edu.cn/index.php?title=Ir-2019-spring&amp;diff=849</id>
		<title>Ir-2019-spring</title>
		<link rel="alternate" type="text/html" href="http://hlt.suda.edu.cn/index.php?title=Ir-2019-spring&amp;diff=849"/>
		<updated>2019-03-19T03:28:58Z</updated>

		<summary type="html">&lt;p&gt;Liying：/* 作业 3：网页正文抽取 */&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;= 信息检索课程设计（Information Retrieval）Course Resources =&lt;br /&gt;
&lt;br /&gt;
Teacher: [http://hlt.suda.edu.cn/~zhli/en.html 李正华]&lt;br /&gt;
&lt;br /&gt;
Teach Assistant: &lt;br /&gt;
&lt;br /&gt;
课程交流学习群（qq）---- 群名称: ir-2019-spring 群 号: 697444164&lt;br /&gt;
&lt;br /&gt;
2019春季学期&lt;br /&gt;
周二5-8节&lt;br /&gt;
理工楼247和238&lt;br /&gt;
&lt;br /&gt;
= 计算成绩的规则和说明 =&lt;br /&gt;
*实验作业:70-80分&lt;br /&gt;
** 一系列作业，每个作业10-20分&lt;br /&gt;
** 必须按照规定时间将实验报告+源代码，提交到csteaching&lt;br /&gt;
&lt;br /&gt;
* 期末面对面小测验：10分（待定）&lt;br /&gt;
** 考察课程相关的基础知识，看看作业是否是自己做的&lt;br /&gt;
&lt;br /&gt;
* 平时成绩：10-20分&lt;br /&gt;
** 不能迟到、早退，特殊情况必须请假，并带辅导员签字的假条；&lt;br /&gt;
** 点名时，如果发现名单上没有你的名字，及时提出&lt;br /&gt;
&lt;br /&gt;
= 提交作业说明 =&lt;br /&gt;
* 网址：[http://csteaching.suda.edu.cn csteaching]&lt;br /&gt;
* 在规定时间内提交作业，包含两部分&lt;br /&gt;
** 实验报告（word或pdf）&lt;br /&gt;
*** 认真填写个人信息、实验题目、实验内容等&lt;br /&gt;
*** 不要大段粘贴代码，最多可以粘贴核心的一小段代码&lt;br /&gt;
*** 写清楚自己的解决思路，尤其是遇到的难点和如何解决&lt;br /&gt;
*** 建议可以画流程图或者写伪代码&lt;br /&gt;
*** 将程序运行结果截图&lt;br /&gt;
** 附件（.zip压缩包）&lt;br /&gt;
*** 源代码&lt;br /&gt;
*** readme.txt文件：说明如何运行你的程序，需要什么环境，如windows或linux，python版本如python3.5&lt;br /&gt;
* 提交前自我检查&lt;br /&gt;
** 是否有包含readme.txt文件解释如何编译执行你的程序。如没有该文件，将减分&lt;br /&gt;
** 是否认真完成实验报告&lt;br /&gt;
** 是否可以按照readme.txt正确编译和运行程序&lt;br /&gt;
** 是否包含别人的代码&lt;br /&gt;
** 期末可能会用软件做自动抄袭检查&lt;br /&gt;
&lt;br /&gt;
== 实验报告word模板 ==&lt;br /&gt;
* [http://hlt.suda.edu.cn/~zhli/teach/ir-2019-spring/report.doc 下载]&lt;br /&gt;
&lt;br /&gt;
== 信息检索课程介绍 ==&lt;br /&gt;
* [http://hlt.suda.edu.cn/~zhli/teach/ir-2019-spring/ir-introduction-v0.4.pdf PPT下载]&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
= 作业 3：网页正文抽取 =&lt;br /&gt;
&lt;br /&gt;
* 2019.3.19&lt;br /&gt;
* 课件 &lt;br /&gt;
** [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/web-page-content-extraction.ppt PPT下载]   [[文件:Web-page-content-extraction.ppt]]&lt;br /&gt;
** [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/web-page-content-extraction.pdf PDF下载]   [[文件:Web-page-content-extraction.pdf]]&lt;br /&gt;
* 数据下载 &lt;br /&gt;
**[http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/1.html 1.html]&lt;br /&gt;
**[http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/2.html 2.html]&lt;br /&gt;
&lt;br /&gt;
= 作业 2：单词计数 =&lt;br /&gt;
&lt;br /&gt;
* 2019.3.12&lt;br /&gt;
* 课件 [http://hlt.suda.edu.cn/~zhli/teach/ir-2019-spring/word-count.pdf PPT下载]&lt;br /&gt;
* 数据 [http://hlt.suda.edu.cn/~zhli/teach/ir-2019-spring/sample-en.txt txt下载]&lt;br /&gt;
&lt;br /&gt;
= 作业 1：最大匹配分词 = &lt;br /&gt;
* 2019.3.5&lt;br /&gt;
* 2019.3.19上机课前提交&lt;br /&gt;
*课件：前向最大匹配 PDF文件--[[文件:Word-seg-max-match.pdf]]；PPT文件--[[文件:Word-seg-max-match.zip]]&lt;br /&gt;
&lt;br /&gt;
*数据下载：&lt;br /&gt;
**字典：[[文件:dict.txt]] &lt;br /&gt;
**待分词：[[文件:sentence.txt]] &lt;br /&gt;
**正确答案：[[文件:answer.txt]]；&lt;br /&gt;
**模型预测结果：[[文件:out.txt]]&lt;br /&gt;
&lt;br /&gt;
*正确实验结果&lt;br /&gt;
**正确识别的词数：20263&lt;br /&gt;
**识别出的总体个数：20397&lt;br /&gt;
**测试集中的总体个数：20454&lt;br /&gt;
**正确率：0.99343&lt;br /&gt;
**召回率：0.99066&lt;br /&gt;
**F值：0.99204&lt;/div&gt;</summary>
		<author><name>Liying</name></author>
	</entry>
	<entry>
		<id>http://hlt.suda.edu.cn/index.php?title=%E6%96%87%E4%BB%B6:Web-page-content-extraction.pdf&amp;diff=848</id>
		<title>文件:Web-page-content-extraction.pdf</title>
		<link rel="alternate" type="text/html" href="http://hlt.suda.edu.cn/index.php?title=%E6%96%87%E4%BB%B6:Web-page-content-extraction.pdf&amp;diff=848"/>
		<updated>2019-03-19T03:27:43Z</updated>

		<summary type="html">&lt;p&gt;Liying：&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;&lt;/div&gt;</summary>
		<author><name>Liying</name></author>
	</entry>
	<entry>
		<id>http://hlt.suda.edu.cn/index.php?title=Ir-2019-spring&amp;diff=847</id>
		<title>Ir-2019-spring</title>
		<link rel="alternate" type="text/html" href="http://hlt.suda.edu.cn/index.php?title=Ir-2019-spring&amp;diff=847"/>
		<updated>2019-03-19T03:26:54Z</updated>

		<summary type="html">&lt;p&gt;Liying：/* 作业 3：网页正文抽取 */&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;= 信息检索课程设计（Information Retrieval）Course Resources =&lt;br /&gt;
&lt;br /&gt;
Teacher: [http://hlt.suda.edu.cn/~zhli/en.html 李正华]&lt;br /&gt;
&lt;br /&gt;
Teach Assistant: &lt;br /&gt;
&lt;br /&gt;
课程交流学习群（qq）---- 群名称: ir-2019-spring 群 号: 697444164&lt;br /&gt;
&lt;br /&gt;
2019春季学期&lt;br /&gt;
周二5-8节&lt;br /&gt;
理工楼247和238&lt;br /&gt;
&lt;br /&gt;
= 计算成绩的规则和说明 =&lt;br /&gt;
*实验作业:70-80分&lt;br /&gt;
** 一系列作业，每个作业10-20分&lt;br /&gt;
** 必须按照规定时间将实验报告+源代码，提交到csteaching&lt;br /&gt;
&lt;br /&gt;
* 期末面对面小测验：10分（待定）&lt;br /&gt;
** 考察课程相关的基础知识，看看作业是否是自己做的&lt;br /&gt;
&lt;br /&gt;
* 平时成绩：10-20分&lt;br /&gt;
** 不能迟到、早退，特殊情况必须请假，并带辅导员签字的假条；&lt;br /&gt;
** 点名时，如果发现名单上没有你的名字，及时提出&lt;br /&gt;
&lt;br /&gt;
= 提交作业说明 =&lt;br /&gt;
* 网址：[http://csteaching.suda.edu.cn csteaching]&lt;br /&gt;
* 在规定时间内提交作业，包含两部分&lt;br /&gt;
** 实验报告（word或pdf）&lt;br /&gt;
*** 认真填写个人信息、实验题目、实验内容等&lt;br /&gt;
*** 不要大段粘贴代码，最多可以粘贴核心的一小段代码&lt;br /&gt;
*** 写清楚自己的解决思路，尤其是遇到的难点和如何解决&lt;br /&gt;
*** 建议可以画流程图或者写伪代码&lt;br /&gt;
*** 将程序运行结果截图&lt;br /&gt;
** 附件（.zip压缩包）&lt;br /&gt;
*** 源代码&lt;br /&gt;
*** readme.txt文件：说明如何运行你的程序，需要什么环境，如windows或linux，python版本如python3.5&lt;br /&gt;
* 提交前自我检查&lt;br /&gt;
** 是否有包含readme.txt文件解释如何编译执行你的程序。如没有该文件，将减分&lt;br /&gt;
** 是否认真完成实验报告&lt;br /&gt;
** 是否可以按照readme.txt正确编译和运行程序&lt;br /&gt;
** 是否包含别人的代码&lt;br /&gt;
** 期末可能会用软件做自动抄袭检查&lt;br /&gt;
&lt;br /&gt;
== 实验报告word模板 ==&lt;br /&gt;
* [http://hlt.suda.edu.cn/~zhli/teach/ir-2019-spring/report.doc 下载]&lt;br /&gt;
&lt;br /&gt;
== 信息检索课程介绍 ==&lt;br /&gt;
* [http://hlt.suda.edu.cn/~zhli/teach/ir-2019-spring/ir-introduction-v0.4.pdf PPT下载]&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
= 作业 3：网页正文抽取 =&lt;br /&gt;
&lt;br /&gt;
* 2019.3.19&lt;br /&gt;
* 课件 &lt;br /&gt;
** [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/web-page-content-extraction.ppt PPT下载][[文件:Web-page-content-extraction.ppt]]&lt;br /&gt;
** [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/web-page-content-extraction.pdf PDF下载]&lt;br /&gt;
* 数据下载 &lt;br /&gt;
**[http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/1.html 1.html]&lt;br /&gt;
**[http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/2.html 2.html]&lt;br /&gt;
&lt;br /&gt;
= 作业 2：单词计数 =&lt;br /&gt;
&lt;br /&gt;
* 2019.3.12&lt;br /&gt;
* 课件 [http://hlt.suda.edu.cn/~zhli/teach/ir-2019-spring/word-count.pdf PPT下载]&lt;br /&gt;
* 数据 [http://hlt.suda.edu.cn/~zhli/teach/ir-2019-spring/sample-en.txt txt下载]&lt;br /&gt;
&lt;br /&gt;
= 作业 1：最大匹配分词 = &lt;br /&gt;
* 2019.3.5&lt;br /&gt;
* 2019.3.19上机课前提交&lt;br /&gt;
*课件：前向最大匹配 PDF文件--[[文件:Word-seg-max-match.pdf]]；PPT文件--[[文件:Word-seg-max-match.zip]]&lt;br /&gt;
&lt;br /&gt;
*数据下载：&lt;br /&gt;
**字典：[[文件:dict.txt]] &lt;br /&gt;
**待分词：[[文件:sentence.txt]] &lt;br /&gt;
**正确答案：[[文件:answer.txt]]；&lt;br /&gt;
**模型预测结果：[[文件:out.txt]]&lt;br /&gt;
&lt;br /&gt;
*正确实验结果&lt;br /&gt;
**正确识别的词数：20263&lt;br /&gt;
**识别出的总体个数：20397&lt;br /&gt;
**测试集中的总体个数：20454&lt;br /&gt;
**正确率：0.99343&lt;br /&gt;
**召回率：0.99066&lt;br /&gt;
**F值：0.99204&lt;/div&gt;</summary>
		<author><name>Liying</name></author>
	</entry>
	<entry>
		<id>http://hlt.suda.edu.cn/index.php?title=%E6%96%87%E4%BB%B6:Web-page-content-extraction.ppt&amp;diff=846</id>
		<title>文件:Web-page-content-extraction.ppt</title>
		<link rel="alternate" type="text/html" href="http://hlt.suda.edu.cn/index.php?title=%E6%96%87%E4%BB%B6:Web-page-content-extraction.ppt&amp;diff=846"/>
		<updated>2019-03-19T03:25:08Z</updated>

		<summary type="html">&lt;p&gt;Liying：&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;&lt;/div&gt;</summary>
		<author><name>Liying</name></author>
	</entry>
	<entry>
		<id>http://hlt.suda.edu.cn/index.php?title=Ir-2019-spring&amp;diff=845</id>
		<title>Ir-2019-spring</title>
		<link rel="alternate" type="text/html" href="http://hlt.suda.edu.cn/index.php?title=Ir-2019-spring&amp;diff=845"/>
		<updated>2019-03-19T03:23:48Z</updated>

		<summary type="html">&lt;p&gt;Liying：/* 信息检索课程设计（Information Retrieval）Course Resources */&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;= 信息检索课程设计（Information Retrieval）Course Resources =&lt;br /&gt;
&lt;br /&gt;
Teacher: [http://hlt.suda.edu.cn/~zhli/en.html 李正华]&lt;br /&gt;
&lt;br /&gt;
Teach Assistant: &lt;br /&gt;
&lt;br /&gt;
课程交流学习群（qq）---- 群名称: ir-2019-spring 群 号: 697444164&lt;br /&gt;
&lt;br /&gt;
2019春季学期&lt;br /&gt;
周二5-8节&lt;br /&gt;
理工楼247和238&lt;br /&gt;
&lt;br /&gt;
= 计算成绩的规则和说明 =&lt;br /&gt;
*实验作业:70-80分&lt;br /&gt;
** 一系列作业，每个作业10-20分&lt;br /&gt;
** 必须按照规定时间将实验报告+源代码，提交到csteaching&lt;br /&gt;
&lt;br /&gt;
* 期末面对面小测验：10分（待定）&lt;br /&gt;
** 考察课程相关的基础知识，看看作业是否是自己做的&lt;br /&gt;
&lt;br /&gt;
* 平时成绩：10-20分&lt;br /&gt;
** 不能迟到、早退，特殊情况必须请假，并带辅导员签字的假条；&lt;br /&gt;
** 点名时，如果发现名单上没有你的名字，及时提出&lt;br /&gt;
&lt;br /&gt;
= 提交作业说明 =&lt;br /&gt;
* 网址：[http://csteaching.suda.edu.cn csteaching]&lt;br /&gt;
* 在规定时间内提交作业，包含两部分&lt;br /&gt;
** 实验报告（word或pdf）&lt;br /&gt;
*** 认真填写个人信息、实验题目、实验内容等&lt;br /&gt;
*** 不要大段粘贴代码，最多可以粘贴核心的一小段代码&lt;br /&gt;
*** 写清楚自己的解决思路，尤其是遇到的难点和如何解决&lt;br /&gt;
*** 建议可以画流程图或者写伪代码&lt;br /&gt;
*** 将程序运行结果截图&lt;br /&gt;
** 附件（.zip压缩包）&lt;br /&gt;
*** 源代码&lt;br /&gt;
*** readme.txt文件：说明如何运行你的程序，需要什么环境，如windows或linux，python版本如python3.5&lt;br /&gt;
* 提交前自我检查&lt;br /&gt;
** 是否有包含readme.txt文件解释如何编译执行你的程序。如没有该文件，将减分&lt;br /&gt;
** 是否认真完成实验报告&lt;br /&gt;
** 是否可以按照readme.txt正确编译和运行程序&lt;br /&gt;
** 是否包含别人的代码&lt;br /&gt;
** 期末可能会用软件做自动抄袭检查&lt;br /&gt;
&lt;br /&gt;
== 实验报告word模板 ==&lt;br /&gt;
* [http://hlt.suda.edu.cn/~zhli/teach/ir-2019-spring/report.doc 下载]&lt;br /&gt;
&lt;br /&gt;
== 信息检索课程介绍 ==&lt;br /&gt;
* [http://hlt.suda.edu.cn/~zhli/teach/ir-2019-spring/ir-introduction-v0.4.pdf PPT下载]&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
= 作业 3：网页正文抽取 =&lt;br /&gt;
&lt;br /&gt;
* 2019.3.19&lt;br /&gt;
* 课件 &lt;br /&gt;
** [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/web-page-content-extraction.ppt PPT下载]&lt;br /&gt;
** [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/web-page-content-extraction.pdf PDF下载]&lt;br /&gt;
* 数据下载 &lt;br /&gt;
**[http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/1.html 1.html]&lt;br /&gt;
**[http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/2.html 2.html]&lt;br /&gt;
&lt;br /&gt;
= 作业 2：单词计数 =&lt;br /&gt;
&lt;br /&gt;
* 2019.3.12&lt;br /&gt;
* 课件 [http://hlt.suda.edu.cn/~zhli/teach/ir-2019-spring/word-count.pdf PPT下载]&lt;br /&gt;
* 数据 [http://hlt.suda.edu.cn/~zhli/teach/ir-2019-spring/sample-en.txt txt下载]&lt;br /&gt;
&lt;br /&gt;
= 作业 1：最大匹配分词 = &lt;br /&gt;
* 2019.3.5&lt;br /&gt;
* 2019.3.19上机课前提交&lt;br /&gt;
*课件：前向最大匹配 PDF文件--[[文件:Word-seg-max-match.pdf]]；PPT文件--[[文件:Word-seg-max-match.zip]]&lt;br /&gt;
&lt;br /&gt;
*数据下载：&lt;br /&gt;
**字典：[[文件:dict.txt]] &lt;br /&gt;
**待分词：[[文件:sentence.txt]] &lt;br /&gt;
**正确答案：[[文件:answer.txt]]；&lt;br /&gt;
**模型预测结果：[[文件:out.txt]]&lt;br /&gt;
&lt;br /&gt;
*正确实验结果&lt;br /&gt;
**正确识别的词数：20263&lt;br /&gt;
**识别出的总体个数：20397&lt;br /&gt;
**测试集中的总体个数：20454&lt;br /&gt;
**正确率：0.99343&lt;br /&gt;
**召回率：0.99066&lt;br /&gt;
**F值：0.99204&lt;/div&gt;</summary>
		<author><name>Liying</name></author>
	</entry>
	<entry>
		<id>http://hlt.suda.edu.cn/index.php?title=Ir-2019-spring&amp;diff=844</id>
		<title>Ir-2019-spring</title>
		<link rel="alternate" type="text/html" href="http://hlt.suda.edu.cn/index.php?title=Ir-2019-spring&amp;diff=844"/>
		<updated>2019-03-19T03:23:35Z</updated>

		<summary type="html">&lt;p&gt;Liying：/* 信息检索课程设计（Information Retrieval）Course Resources */&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;= 信息检索课程设计（Information Retrieval）Course Resources =&lt;br /&gt;
&lt;br /&gt;
Teacher: [http://hlt.suda.edu.cn/~zhli/en.html 李正华]&lt;br /&gt;
&lt;br /&gt;
Teach Assistant: &lt;br /&gt;
&lt;br /&gt;
课程交流学习群（qq）---- 群名称: ir-2019-spring 群 号: 697444164&lt;br /&gt;
2019春季学期&lt;br /&gt;
周二5-8节&lt;br /&gt;
理工楼247和238&lt;br /&gt;
&lt;br /&gt;
= 计算成绩的规则和说明 =&lt;br /&gt;
*实验作业:70-80分&lt;br /&gt;
** 一系列作业，每个作业10-20分&lt;br /&gt;
** 必须按照规定时间将实验报告+源代码，提交到csteaching&lt;br /&gt;
&lt;br /&gt;
* 期末面对面小测验：10分（待定）&lt;br /&gt;
** 考察课程相关的基础知识，看看作业是否是自己做的&lt;br /&gt;
&lt;br /&gt;
* 平时成绩：10-20分&lt;br /&gt;
** 不能迟到、早退，特殊情况必须请假，并带辅导员签字的假条；&lt;br /&gt;
** 点名时，如果发现名单上没有你的名字，及时提出&lt;br /&gt;
&lt;br /&gt;
= 提交作业说明 =&lt;br /&gt;
* 网址：[http://csteaching.suda.edu.cn csteaching]&lt;br /&gt;
* 在规定时间内提交作业，包含两部分&lt;br /&gt;
** 实验报告（word或pdf）&lt;br /&gt;
*** 认真填写个人信息、实验题目、实验内容等&lt;br /&gt;
*** 不要大段粘贴代码，最多可以粘贴核心的一小段代码&lt;br /&gt;
*** 写清楚自己的解决思路，尤其是遇到的难点和如何解决&lt;br /&gt;
*** 建议可以画流程图或者写伪代码&lt;br /&gt;
*** 将程序运行结果截图&lt;br /&gt;
** 附件（.zip压缩包）&lt;br /&gt;
*** 源代码&lt;br /&gt;
*** readme.txt文件：说明如何运行你的程序，需要什么环境，如windows或linux，python版本如python3.5&lt;br /&gt;
* 提交前自我检查&lt;br /&gt;
** 是否有包含readme.txt文件解释如何编译执行你的程序。如没有该文件，将减分&lt;br /&gt;
** 是否认真完成实验报告&lt;br /&gt;
** 是否可以按照readme.txt正确编译和运行程序&lt;br /&gt;
** 是否包含别人的代码&lt;br /&gt;
** 期末可能会用软件做自动抄袭检查&lt;br /&gt;
&lt;br /&gt;
== 实验报告word模板 ==&lt;br /&gt;
* [http://hlt.suda.edu.cn/~zhli/teach/ir-2019-spring/report.doc 下载]&lt;br /&gt;
&lt;br /&gt;
== 信息检索课程介绍 ==&lt;br /&gt;
* [http://hlt.suda.edu.cn/~zhli/teach/ir-2019-spring/ir-introduction-v0.4.pdf PPT下载]&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
= 作业 3：网页正文抽取 =&lt;br /&gt;
&lt;br /&gt;
* 2019.3.19&lt;br /&gt;
* 课件 &lt;br /&gt;
** [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/web-page-content-extraction.ppt PPT下载]&lt;br /&gt;
** [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/web-page-content-extraction.pdf PDF下载]&lt;br /&gt;
* 数据下载 &lt;br /&gt;
**[http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/1.html 1.html]&lt;br /&gt;
**[http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/2.html 2.html]&lt;br /&gt;
&lt;br /&gt;
= 作业 2：单词计数 =&lt;br /&gt;
&lt;br /&gt;
* 2019.3.12&lt;br /&gt;
* 课件 [http://hlt.suda.edu.cn/~zhli/teach/ir-2019-spring/word-count.pdf PPT下载]&lt;br /&gt;
* 数据 [http://hlt.suda.edu.cn/~zhli/teach/ir-2019-spring/sample-en.txt txt下载]&lt;br /&gt;
&lt;br /&gt;
= 作业 1：最大匹配分词 = &lt;br /&gt;
* 2019.3.5&lt;br /&gt;
* 2019.3.19上机课前提交&lt;br /&gt;
*课件：前向最大匹配 PDF文件--[[文件:Word-seg-max-match.pdf]]；PPT文件--[[文件:Word-seg-max-match.zip]]&lt;br /&gt;
&lt;br /&gt;
*数据下载：&lt;br /&gt;
**字典：[[文件:dict.txt]] &lt;br /&gt;
**待分词：[[文件:sentence.txt]] &lt;br /&gt;
**正确答案：[[文件:answer.txt]]；&lt;br /&gt;
**模型预测结果：[[文件:out.txt]]&lt;br /&gt;
&lt;br /&gt;
*正确实验结果&lt;br /&gt;
**正确识别的词数：20263&lt;br /&gt;
**识别出的总体个数：20397&lt;br /&gt;
**测试集中的总体个数：20454&lt;br /&gt;
**正确率：0.99343&lt;br /&gt;
**召回率：0.99066&lt;br /&gt;
**F值：0.99204&lt;/div&gt;</summary>
		<author><name>Liying</name></author>
	</entry>
	<entry>
		<id>http://hlt.suda.edu.cn/index.php?title=Ir-2019-spring&amp;diff=843</id>
		<title>Ir-2019-spring</title>
		<link rel="alternate" type="text/html" href="http://hlt.suda.edu.cn/index.php?title=Ir-2019-spring&amp;diff=843"/>
		<updated>2019-03-19T03:06:03Z</updated>

		<summary type="html">&lt;p&gt;Liying：/* 作业 3：网页正文抽取 */&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;= 信息检索课程设计（Information Retrieval）Course Resources =&lt;br /&gt;
&lt;br /&gt;
Teacher: [http://hlt.suda.edu.cn/~zhli/en.html 李正华]&lt;br /&gt;
&lt;br /&gt;
Teach Assistant: &lt;br /&gt;
&lt;br /&gt;
2019春季学期&lt;br /&gt;
周二5-8节&lt;br /&gt;
理工楼247和238&lt;br /&gt;
&lt;br /&gt;
= 计算成绩的规则和说明 =&lt;br /&gt;
*实验作业:70-80分&lt;br /&gt;
** 一系列作业，每个作业10-20分&lt;br /&gt;
** 必须按照规定时间将实验报告+源代码，提交到csteaching&lt;br /&gt;
&lt;br /&gt;
* 期末面对面小测验：10分（待定）&lt;br /&gt;
** 考察课程相关的基础知识，看看作业是否是自己做的&lt;br /&gt;
&lt;br /&gt;
* 平时成绩：10-20分&lt;br /&gt;
** 不能迟到、早退，特殊情况必须请假，并带辅导员签字的假条；&lt;br /&gt;
** 点名时，如果发现名单上没有你的名字，及时提出&lt;br /&gt;
&lt;br /&gt;
= 提交作业说明 =&lt;br /&gt;
* 网址：[http://csteaching.suda.edu.cn csteaching]&lt;br /&gt;
* 在规定时间内提交作业，包含两部分&lt;br /&gt;
** 实验报告（word或pdf）&lt;br /&gt;
*** 认真填写个人信息、实验题目、实验内容等&lt;br /&gt;
*** 不要大段粘贴代码，最多可以粘贴核心的一小段代码&lt;br /&gt;
*** 写清楚自己的解决思路，尤其是遇到的难点和如何解决&lt;br /&gt;
*** 建议可以画流程图或者写伪代码&lt;br /&gt;
*** 将程序运行结果截图&lt;br /&gt;
** 附件（.zip压缩包）&lt;br /&gt;
*** 源代码&lt;br /&gt;
*** readme.txt文件：说明如何运行你的程序，需要什么环境，如windows或linux，python版本如python3.5&lt;br /&gt;
* 提交前自我检查&lt;br /&gt;
** 是否有包含readme.txt文件解释如何编译执行你的程序。如没有该文件，将减分&lt;br /&gt;
** 是否认真完成实验报告&lt;br /&gt;
** 是否可以按照readme.txt正确编译和运行程序&lt;br /&gt;
** 是否包含别人的代码&lt;br /&gt;
** 期末可能会用软件做自动抄袭检查&lt;br /&gt;
&lt;br /&gt;
== 实验报告word模板 ==&lt;br /&gt;
* [http://hlt.suda.edu.cn/~zhli/teach/ir-2019-spring/report.doc 下载]&lt;br /&gt;
&lt;br /&gt;
== 信息检索课程介绍 ==&lt;br /&gt;
* [http://hlt.suda.edu.cn/~zhli/teach/ir-2019-spring/ir-introduction-v0.4.pdf PPT下载]&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
= 作业 3：网页正文抽取 =&lt;br /&gt;
&lt;br /&gt;
* 2019.3.19&lt;br /&gt;
* 课件 &lt;br /&gt;
** [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/web-page-content-extraction.ppt PPT下载]&lt;br /&gt;
** [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/web-page-content-extraction.pdf PDF下载]&lt;br /&gt;
* 数据下载 &lt;br /&gt;
**[http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/1.html 1.html]&lt;br /&gt;
**[http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/2.html 2.html]&lt;br /&gt;
&lt;br /&gt;
= 作业 2：单词计数 =&lt;br /&gt;
&lt;br /&gt;
* 2019.3.12&lt;br /&gt;
* 课件 [http://hlt.suda.edu.cn/~zhli/teach/ir-2019-spring/word-count.pdf PPT下载]&lt;br /&gt;
* 数据 [http://hlt.suda.edu.cn/~zhli/teach/ir-2019-spring/sample-en.txt txt下载]&lt;br /&gt;
&lt;br /&gt;
= 作业 1：最大匹配分词 = &lt;br /&gt;
* 2019.3.5&lt;br /&gt;
* 2019.3.19上机课前提交&lt;br /&gt;
*课件：前向最大匹配 PDF文件--[[文件:Word-seg-max-match.pdf]]；PPT文件--[[文件:Word-seg-max-match.zip]]&lt;br /&gt;
&lt;br /&gt;
*数据下载：&lt;br /&gt;
**字典：[[文件:dict.txt]] &lt;br /&gt;
**待分词：[[文件:sentence.txt]] &lt;br /&gt;
**正确答案：[[文件:answer.txt]]；&lt;br /&gt;
**模型预测结果：[[文件:out.txt]]&lt;br /&gt;
&lt;br /&gt;
*正确实验结果&lt;br /&gt;
**正确识别的词数：20263&lt;br /&gt;
**识别出的总体个数：20397&lt;br /&gt;
**测试集中的总体个数：20454&lt;br /&gt;
**正确率：0.99343&lt;br /&gt;
**召回率：0.99066&lt;br /&gt;
**F值：0.99204&lt;/div&gt;</summary>
		<author><name>Liying</name></author>
	</entry>
	<entry>
		<id>http://hlt.suda.edu.cn/index.php?title=Ir-2019-spring&amp;diff=842</id>
		<title>Ir-2019-spring</title>
		<link rel="alternate" type="text/html" href="http://hlt.suda.edu.cn/index.php?title=Ir-2019-spring&amp;diff=842"/>
		<updated>2019-03-19T03:04:14Z</updated>

		<summary type="html">&lt;p&gt;Liying：/* 作业 3：网页正文抽取 */&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;= 信息检索课程设计（Information Retrieval）Course Resources =&lt;br /&gt;
&lt;br /&gt;
Teacher: [http://hlt.suda.edu.cn/~zhli/en.html 李正华]&lt;br /&gt;
&lt;br /&gt;
Teach Assistant: &lt;br /&gt;
&lt;br /&gt;
2019春季学期&lt;br /&gt;
周二5-8节&lt;br /&gt;
理工楼247和238&lt;br /&gt;
&lt;br /&gt;
= 计算成绩的规则和说明 =&lt;br /&gt;
*实验作业:70-80分&lt;br /&gt;
** 一系列作业，每个作业10-20分&lt;br /&gt;
** 必须按照规定时间将实验报告+源代码，提交到csteaching&lt;br /&gt;
&lt;br /&gt;
* 期末面对面小测验：10分（待定）&lt;br /&gt;
** 考察课程相关的基础知识，看看作业是否是自己做的&lt;br /&gt;
&lt;br /&gt;
* 平时成绩：10-20分&lt;br /&gt;
** 不能迟到、早退，特殊情况必须请假，并带辅导员签字的假条；&lt;br /&gt;
** 点名时，如果发现名单上没有你的名字，及时提出&lt;br /&gt;
&lt;br /&gt;
= 提交作业说明 =&lt;br /&gt;
* 网址：[http://csteaching.suda.edu.cn csteaching]&lt;br /&gt;
* 在规定时间内提交作业，包含两部分&lt;br /&gt;
** 实验报告（word或pdf）&lt;br /&gt;
*** 认真填写个人信息、实验题目、实验内容等&lt;br /&gt;
*** 不要大段粘贴代码，最多可以粘贴核心的一小段代码&lt;br /&gt;
*** 写清楚自己的解决思路，尤其是遇到的难点和如何解决&lt;br /&gt;
*** 建议可以画流程图或者写伪代码&lt;br /&gt;
*** 将程序运行结果截图&lt;br /&gt;
** 附件（.zip压缩包）&lt;br /&gt;
*** 源代码&lt;br /&gt;
*** readme.txt文件：说明如何运行你的程序，需要什么环境，如windows或linux，python版本如python3.5&lt;br /&gt;
* 提交前自我检查&lt;br /&gt;
** 是否有包含readme.txt文件解释如何编译执行你的程序。如没有该文件，将减分&lt;br /&gt;
** 是否认真完成实验报告&lt;br /&gt;
** 是否可以按照readme.txt正确编译和运行程序&lt;br /&gt;
** 是否包含别人的代码&lt;br /&gt;
** 期末可能会用软件做自动抄袭检查&lt;br /&gt;
&lt;br /&gt;
== 实验报告word模板 ==&lt;br /&gt;
* [http://hlt.suda.edu.cn/~zhli/teach/ir-2019-spring/report.doc 下载]&lt;br /&gt;
&lt;br /&gt;
== 信息检索课程介绍 ==&lt;br /&gt;
* [http://hlt.suda.edu.cn/~zhli/teach/ir-2019-spring/ir-introduction-v0.4.pdf PPT下载]&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
= 作业 3：网页正文抽取 =&lt;br /&gt;
&lt;br /&gt;
* 2019.3.19&lt;br /&gt;
* 课件 [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/web-page-content-extraction.ppt PPT下载]  [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/web-page-content-extraction.pdf PDF下载]&lt;br /&gt;
* 数据下载 [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/1.html 1.html] [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/2.html 2.html]&lt;br /&gt;
&lt;br /&gt;
= 作业 2：单词计数 =&lt;br /&gt;
&lt;br /&gt;
* 2019.3.12&lt;br /&gt;
* 课件 [http://hlt.suda.edu.cn/~zhli/teach/ir-2019-spring/word-count.pdf PPT下载]&lt;br /&gt;
* 数据 [http://hlt.suda.edu.cn/~zhli/teach/ir-2019-spring/sample-en.txt txt下载]&lt;br /&gt;
&lt;br /&gt;
= 作业 1：最大匹配分词 = &lt;br /&gt;
* 2019.3.5&lt;br /&gt;
* 2019.3.19上机课前提交&lt;br /&gt;
*课件：前向最大匹配 PDF文件--[[文件:Word-seg-max-match.pdf]]；PPT文件--[[文件:Word-seg-max-match.zip]]&lt;br /&gt;
&lt;br /&gt;
*数据下载：&lt;br /&gt;
**字典：[[文件:dict.txt]] &lt;br /&gt;
**待分词：[[文件:sentence.txt]] &lt;br /&gt;
**正确答案：[[文件:answer.txt]]；&lt;br /&gt;
**模型预测结果：[[文件:out.txt]]&lt;br /&gt;
&lt;br /&gt;
*正确实验结果&lt;br /&gt;
**正确识别的词数：20263&lt;br /&gt;
**识别出的总体个数：20397&lt;br /&gt;
**测试集中的总体个数：20454&lt;br /&gt;
**正确率：0.99343&lt;br /&gt;
**召回率：0.99066&lt;br /&gt;
**F值：0.99204&lt;/div&gt;</summary>
		<author><name>Liying</name></author>
	</entry>
	<entry>
		<id>http://hlt.suda.edu.cn/index.php?title=Ir-2019-spring&amp;diff=841</id>
		<title>Ir-2019-spring</title>
		<link rel="alternate" type="text/html" href="http://hlt.suda.edu.cn/index.php?title=Ir-2019-spring&amp;diff=841"/>
		<updated>2019-03-19T03:01:43Z</updated>

		<summary type="html">&lt;p&gt;Liying：/* 作业 3：网页正文抽取 */&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;= 信息检索课程设计（Information Retrieval）Course Resources =&lt;br /&gt;
&lt;br /&gt;
Teacher: [http://hlt.suda.edu.cn/~zhli/en.html 李正华]&lt;br /&gt;
&lt;br /&gt;
Teach Assistant: &lt;br /&gt;
&lt;br /&gt;
2019春季学期&lt;br /&gt;
周二5-8节&lt;br /&gt;
理工楼247和238&lt;br /&gt;
&lt;br /&gt;
= 计算成绩的规则和说明 =&lt;br /&gt;
*实验作业:70-80分&lt;br /&gt;
** 一系列作业，每个作业10-20分&lt;br /&gt;
** 必须按照规定时间将实验报告+源代码，提交到csteaching&lt;br /&gt;
&lt;br /&gt;
* 期末面对面小测验：10分（待定）&lt;br /&gt;
** 考察课程相关的基础知识，看看作业是否是自己做的&lt;br /&gt;
&lt;br /&gt;
* 平时成绩：10-20分&lt;br /&gt;
** 不能迟到、早退，特殊情况必须请假，并带辅导员签字的假条；&lt;br /&gt;
** 点名时，如果发现名单上没有你的名字，及时提出&lt;br /&gt;
&lt;br /&gt;
= 提交作业说明 =&lt;br /&gt;
* 网址：[http://csteaching.suda.edu.cn csteaching]&lt;br /&gt;
* 在规定时间内提交作业，包含两部分&lt;br /&gt;
** 实验报告（word或pdf）&lt;br /&gt;
*** 认真填写个人信息、实验题目、实验内容等&lt;br /&gt;
*** 不要大段粘贴代码，最多可以粘贴核心的一小段代码&lt;br /&gt;
*** 写清楚自己的解决思路，尤其是遇到的难点和如何解决&lt;br /&gt;
*** 建议可以画流程图或者写伪代码&lt;br /&gt;
*** 将程序运行结果截图&lt;br /&gt;
** 附件（.zip压缩包）&lt;br /&gt;
*** 源代码&lt;br /&gt;
*** readme.txt文件：说明如何运行你的程序，需要什么环境，如windows或linux，python版本如python3.5&lt;br /&gt;
* 提交前自我检查&lt;br /&gt;
** 是否有包含readme.txt文件解释如何编译执行你的程序。如没有该文件，将减分&lt;br /&gt;
** 是否认真完成实验报告&lt;br /&gt;
** 是否可以按照readme.txt正确编译和运行程序&lt;br /&gt;
** 是否包含别人的代码&lt;br /&gt;
** 期末可能会用软件做自动抄袭检查&lt;br /&gt;
&lt;br /&gt;
== 实验报告word模板 ==&lt;br /&gt;
* [http://hlt.suda.edu.cn/~zhli/teach/ir-2019-spring/report.doc 下载]&lt;br /&gt;
&lt;br /&gt;
== 信息检索课程介绍 ==&lt;br /&gt;
* [http://hlt.suda.edu.cn/~zhli/teach/ir-2019-spring/ir-introduction-v0.4.pdf PPT下载]&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
= 作业 3：网页正文抽取 =&lt;br /&gt;
&lt;br /&gt;
* 2019.3.19&lt;br /&gt;
* 课件 [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/web-page-content-extraction.ppt PPT下载]&lt;br /&gt;
* 课件 [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/web-page-content-extraction.pdf PDF下载]&lt;br /&gt;
&lt;br /&gt;
= 作业 2：单词计数 =&lt;br /&gt;
&lt;br /&gt;
* 2019.3.12&lt;br /&gt;
* 课件 [http://hlt.suda.edu.cn/~zhli/teach/ir-2019-spring/word-count.pdf PPT下载]&lt;br /&gt;
* 数据 [http://hlt.suda.edu.cn/~zhli/teach/ir-2019-spring/sample-en.txt txt下载]&lt;br /&gt;
&lt;br /&gt;
= 作业 1：最大匹配分词 = &lt;br /&gt;
* 2019.3.5&lt;br /&gt;
* 2019.3.19上机课前提交&lt;br /&gt;
*课件：前向最大匹配 PDF文件--[[文件:Word-seg-max-match.pdf]]；PPT文件--[[文件:Word-seg-max-match.zip]]&lt;br /&gt;
&lt;br /&gt;
*数据下载：&lt;br /&gt;
**字典：[[文件:dict.txt]] &lt;br /&gt;
**待分词：[[文件:sentence.txt]] &lt;br /&gt;
**正确答案：[[文件:answer.txt]]；&lt;br /&gt;
**模型预测结果：[[文件:out.txt]]&lt;br /&gt;
&lt;br /&gt;
*正确实验结果&lt;br /&gt;
**正确识别的词数：20263&lt;br /&gt;
**识别出的总体个数：20397&lt;br /&gt;
**测试集中的总体个数：20454&lt;br /&gt;
**正确率：0.99343&lt;br /&gt;
**召回率：0.99066&lt;br /&gt;
**F值：0.99204&lt;/div&gt;</summary>
		<author><name>Liying</name></author>
	</entry>
	<entry>
		<id>http://hlt.suda.edu.cn/index.php?title=Ir-2019-spring&amp;diff=840</id>
		<title>Ir-2019-spring</title>
		<link rel="alternate" type="text/html" href="http://hlt.suda.edu.cn/index.php?title=Ir-2019-spring&amp;diff=840"/>
		<updated>2019-03-19T02:52:03Z</updated>

		<summary type="html">&lt;p&gt;Liying：/* 作业 2：单词计数 */&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;= 信息检索课程设计（Information Retrieval）Course Resources =&lt;br /&gt;
&lt;br /&gt;
Teacher: [http://hlt.suda.edu.cn/~zhli/en.html 李正华]&lt;br /&gt;
&lt;br /&gt;
Teach Assistant: &lt;br /&gt;
&lt;br /&gt;
2019春季学期&lt;br /&gt;
周二5-8节&lt;br /&gt;
理工楼247和238&lt;br /&gt;
&lt;br /&gt;
= 计算成绩的规则和说明 =&lt;br /&gt;
*实验作业:70-80分&lt;br /&gt;
** 一系列作业，每个作业10-20分&lt;br /&gt;
** 必须按照规定时间将实验报告+源代码，提交到csteaching&lt;br /&gt;
&lt;br /&gt;
* 期末面对面小测验：10分（待定）&lt;br /&gt;
** 考察课程相关的基础知识，看看作业是否是自己做的&lt;br /&gt;
&lt;br /&gt;
* 平时成绩：10-20分&lt;br /&gt;
** 不能迟到、早退，特殊情况必须请假，并带辅导员签字的假条；&lt;br /&gt;
** 点名时，如果发现名单上没有你的名字，及时提出&lt;br /&gt;
&lt;br /&gt;
= 提交作业说明 =&lt;br /&gt;
* 网址：[http://csteaching.suda.edu.cn csteaching]&lt;br /&gt;
* 在规定时间内提交作业，包含两部分&lt;br /&gt;
** 实验报告（word或pdf）&lt;br /&gt;
*** 认真填写个人信息、实验题目、实验内容等&lt;br /&gt;
*** 不要大段粘贴代码，最多可以粘贴核心的一小段代码&lt;br /&gt;
*** 写清楚自己的解决思路，尤其是遇到的难点和如何解决&lt;br /&gt;
*** 建议可以画流程图或者写伪代码&lt;br /&gt;
*** 将程序运行结果截图&lt;br /&gt;
** 附件（.zip压缩包）&lt;br /&gt;
*** 源代码&lt;br /&gt;
*** readme.txt文件：说明如何运行你的程序，需要什么环境，如windows或linux，python版本如python3.5&lt;br /&gt;
* 提交前自我检查&lt;br /&gt;
** 是否有包含readme.txt文件解释如何编译执行你的程序。如没有该文件，将减分&lt;br /&gt;
** 是否认真完成实验报告&lt;br /&gt;
** 是否可以按照readme.txt正确编译和运行程序&lt;br /&gt;
** 是否包含别人的代码&lt;br /&gt;
** 期末可能会用软件做自动抄袭检查&lt;br /&gt;
&lt;br /&gt;
== 实验报告word模板 ==&lt;br /&gt;
* [http://hlt.suda.edu.cn/~zhli/teach/ir-2019-spring/report.doc 下载]&lt;br /&gt;
&lt;br /&gt;
== 信息检索课程介绍 ==&lt;br /&gt;
* [http://hlt.suda.edu.cn/~zhli/teach/ir-2019-spring/ir-introduction-v0.4.pdf PPT下载]&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
= 作业 3：网页正文抽取 =&lt;br /&gt;
&lt;br /&gt;
* 2019.3.19&lt;br /&gt;
* 课件 [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/web-page-content-extraction.pdf PPT下载]&lt;br /&gt;
* 课件 [http://hlt.suda.edu.cn/yingli/teach/ir-2019-spring/web-page-content-extraction.txt txt下载]&lt;br /&gt;
&lt;br /&gt;
= 作业 2：单词计数 =&lt;br /&gt;
&lt;br /&gt;
* 2019.3.12&lt;br /&gt;
* 课件 [http://hlt.suda.edu.cn/~zhli/teach/ir-2019-spring/word-count.pdf PPT下载]&lt;br /&gt;
* 数据 [http://hlt.suda.edu.cn/~zhli/teach/ir-2019-spring/sample-en.txt txt下载]&lt;br /&gt;
&lt;br /&gt;
= 作业 1：最大匹配分词 = &lt;br /&gt;
* 2019.3.5&lt;br /&gt;
* 2019.3.19上机课前提交&lt;br /&gt;
*课件：前向最大匹配 PDF文件--[[文件:Word-seg-max-match.pdf]]；PPT文件--[[文件:Word-seg-max-match.zip]]&lt;br /&gt;
&lt;br /&gt;
*数据下载：&lt;br /&gt;
**字典：[[文件:dict.txt]] &lt;br /&gt;
**待分词：[[文件:sentence.txt]] &lt;br /&gt;
**正确答案：[[文件:answer.txt]]；&lt;br /&gt;
**模型预测结果：[[文件:out.txt]]&lt;br /&gt;
&lt;br /&gt;
*正确实验结果&lt;br /&gt;
**正确识别的词数：20263&lt;br /&gt;
**识别出的总体个数：20397&lt;br /&gt;
**测试集中的总体个数：20454&lt;br /&gt;
**正确率：0.99343&lt;br /&gt;
**召回率：0.99066&lt;br /&gt;
**F值：0.99204&lt;/div&gt;</summary>
		<author><name>Liying</name></author>
	</entry>
	<entry>
		<id>http://hlt.suda.edu.cn/index.php?title=Ir-2019-spring&amp;diff=839</id>
		<title>Ir-2019-spring</title>
		<link rel="alternate" type="text/html" href="http://hlt.suda.edu.cn/index.php?title=Ir-2019-spring&amp;diff=839"/>
		<updated>2019-03-19T02:25:11Z</updated>

		<summary type="html">&lt;p&gt;Liying：/* 作业 2：单词计数 */&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;= 信息检索课程设计（Information Retrieval）Course Resources =&lt;br /&gt;
&lt;br /&gt;
Teacher: [http://hlt.suda.edu.cn/~zhli/en.html 李正华]&lt;br /&gt;
&lt;br /&gt;
Teach Assistant: &lt;br /&gt;
&lt;br /&gt;
2019春季学期&lt;br /&gt;
周二5-8节&lt;br /&gt;
理工楼247和238&lt;br /&gt;
&lt;br /&gt;
= 计算成绩的规则和说明 =&lt;br /&gt;
*实验作业:70-80分&lt;br /&gt;
** 一系列作业，每个作业10-20分&lt;br /&gt;
** 必须按照规定时间将实验报告+源代码，提交到csteaching&lt;br /&gt;
&lt;br /&gt;
* 期末面对面小测验：10分（待定）&lt;br /&gt;
** 考察课程相关的基础知识，看看作业是否是自己做的&lt;br /&gt;
&lt;br /&gt;
* 平时成绩：10-20分&lt;br /&gt;
** 不能迟到、早退，特殊情况必须请假，并带辅导员签字的假条；&lt;br /&gt;
** 点名时，如果发现名单上没有你的名字，及时提出&lt;br /&gt;
&lt;br /&gt;
= 提交作业说明 =&lt;br /&gt;
* 网址：[http://csteaching.suda.edu.cn csteaching]&lt;br /&gt;
* 在规定时间内提交作业，包含两部分&lt;br /&gt;
** 实验报告（word或pdf）&lt;br /&gt;
*** 认真填写个人信息、实验题目、实验内容等&lt;br /&gt;
*** 不要大段粘贴代码，最多可以粘贴核心的一小段代码&lt;br /&gt;
*** 写清楚自己的解决思路，尤其是遇到的难点和如何解决&lt;br /&gt;
*** 建议可以画流程图或者写伪代码&lt;br /&gt;
*** 将程序运行结果截图&lt;br /&gt;
** 附件（.zip压缩包）&lt;br /&gt;
*** 源代码&lt;br /&gt;
*** readme.txt文件：说明如何运行你的程序，需要什么环境，如windows或linux，python版本如python3.5&lt;br /&gt;
* 提交前自我检查&lt;br /&gt;
** 是否有包含readme.txt文件解释如何编译执行你的程序。如没有该文件，将减分&lt;br /&gt;
** 是否认真完成实验报告&lt;br /&gt;
** 是否可以按照readme.txt正确编译和运行程序&lt;br /&gt;
** 是否包含别人的代码&lt;br /&gt;
** 期末可能会用软件做自动抄袭检查&lt;br /&gt;
&lt;br /&gt;
== 实验报告word模板 ==&lt;br /&gt;
* [http://hlt.suda.edu.cn/~zhli/teach/ir-2019-spring/report.doc 下载]&lt;br /&gt;
&lt;br /&gt;
== 信息检索课程介绍 ==&lt;br /&gt;
* [http://hlt.suda.edu.cn/~zhli/teach/ir-2019-spring/ir-introduction-v0.4.pdf PPT下载]&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
= 作业 2：单词计数 =&lt;br /&gt;
&lt;br /&gt;
* 2019.3.12&lt;br /&gt;
* 课件 [http://hlt.suda.edu.cn/~zhli/teach/ir-2019-spring/word-count.pdf PPT下载]&lt;br /&gt;
* 数据 [http://hlt.suda.edu.cn/~zhli/teach/ir-2019-spring/sample-en.txt txt下载]&lt;br /&gt;
&lt;br /&gt;
= 作业 1：最大匹配分词 = &lt;br /&gt;
* 2019.3.5&lt;br /&gt;
* 2019.3.19上机课前提交&lt;br /&gt;
*课件：前向最大匹配 PDF文件--[[文件:Word-seg-max-match.pdf]]；PPT文件--[[文件:Word-seg-max-match.zip]]&lt;br /&gt;
&lt;br /&gt;
*数据下载：&lt;br /&gt;
**字典：[[文件:dict.txt]] &lt;br /&gt;
**待分词：[[文件:sentence.txt]] &lt;br /&gt;
**正确答案：[[文件:answer.txt]]；&lt;br /&gt;
**模型预测结果：[[文件:out.txt]]&lt;br /&gt;
&lt;br /&gt;
*正确实验结果&lt;br /&gt;
**正确识别的词数：20263&lt;br /&gt;
**识别出的总体个数：20397&lt;br /&gt;
**测试集中的总体个数：20454&lt;br /&gt;
**正确率：0.99343&lt;br /&gt;
**召回率：0.99066&lt;br /&gt;
**F值：0.99204&lt;/div&gt;</summary>
		<author><name>Liying</name></author>
	</entry>
	<entry>
		<id>http://hlt.suda.edu.cn/index.php?title=Ir-2019-spring&amp;diff=838</id>
		<title>Ir-2019-spring</title>
		<link rel="alternate" type="text/html" href="http://hlt.suda.edu.cn/index.php?title=Ir-2019-spring&amp;diff=838"/>
		<updated>2019-03-19T02:25:00Z</updated>

		<summary type="html">&lt;p&gt;Liying：/* 作业 1：最大匹配分词 */&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;= 信息检索课程设计（Information Retrieval）Course Resources =&lt;br /&gt;
&lt;br /&gt;
Teacher: [http://hlt.suda.edu.cn/~zhli/en.html 李正华]&lt;br /&gt;
&lt;br /&gt;
Teach Assistant: &lt;br /&gt;
&lt;br /&gt;
2019春季学期&lt;br /&gt;
周二5-8节&lt;br /&gt;
理工楼247和238&lt;br /&gt;
&lt;br /&gt;
= 计算成绩的规则和说明 =&lt;br /&gt;
*实验作业:70-80分&lt;br /&gt;
** 一系列作业，每个作业10-20分&lt;br /&gt;
** 必须按照规定时间将实验报告+源代码，提交到csteaching&lt;br /&gt;
&lt;br /&gt;
* 期末面对面小测验：10分（待定）&lt;br /&gt;
** 考察课程相关的基础知识，看看作业是否是自己做的&lt;br /&gt;
&lt;br /&gt;
* 平时成绩：10-20分&lt;br /&gt;
** 不能迟到、早退，特殊情况必须请假，并带辅导员签字的假条；&lt;br /&gt;
** 点名时，如果发现名单上没有你的名字，及时提出&lt;br /&gt;
&lt;br /&gt;
= 提交作业说明 =&lt;br /&gt;
* 网址：[http://csteaching.suda.edu.cn csteaching]&lt;br /&gt;
* 在规定时间内提交作业，包含两部分&lt;br /&gt;
** 实验报告（word或pdf）&lt;br /&gt;
*** 认真填写个人信息、实验题目、实验内容等&lt;br /&gt;
*** 不要大段粘贴代码，最多可以粘贴核心的一小段代码&lt;br /&gt;
*** 写清楚自己的解决思路，尤其是遇到的难点和如何解决&lt;br /&gt;
*** 建议可以画流程图或者写伪代码&lt;br /&gt;
*** 将程序运行结果截图&lt;br /&gt;
** 附件（.zip压缩包）&lt;br /&gt;
*** 源代码&lt;br /&gt;
*** readme.txt文件：说明如何运行你的程序，需要什么环境，如windows或linux，python版本如python3.5&lt;br /&gt;
* 提交前自我检查&lt;br /&gt;
** 是否有包含readme.txt文件解释如何编译执行你的程序。如没有该文件，将减分&lt;br /&gt;
** 是否认真完成实验报告&lt;br /&gt;
** 是否可以按照readme.txt正确编译和运行程序&lt;br /&gt;
** 是否包含别人的代码&lt;br /&gt;
** 期末可能会用软件做自动抄袭检查&lt;br /&gt;
&lt;br /&gt;
== 实验报告word模板 ==&lt;br /&gt;
* [http://hlt.suda.edu.cn/~zhli/teach/ir-2019-spring/report.doc 下载]&lt;br /&gt;
&lt;br /&gt;
== 信息检索课程介绍 ==&lt;br /&gt;
* [http://hlt.suda.edu.cn/~zhli/teach/ir-2019-spring/ir-introduction-v0.4.pdf PPT下载]&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
= 作业 2：单词计数 =&lt;br /&gt;
&lt;br /&gt;
* 2019.3.12&lt;br /&gt;
* 课件 [http://hlt.suda.edu.cn/~zhli/teach/ir-2019-spring/word-count.pdf PPT下载]&lt;br /&gt;
* 数据 [http://hlt.suda.edu.cn/~zhli/teach/ir-2019-spring/sample-en.txt txt下载]&lt;br /&gt;
&lt;br /&gt;
= 作业 1：最大匹配分词 = &lt;br /&gt;
* 2019.3.5&lt;br /&gt;
* 2019.3.19上机课前提交&lt;br /&gt;
*课件：前向最大匹配 PDF文件--[[文件:Word-seg-max-match.pdf]]；PPT文件--[[文件:Word-seg-max-match.zip]]&lt;br /&gt;
&lt;br /&gt;
*数据下载：&lt;br /&gt;
**字典：[[文件:dict.txt]] &lt;br /&gt;
**待分词：[[文件:sentence.txt]] &lt;br /&gt;
**正确答案：[[文件:answer.txt]]；&lt;br /&gt;
**模型预测结果：[[文件:out.txt]]&lt;br /&gt;
&lt;br /&gt;
*正确实验结果&lt;br /&gt;
**正确识别的词数：20263&lt;br /&gt;
**识别出的总体个数：20397&lt;br /&gt;
**测试集中的总体个数：20454&lt;br /&gt;
**正确率：0.99343&lt;br /&gt;
**召回率：0.99066&lt;br /&gt;
**F值：0.99204&lt;br /&gt;
&lt;br /&gt;
= 作业 2：单词计数 =&lt;br /&gt;
&lt;br /&gt;
* 2019.3.12&lt;br /&gt;
* 课件 [http://hlt.suda.edu.cn/~zhli/teach/ir-2019-spring/word-count.pdf PPT下载]&lt;br /&gt;
* 数据 [http://hlt.suda.edu.cn/~zhli/teach/ir-2019-spring/sample-en.txt txt下载]&lt;/div&gt;</summary>
		<author><name>Liying</name></author>
	</entry>
	<entry>
		<id>http://hlt.suda.edu.cn/index.php?title=Ir-2019-spring&amp;diff=735</id>
		<title>Ir-2019-spring</title>
		<link rel="alternate" type="text/html" href="http://hlt.suda.edu.cn/index.php?title=Ir-2019-spring&amp;diff=735"/>
		<updated>2019-03-05T03:24:18Z</updated>

		<summary type="html">&lt;p&gt;Liying：/* 作业 1(2019.3.5) */&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;== 信息检索课程设计（Information Retrieval）Course Resources ==&lt;br /&gt;
&lt;br /&gt;
Teacher: [http://hlt.suda.edu.cn/~zhli/en.html 李正华]&lt;br /&gt;
&lt;br /&gt;
Teach Assistant: &lt;br /&gt;
&lt;br /&gt;
2019春季学期&lt;br /&gt;
&lt;br /&gt;
== 作业 1(2019.3.5) ==&lt;br /&gt;
&lt;br /&gt;
*中文分词课件：前向最大匹配 PDF文件--[[文件:Word-seg-max-match.pdf]]；PPT文件--[[文件:Word-seg-max-match.zip]]&lt;br /&gt;
&lt;br /&gt;
*数据下载：[[文件:dict.txt]] ； [[文件:sentence.txt]] ；[[文件:answer.txt]]&lt;/div&gt;</summary>
		<author><name>Liying</name></author>
	</entry>
	<entry>
		<id>http://hlt.suda.edu.cn/index.php?title=%E6%96%87%E4%BB%B6:Word-seg-max-match.zip&amp;diff=734</id>
		<title>文件:Word-seg-max-match.zip</title>
		<link rel="alternate" type="text/html" href="http://hlt.suda.edu.cn/index.php?title=%E6%96%87%E4%BB%B6:Word-seg-max-match.zip&amp;diff=734"/>
		<updated>2019-03-05T03:22:58Z</updated>

		<summary type="html">&lt;p&gt;Liying：&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;&lt;/div&gt;</summary>
		<author><name>Liying</name></author>
	</entry>
	<entry>
		<id>http://hlt.suda.edu.cn/index.php?title=Ir-2019-spring&amp;diff=733</id>
		<title>Ir-2019-spring</title>
		<link rel="alternate" type="text/html" href="http://hlt.suda.edu.cn/index.php?title=Ir-2019-spring&amp;diff=733"/>
		<updated>2019-03-05T03:19:27Z</updated>

		<summary type="html">&lt;p&gt;Liying：/* Course 1(2019.3.5) */&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;== 信息检索课程设计（Information Retrieval）Course Resources ==&lt;br /&gt;
&lt;br /&gt;
Teacher: [http://hlt.suda.edu.cn/~zhli/en.html 李正华]&lt;br /&gt;
&lt;br /&gt;
Teach Assistant: &lt;br /&gt;
&lt;br /&gt;
2019春季学期&lt;br /&gt;
&lt;br /&gt;
== 作业 1(2019.3.5) ==&lt;br /&gt;
&lt;br /&gt;
*中文分词课件：前向最大匹配 [[文件:Word-seg-max-match.pdf]]&lt;br /&gt;
&lt;br /&gt;
*数据下载：[[文件:dict.txt]] ； [[文件:sentence.txt]] ；[[文件:answer.txt]]&lt;/div&gt;</summary>
		<author><name>Liying</name></author>
	</entry>
	<entry>
		<id>http://hlt.suda.edu.cn/index.php?title=Ir-2019-spring&amp;diff=732</id>
		<title>Ir-2019-spring</title>
		<link rel="alternate" type="text/html" href="http://hlt.suda.edu.cn/index.php?title=Ir-2019-spring&amp;diff=732"/>
		<updated>2019-03-05T02:46:41Z</updated>

		<summary type="html">&lt;p&gt;Liying：/* Course 1(2019.3.5) */&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;== 信息检索课程设计（Information Retrieval）Course Resources ==&lt;br /&gt;
&lt;br /&gt;
Teacher: [http://hlt.suda.edu.cn/~zhli/en.html 李正华]&lt;br /&gt;
&lt;br /&gt;
Teach Assistant: &lt;br /&gt;
&lt;br /&gt;
2019春季学期&lt;br /&gt;
&lt;br /&gt;
== Course 1(2019.3.5) ==&lt;br /&gt;
&lt;br /&gt;
*中文分词：前向最大匹配 [[文件:Word-seg-max-match.pdf]]&lt;br /&gt;
&lt;br /&gt;
*数据下载：[[文件:dict.txt]] ； [[文件:sentence.txt]] ；[[文件:answer.txt]]&lt;/div&gt;</summary>
		<author><name>Liying</name></author>
	</entry>
	<entry>
		<id>http://hlt.suda.edu.cn/index.php?title=Ir-2019-spring&amp;diff=731</id>
		<title>Ir-2019-spring</title>
		<link rel="alternate" type="text/html" href="http://hlt.suda.edu.cn/index.php?title=Ir-2019-spring&amp;diff=731"/>
		<updated>2019-03-05T02:46:19Z</updated>

		<summary type="html">&lt;p&gt;Liying：/* Course 1(2019.3.5) */&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;== 信息检索课程设计（Information Retrieval）Course Resources ==&lt;br /&gt;
&lt;br /&gt;
Teacher: [http://hlt.suda.edu.cn/~zhli/en.html 李正华]&lt;br /&gt;
&lt;br /&gt;
Teach Assistant: &lt;br /&gt;
&lt;br /&gt;
2019春季学期&lt;br /&gt;
&lt;br /&gt;
== Course 1(2019.3.5) ==&lt;br /&gt;
&lt;br /&gt;
*中文分词：前向最大匹配 [[文件:Word-seg-max-match.pdf word-seg-max-match]]&lt;br /&gt;
&lt;br /&gt;
*数据下载：[[文件:dict.txt]] ； [[文件:sentence.txt]] ；[[文件:answer.txt]]&lt;/div&gt;</summary>
		<author><name>Liying</name></author>
	</entry>
	<entry>
		<id>http://hlt.suda.edu.cn/index.php?title=Ir-2019-spring&amp;diff=730</id>
		<title>Ir-2019-spring</title>
		<link rel="alternate" type="text/html" href="http://hlt.suda.edu.cn/index.php?title=Ir-2019-spring&amp;diff=730"/>
		<updated>2019-03-05T02:41:25Z</updated>

		<summary type="html">&lt;p&gt;Liying：/* Course 1(2019.3.5) */&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;== 信息检索课程设计（Information Retrieval）Course Resources ==&lt;br /&gt;
&lt;br /&gt;
Teacher: [http://hlt.suda.edu.cn/~zhli/en.html 李正华]&lt;br /&gt;
&lt;br /&gt;
Teach Assistant: &lt;br /&gt;
&lt;br /&gt;
2019春季学期&lt;br /&gt;
&lt;br /&gt;
== Course 1(2019.3.5) ==&lt;br /&gt;
&lt;br /&gt;
*中文分词：前向最大匹配 [[文件:Word-seg-max-match.pdf]]&lt;br /&gt;
&lt;br /&gt;
*数据下载：[[文件:dict.txt]] ； [[文件:sentence.txt]] ；[[文件:answer.txt]]&lt;/div&gt;</summary>
		<author><name>Liying</name></author>
	</entry>
</feed>