<?xml version="1.0"?>
<feed xmlns="http://www.w3.org/2005/Atom" xml:lang="zh-Hans-CN">
	<id>http://hlt.suda.edu.cn/api.php?action=feedcontributions&amp;feedformat=atom&amp;user=Zhli</id>
	<title>SUDA-HLT - 用户贡献 [zh-cn]</title>
	<link rel="self" type="application/atom+xml" href="http://hlt.suda.edu.cn/api.php?action=feedcontributions&amp;feedformat=atom&amp;user=Zhli"/>
	<link rel="alternate" type="text/html" href="http://hlt.suda.edu.cn/index.php/%E7%89%B9%E6%AE%8A:%E7%94%A8%E6%88%B7%E8%B4%A1%E7%8C%AE/Zhli"/>
	<updated>2026-06-13T06:38:35Z</updated>
	<subtitle>用户贡献</subtitle>
	<generator>MediaWiki 1.35.2</generator>
	<entry>
		<id>http://hlt.suda.edu.cn/index.php?title=What-i-believe-Einstein&amp;diff=6220</id>
		<title>What-i-believe-Einstein</title>
		<link rel="alternate" type="text/html" href="http://hlt.suda.edu.cn/index.php?title=What-i-believe-Einstein&amp;diff=6220"/>
		<updated>2026-06-02T03:10:00Z</updated>

		<summary type="html">&lt;p&gt;Zhli：&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;* 以下是爱因斯坦 '''《我的信仰》（What I Believe）''' 的原文。该文写于1930年夏天，最初发表于《论坛与世纪》（''Forum and Century''）杂志第84卷。&lt;br /&gt;
&lt;br /&gt;
== What I Believe ==&lt;br /&gt;
* By Albert Einstein&lt;br /&gt;
&lt;br /&gt;
How strange is the lot of us mortals! Each of us is here for a brief sojourn; for what purpose he knows not, though he sometimes thinks he senses it. But without deeper reflection one knows from daily life that one exists for other people—first of all for those upon whose smiles and well-being our own happiness is wholly dependent, and then for the many, unknown to us, to whose destinies we are bound by the ties of sympathy. A hundred times every day I remind myself that my inner and outer life are based on the labors of other men, living and dead, and that I must exert myself in order to give in the same measure as I have received and am still receiving. I am strongly drawn to a frugal life and am often oppressively aware that I am engrossing an undue amount of the labor of my fellow-men. I regard class distinctions as unjustified and, in the last resort, based on force. I also believe that a simple and unassuming life is good for everybody, physically and mentally.&lt;br /&gt;
&lt;br /&gt;
I do not at all believe in human freedom in the philosophical sense. Everybody acts not only under external compulsion but also in accordance with inner necessity. Schopenhauer's saying, &amp;quot;A man can do what he wants, but not want what he wants,&amp;quot; has been a very real inspiration to me since my youth; it has been a continual consolation in the face of life's hardships, my own and others', and an unfailing well-spring of tolerance. This realization mercifully mitigates the easily paralyzing sense of responsibility and prevents us from taking ourselves and other people all too seriously; it is conducive to a view of life which, in particular, gives humor its due.&lt;br /&gt;
&lt;br /&gt;
To inquire after the meaning or object of one's own existence or that of all creatures has always seemed to me absurd from an objective point of view. And yet everybody has certain ideals which determine the direction of his endeavors and his judgments. In this sense I have never looked upon ease and happiness as ends in themselves—this ethical basis I call the ideal of a pigsty. The ideals which have lighted my way, and time after time have given me new courage to face life cheerfully, have been Kindness, Beauty, and Truth. Without the sense of kinship with men of like mind, without the occupation with the objective world, the eternally unattainable in the field of art and scientific endeavors, life would have seemed to me empty. The trite objects of human efforts—possessions, outward success, luxury—have always seemed to me contemptible.&lt;br /&gt;
&lt;br /&gt;
My passionate sense of social justice and social responsibility has always contrasted oddly with my pronounced lack of need for direct contact with other human beings and human communities. I am truly a &amp;quot;lone traveler&amp;quot; and have never belonged to my country, my home, my friend, or even my immediate family, with my whole heart; in the face of all these ties, I have never lost a sense of distance and a need for solitude—feelings which increase with the years. One becomes sharply aware, but without regret, of the limits of mutual understanding and consonance with other people. No doubt, such a person loses some of his innocence and unconcern; on the other hand, he is largely independent of the opinions, habits, and judgments of his fellows and avoids the temptation to build his inner equilibrium upon such insecure foundations.&lt;br /&gt;
&lt;br /&gt;
My political ideal is democracy. Let every man be respected as an individual and no man idolized. It is an irony of fate that I myself have been the recipient of excessive admiration and reverence from my fellow-beings, through no fault, and no merit, of my own. The cause of this may well be the desire, unattainable for many, to understand the few ideas to which I have with my feeble powers attained through ceaseless struggle. I have an unequivocal belief that the really valuable thing in the sense of achievement is not the political state but the creative, sentient individual, the personality; that it alone creates the noble and sublime, while the herd as such is dull in thought and dull in feeling.&lt;br /&gt;
&lt;br /&gt;
Speaking of the herd, I am notably referring to the worst of its manifestations, the military system, which I loathe. A person who can take pleasure in marching in rank and file to the strains of a band is beneath my contempt; he received his great brain by mistake—for him the spinal cord would have been amply sufficient. This plague spot of civilization ought to be abolished as soon as possible. Heroism on command, senseless violence, and all the loathsome nonsense that goes by the name of patriotism—how I hate them! War seems to me a mean, contemptible thing; I would rather be hacked in pieces than take part in such an abominable business. And yet, I still believe that, but for the pernicious influence of commercial and political interests which systematically corrupt the health of the people through schools and the press, the horror of war would have disappeared long ago.&lt;br /&gt;
&lt;br /&gt;
The most beautiful experience we can have is the mysterious. It is the fundamental emotion that stands at the cradle of true art and true science. Whoever does not know it and can no longer wonder, no longer marvel, is as good as dead, and his eyes are dimmed. It was the experience of mystery—even if mixed with fear—that engendered religion. A knowledge of the existence of something we cannot penetrate, of the manifestations of the profoundest reason and the most radiant beauty, which are only accessible to our reason in their most elementary forms—it is this knowledge and this emotion that constitute the truly religious attitude; in this sense, and only in this sense, I am a deeply religious man. I cannot conceive of a God who rewards and punishes his creatures, or has a will of the kind that we experience in ourselves. Neither can I nor would I want to conceive of an individual that survives his physical death; let feeble souls, from fear or absurd egoism, cherish such thoughts. I am satisfied with the mystery of the eternity of life and with the awareness and a glimpse of the marvelous structure of the existing world, together with the devoted striving to comprehend a portion, be it ever so tiny, of the Reason that manifests itself in nature.&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
== 中文对照译文 ==&lt;br /&gt;
&lt;br /&gt;
* 许良英、赵中立、张宣三编译，选自商务印书馆《爱因斯坦文集》第三卷&lt;br /&gt;
&lt;br /&gt;
我们这些总有一死的人的命运是多么奇特呀！我们每个人在这个世界上都只作一个短暂的逗留；目的何在，却无所知，尽管有时自以为对此若有所感。但是，不必深思，只要从日常生活就可以明白：人是为别人而生存的——首先是为那样一些人，他们的喜悦和健康关系着我们自己的全部幸福；然后是为许多我们所不认识的人，他们的命运通过同情的纽带同我们密切结合在一起。我每天上百次地提醒自己：我的精神生活和物质生活都依靠着别人（包括生者和死者）的劳动，我必须尽力以同样的分量来报偿我所领受了的和至今还在领受着的东西。我强烈地向往着俭朴的生活，并且时常为发觉自己占用了同胞的过多劳动而难以忍受。我认为阶级的区分是不合理的，它最后所凭借的是以暴力为根据。我也相信，简单淳朴的生活，无论在身体上还是在精神上，对每个人都是有益的。&lt;br /&gt;
&lt;br /&gt;
我完全不相信人类会有那种在哲学意义上的自由。每一个人的行为，不仅受着外界的强迫，而且还要适应内心的必然。叔本华说：“人虽然能够做他所想做的，但不能要他所想要的。”这句话从我青年时代起，就对我是一个真正的启示；在我自己和别人生活面临困难的时候，它总是使我们得到安慰，并且永远是宽容的源泉。这种体会可以宽大为怀地减轻那种使人气馁的责任感，也可以防止我们过于严肃地对待自己和别人；它还导致一种特别给幽默以应有地位的人生观。&lt;br /&gt;
&lt;br /&gt;
要追究一个人自己或一切生物生存的意义或目的，从客观的观点看来，我总觉得是愚蠢可笑的。可是每个人都有一定的理想，这种理想决定着他的努力和判断的方向。就在这个意义上，我从来不把安逸和享乐看作是生活目的本身——这种伦理基础，我叫它猪栏的理想。照亮我的道路，并且不断地给我新的勇气去愉快地正视生活的理想，是真、善和美。要是没有志同道合者之间的亲切感情，要不是全神贯注于客观世界——那个在艺术和科学工作领域里永远达不到的对象，那么在我看来，生活就会是空虚的。人们所努力追求的庸俗的目标——财产、虚荣、奢侈的生活——我总觉得都是可鄙的。&lt;br /&gt;
&lt;br /&gt;
我对社会正义和社会责任的强烈感觉，同我显然的对别人和社会直接接触的淡漠，两者总是形成古怪的对照。我实在是一个“孤独的旅客”，我未曾全心全意地属于我的国家，我的家庭，我的朋友，甚至我最接近的亲人；在所有这些关系面前，我总是感觉到有一定距离并且需要保持孤独——而这种感受正与年俱增。人们会清楚地发觉，同别人的相互了解和协调一致是有限度的，但这不足惋惜。这样的人无疑有点失去他的天真无邪和无忧无虑的心境；但另一方面，他却能够在很大程度上不为别人的意见、习惯和判断所左右，并且能够不受诱惑要去把他的内心平衡在这样一些不可靠的基础之上。&lt;br /&gt;
&lt;br /&gt;
我的政治理想是民主主义。让每一个人都作为个人而受到尊重，而不让任何人成为崇拜的偶像。我自己受到了人们过分的赞扬和尊敬，这不是由于我自己的过错，也不是由于我自己的功劳，而实在是一种命运的嘲弄。其原因大概在于人们有一种愿望，想理解我以自己的微薄绵力通过不断的斗争所获得的少数几个观念，而这种愿望有很多人却未能实现。我完全明白，一个组织要实现它的目的，就必须有一个人去思考，去指挥，并且全面负担起责任来。但是被领导的人不应当受到压迫，他们必须有可能来选择自己的领袖。在我看来，强迫的专制制度很快就会腐化堕落。因为暴力所招引来的总是一些品德低劣的人，而且我相信，天才的暴君总是由无赖来继承，这是一条千古不易的规律。就是这个缘故，我总是强烈地反对今天我们在意大利和俄国所见到的那种制度。像欧洲今天所存在的情况，使得民主形式受到了怀疑，这不能归咎于民主原则本身，而是由于政府的不稳定和选举制度中与个人无关的特征。我相信美国在这方面已经找到了正确的道路。他们选出了一个任期足够长的总统，他有充分的权力来真正履行他的职责。另一方面，在德国的政治制度中，我所重视的是，它为救济患病或贫困的人作出了比较广泛的规定。在人生的丰富多彩的表演中，我觉得真正可贵的，不是政治上的国家，而是有创造性的、有感情的个人，是人格；只有个人才能创造出高尚的和卓越的东西，而群众本身在思想上总是迟钝的，在感觉上也总是迟钝的。&lt;br /&gt;
&lt;br /&gt;
讲到这里，我想起了群众生活中最坏的一种表现，那就是使我厌恶的军事制度。一个人能够洋洋得意地随着军乐队在四列纵队里行进，单凭这一点就足以使我对他轻视。他所以长了一个大脑，只是出于误会；单单一根脊髓就可满足他的全部需要了。文明国家的这种罪恶的渊薮，应当尽快加以消灭。由命令而产生的勇敢行为，毫无意义的暴行，以及在爱国主义名义下一切可恶的胡闹，所有这些都使我深恶痛绝！在我看来，战争是多么卑鄙、下流！我宁愿被千刀万剐，也不愿参预这种可憎的勾当。尽管如此，我对人类的评价还是十分高的，我相信，要是人民的健康感情没有被那些通过学校和报纸而起作用的商业利益和政治利益蓄意进行败坏，那么战争这个妖魔早就该绝迹了。&lt;br /&gt;
&lt;br /&gt;
我们所能有的最美好的经验是奥秘的经验。它是坚守在真正艺术和真正科学发源地上的基本感情。谁要是体验不到它，谁要是不再有好奇心也不再有惊讶的感觉，他就无异于行尸走肉，他的眼睛是迷糊不清的。就是这样奥秘的经验——虽然掺杂着恐怖——产生了宗教。我们认识到有某种为我们所不能洞察的东西存在，感觉到那种只能以其最原始的形式为我们感受到的最深奥的理性和最灿烂的美——正是这种认识和这种情感构成了真正的宗教感情；在这个意义上，而且也只是在这个意义上，我才是一个具有深挚的宗教感情的人。我无法想象一个会对自己的创造物加以赏罚的上帝，也无法想象它会有像在我们自己身上所体验到的那样一种意志。我不能也不愿去想象一个人在肉体死亡以后还会继续活着；让那些脆弱的灵魂，由于恐惧或者由于可笑的唯我论，去拿这种思想当宝贝吧！我自己只求满足于生命永恒的奥秘，满足于觉察现实世界的神奇的结构，窥见它的一鳞半爪，并且以诚挚的努力去领悟在自然界中显示出来的那个理性的一部分，即使只是其极小的一部分，我也就心满意足了。&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
== 版本说明 ==&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
*德文标题: Mein Glaubensbekenntnis &lt;br /&gt;
*写作时间: 1930年夏天 &lt;br /&gt;
* 写作地点: 柏林郊外卡普特（Caputh）消夏小屋 &lt;br /&gt;
* 首次发表: 《论坛与世纪》（''Forum and Century''）第84卷，193-194页，1930年10月 &lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
该文也以《我的世界观》（''The World As I See It'' / ''Mein Weltbild''）为题收录于爱因斯坦的多部文集中。文中引用的叔本华格言“人虽然能够做他所想做的，但不能要他所想要的”是理解爱因斯坦人生观的关键线索。&lt;/div&gt;</summary>
		<author><name>Zhli</name></author>
	</entry>
	<entry>
		<id>http://hlt.suda.edu.cn/index.php?title=What-i-believe-Einstein&amp;diff=6219</id>
		<title>What-i-believe-Einstein</title>
		<link rel="alternate" type="text/html" href="http://hlt.suda.edu.cn/index.php?title=What-i-believe-Einstein&amp;diff=6219"/>
		<updated>2026-06-02T03:09:39Z</updated>

		<summary type="html">&lt;p&gt;Zhli：/* 版本说明 */&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;&lt;br /&gt;
* 以下是爱因斯坦 '''《我的信仰》（What I Believe）''' 的原文。该文写于1930年夏天，最初发表于《论坛与世纪》（''Forum and Century''）杂志第84卷。&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
== What I Believe ==&lt;br /&gt;
* By Albert Einstein&lt;br /&gt;
&lt;br /&gt;
How strange is the lot of us mortals! Each of us is here for a brief sojourn; for what purpose he knows not, though he sometimes thinks he senses it. But without deeper reflection one knows from daily life that one exists for other people—first of all for those upon whose smiles and well-being our own happiness is wholly dependent, and then for the many, unknown to us, to whose destinies we are bound by the ties of sympathy. A hundred times every day I remind myself that my inner and outer life are based on the labors of other men, living and dead, and that I must exert myself in order to give in the same measure as I have received and am still receiving. I am strongly drawn to a frugal life and am often oppressively aware that I am engrossing an undue amount of the labor of my fellow-men. I regard class distinctions as unjustified and, in the last resort, based on force. I also believe that a simple and unassuming life is good for everybody, physically and mentally.&lt;br /&gt;
&lt;br /&gt;
I do not at all believe in human freedom in the philosophical sense. Everybody acts not only under external compulsion but also in accordance with inner necessity. Schopenhauer's saying, &amp;quot;A man can do what he wants, but not want what he wants,&amp;quot; has been a very real inspiration to me since my youth; it has been a continual consolation in the face of life's hardships, my own and others', and an unfailing well-spring of tolerance. This realization mercifully mitigates the easily paralyzing sense of responsibility and prevents us from taking ourselves and other people all too seriously; it is conducive to a view of life which, in particular, gives humor its due.&lt;br /&gt;
&lt;br /&gt;
To inquire after the meaning or object of one's own existence or that of all creatures has always seemed to me absurd from an objective point of view. And yet everybody has certain ideals which determine the direction of his endeavors and his judgments. In this sense I have never looked upon ease and happiness as ends in themselves—this ethical basis I call the ideal of a pigsty. The ideals which have lighted my way, and time after time have given me new courage to face life cheerfully, have been Kindness, Beauty, and Truth. Without the sense of kinship with men of like mind, without the occupation with the objective world, the eternally unattainable in the field of art and scientific endeavors, life would have seemed to me empty. The trite objects of human efforts—possessions, outward success, luxury—have always seemed to me contemptible.&lt;br /&gt;
&lt;br /&gt;
My passionate sense of social justice and social responsibility has always contrasted oddly with my pronounced lack of need for direct contact with other human beings and human communities. I am truly a &amp;quot;lone traveler&amp;quot; and have never belonged to my country, my home, my friend, or even my immediate family, with my whole heart; in the face of all these ties, I have never lost a sense of distance and a need for solitude—feelings which increase with the years. One becomes sharply aware, but without regret, of the limits of mutual understanding and consonance with other people. No doubt, such a person loses some of his innocence and unconcern; on the other hand, he is largely independent of the opinions, habits, and judgments of his fellows and avoids the temptation to build his inner equilibrium upon such insecure foundations.&lt;br /&gt;
&lt;br /&gt;
My political ideal is democracy. Let every man be respected as an individual and no man idolized. It is an irony of fate that I myself have been the recipient of excessive admiration and reverence from my fellow-beings, through no fault, and no merit, of my own. The cause of this may well be the desire, unattainable for many, to understand the few ideas to which I have with my feeble powers attained through ceaseless struggle. I have an unequivocal belief that the really valuable thing in the sense of achievement is not the political state but the creative, sentient individual, the personality; that it alone creates the noble and sublime, while the herd as such is dull in thought and dull in feeling.&lt;br /&gt;
&lt;br /&gt;
Speaking of the herd, I am notably referring to the worst of its manifestations, the military system, which I loathe. A person who can take pleasure in marching in rank and file to the strains of a band is beneath my contempt; he received his great brain by mistake—for him the spinal cord would have been amply sufficient. This plague spot of civilization ought to be abolished as soon as possible. Heroism on command, senseless violence, and all the loathsome nonsense that goes by the name of patriotism—how I hate them! War seems to me a mean, contemptible thing; I would rather be hacked in pieces than take part in such an abominable business. And yet, I still believe that, but for the pernicious influence of commercial and political interests which systematically corrupt the health of the people through schools and the press, the horror of war would have disappeared long ago.&lt;br /&gt;
&lt;br /&gt;
The most beautiful experience we can have is the mysterious. It is the fundamental emotion that stands at the cradle of true art and true science. Whoever does not know it and can no longer wonder, no longer marvel, is as good as dead, and his eyes are dimmed. It was the experience of mystery—even if mixed with fear—that engendered religion. A knowledge of the existence of something we cannot penetrate, of the manifestations of the profoundest reason and the most radiant beauty, which are only accessible to our reason in their most elementary forms—it is this knowledge and this emotion that constitute the truly religious attitude; in this sense, and only in this sense, I am a deeply religious man. I cannot conceive of a God who rewards and punishes his creatures, or has a will of the kind that we experience in ourselves. Neither can I nor would I want to conceive of an individual that survives his physical death; let feeble souls, from fear or absurd egoism, cherish such thoughts. I am satisfied with the mystery of the eternity of life and with the awareness and a glimpse of the marvelous structure of the existing world, together with the devoted striving to comprehend a portion, be it ever so tiny, of the Reason that manifests itself in nature.&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
== 中文对照译文 ==&lt;br /&gt;
&lt;br /&gt;
* 许良英、赵中立、张宣三编译，选自商务印书馆《爱因斯坦文集》第三卷&lt;br /&gt;
&lt;br /&gt;
我们这些总有一死的人的命运是多么奇特呀！我们每个人在这个世界上都只作一个短暂的逗留；目的何在，却无所知，尽管有时自以为对此若有所感。但是，不必深思，只要从日常生活就可以明白：人是为别人而生存的——首先是为那样一些人，他们的喜悦和健康关系着我们自己的全部幸福；然后是为许多我们所不认识的人，他们的命运通过同情的纽带同我们密切结合在一起。我每天上百次地提醒自己：我的精神生活和物质生活都依靠着别人（包括生者和死者）的劳动，我必须尽力以同样的分量来报偿我所领受了的和至今还在领受着的东西。我强烈地向往着俭朴的生活，并且时常为发觉自己占用了同胞的过多劳动而难以忍受。我认为阶级的区分是不合理的，它最后所凭借的是以暴力为根据。我也相信，简单淳朴的生活，无论在身体上还是在精神上，对每个人都是有益的。&lt;br /&gt;
&lt;br /&gt;
我完全不相信人类会有那种在哲学意义上的自由。每一个人的行为，不仅受着外界的强迫，而且还要适应内心的必然。叔本华说：“人虽然能够做他所想做的，但不能要他所想要的。”这句话从我青年时代起，就对我是一个真正的启示；在我自己和别人生活面临困难的时候，它总是使我们得到安慰，并且永远是宽容的源泉。这种体会可以宽大为怀地减轻那种使人气馁的责任感，也可以防止我们过于严肃地对待自己和别人；它还导致一种特别给幽默以应有地位的人生观。&lt;br /&gt;
&lt;br /&gt;
要追究一个人自己或一切生物生存的意义或目的，从客观的观点看来，我总觉得是愚蠢可笑的。可是每个人都有一定的理想，这种理想决定着他的努力和判断的方向。就在这个意义上，我从来不把安逸和享乐看作是生活目的本身——这种伦理基础，我叫它猪栏的理想。照亮我的道路，并且不断地给我新的勇气去愉快地正视生活的理想，是真、善和美。要是没有志同道合者之间的亲切感情，要不是全神贯注于客观世界——那个在艺术和科学工作领域里永远达不到的对象，那么在我看来，生活就会是空虚的。人们所努力追求的庸俗的目标——财产、虚荣、奢侈的生活——我总觉得都是可鄙的。&lt;br /&gt;
&lt;br /&gt;
我对社会正义和社会责任的强烈感觉，同我显然的对别人和社会直接接触的淡漠，两者总是形成古怪的对照。我实在是一个“孤独的旅客”，我未曾全心全意地属于我的国家，我的家庭，我的朋友，甚至我最接近的亲人；在所有这些关系面前，我总是感觉到有一定距离并且需要保持孤独——而这种感受正与年俱增。人们会清楚地发觉，同别人的相互了解和协调一致是有限度的，但这不足惋惜。这样的人无疑有点失去他的天真无邪和无忧无虑的心境；但另一方面，他却能够在很大程度上不为别人的意见、习惯和判断所左右，并且能够不受诱惑要去把他的内心平衡在这样一些不可靠的基础之上。&lt;br /&gt;
&lt;br /&gt;
我的政治理想是民主主义。让每一个人都作为个人而受到尊重，而不让任何人成为崇拜的偶像。我自己受到了人们过分的赞扬和尊敬，这不是由于我自己的过错，也不是由于我自己的功劳，而实在是一种命运的嘲弄。其原因大概在于人们有一种愿望，想理解我以自己的微薄绵力通过不断的斗争所获得的少数几个观念，而这种愿望有很多人却未能实现。我完全明白，一个组织要实现它的目的，就必须有一个人去思考，去指挥，并且全面负担起责任来。但是被领导的人不应当受到压迫，他们必须有可能来选择自己的领袖。在我看来，强迫的专制制度很快就会腐化堕落。因为暴力所招引来的总是一些品德低劣的人，而且我相信，天才的暴君总是由无赖来继承，这是一条千古不易的规律。就是这个缘故，我总是强烈地反对今天我们在意大利和俄国所见到的那种制度。像欧洲今天所存在的情况，使得民主形式受到了怀疑，这不能归咎于民主原则本身，而是由于政府的不稳定和选举制度中与个人无关的特征。我相信美国在这方面已经找到了正确的道路。他们选出了一个任期足够长的总统，他有充分的权力来真正履行他的职责。另一方面，在德国的政治制度中，我所重视的是，它为救济患病或贫困的人作出了比较广泛的规定。在人生的丰富多彩的表演中，我觉得真正可贵的，不是政治上的国家，而是有创造性的、有感情的个人，是人格；只有个人才能创造出高尚的和卓越的东西，而群众本身在思想上总是迟钝的，在感觉上也总是迟钝的。&lt;br /&gt;
&lt;br /&gt;
讲到这里，我想起了群众生活中最坏的一种表现，那就是使我厌恶的军事制度。一个人能够洋洋得意地随着军乐队在四列纵队里行进，单凭这一点就足以使我对他轻视。他所以长了一个大脑，只是出于误会；单单一根脊髓就可满足他的全部需要了。文明国家的这种罪恶的渊薮，应当尽快加以消灭。由命令而产生的勇敢行为，毫无意义的暴行，以及在爱国主义名义下一切可恶的胡闹，所有这些都使我深恶痛绝！在我看来，战争是多么卑鄙、下流！我宁愿被千刀万剐，也不愿参预这种可憎的勾当。尽管如此，我对人类的评价还是十分高的，我相信，要是人民的健康感情没有被那些通过学校和报纸而起作用的商业利益和政治利益蓄意进行败坏，那么战争这个妖魔早就该绝迹了。&lt;br /&gt;
&lt;br /&gt;
我们所能有的最美好的经验是奥秘的经验。它是坚守在真正艺术和真正科学发源地上的基本感情。谁要是体验不到它，谁要是不再有好奇心也不再有惊讶的感觉，他就无异于行尸走肉，他的眼睛是迷糊不清的。就是这样奥秘的经验——虽然掺杂着恐怖——产生了宗教。我们认识到有某种为我们所不能洞察的东西存在，感觉到那种只能以其最原始的形式为我们感受到的最深奥的理性和最灿烂的美——正是这种认识和这种情感构成了真正的宗教感情；在这个意义上，而且也只是在这个意义上，我才是一个具有深挚的宗教感情的人。我无法想象一个会对自己的创造物加以赏罚的上帝，也无法想象它会有像在我们自己身上所体验到的那样一种意志。我不能也不愿去想象一个人在肉体死亡以后还会继续活着；让那些脆弱的灵魂，由于恐惧或者由于可笑的唯我论，去拿这种思想当宝贝吧！我自己只求满足于生命永恒的奥秘，满足于觉察现实世界的神奇的结构，窥见它的一鳞半爪，并且以诚挚的努力去领悟在自然界中显示出来的那个理性的一部分，即使只是其极小的一部分，我也就心满意足了。&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
== 版本说明 ==&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
*德文标题: Mein Glaubensbekenntnis &lt;br /&gt;
*写作时间: 1930年夏天 &lt;br /&gt;
* 写作地点: 柏林郊外卡普特（Caputh）消夏小屋 &lt;br /&gt;
* 首次发表: 《论坛与世纪》（''Forum and Century''）第84卷，193-194页，1930年10月 &lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
该文也以《我的世界观》（''The World As I See It'' / ''Mein Weltbild''）为题收录于爱因斯坦的多部文集中。文中引用的叔本华格言“人虽然能够做他所想做的，但不能要他所想要的”是理解爱因斯坦人生观的关键线索。&lt;/div&gt;</summary>
		<author><name>Zhli</name></author>
	</entry>
	<entry>
		<id>http://hlt.suda.edu.cn/index.php?title=What-i-believe-Einstein&amp;diff=6218</id>
		<title>What-i-believe-Einstein</title>
		<link rel="alternate" type="text/html" href="http://hlt.suda.edu.cn/index.php?title=What-i-believe-Einstein&amp;diff=6218"/>
		<updated>2026-06-02T03:09:30Z</updated>

		<summary type="html">&lt;p&gt;Zhli：/* 版本说明 */&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;&lt;br /&gt;
* 以下是爱因斯坦 '''《我的信仰》（What I Believe）''' 的原文。该文写于1930年夏天，最初发表于《论坛与世纪》（''Forum and Century''）杂志第84卷。&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
== What I Believe ==&lt;br /&gt;
* By Albert Einstein&lt;br /&gt;
&lt;br /&gt;
How strange is the lot of us mortals! Each of us is here for a brief sojourn; for what purpose he knows not, though he sometimes thinks he senses it. But without deeper reflection one knows from daily life that one exists for other people—first of all for those upon whose smiles and well-being our own happiness is wholly dependent, and then for the many, unknown to us, to whose destinies we are bound by the ties of sympathy. A hundred times every day I remind myself that my inner and outer life are based on the labors of other men, living and dead, and that I must exert myself in order to give in the same measure as I have received and am still receiving. I am strongly drawn to a frugal life and am often oppressively aware that I am engrossing an undue amount of the labor of my fellow-men. I regard class distinctions as unjustified and, in the last resort, based on force. I also believe that a simple and unassuming life is good for everybody, physically and mentally.&lt;br /&gt;
&lt;br /&gt;
I do not at all believe in human freedom in the philosophical sense. Everybody acts not only under external compulsion but also in accordance with inner necessity. Schopenhauer's saying, &amp;quot;A man can do what he wants, but not want what he wants,&amp;quot; has been a very real inspiration to me since my youth; it has been a continual consolation in the face of life's hardships, my own and others', and an unfailing well-spring of tolerance. This realization mercifully mitigates the easily paralyzing sense of responsibility and prevents us from taking ourselves and other people all too seriously; it is conducive to a view of life which, in particular, gives humor its due.&lt;br /&gt;
&lt;br /&gt;
To inquire after the meaning or object of one's own existence or that of all creatures has always seemed to me absurd from an objective point of view. And yet everybody has certain ideals which determine the direction of his endeavors and his judgments. In this sense I have never looked upon ease and happiness as ends in themselves—this ethical basis I call the ideal of a pigsty. The ideals which have lighted my way, and time after time have given me new courage to face life cheerfully, have been Kindness, Beauty, and Truth. Without the sense of kinship with men of like mind, without the occupation with the objective world, the eternally unattainable in the field of art and scientific endeavors, life would have seemed to me empty. The trite objects of human efforts—possessions, outward success, luxury—have always seemed to me contemptible.&lt;br /&gt;
&lt;br /&gt;
My passionate sense of social justice and social responsibility has always contrasted oddly with my pronounced lack of need for direct contact with other human beings and human communities. I am truly a &amp;quot;lone traveler&amp;quot; and have never belonged to my country, my home, my friend, or even my immediate family, with my whole heart; in the face of all these ties, I have never lost a sense of distance and a need for solitude—feelings which increase with the years. One becomes sharply aware, but without regret, of the limits of mutual understanding and consonance with other people. No doubt, such a person loses some of his innocence and unconcern; on the other hand, he is largely independent of the opinions, habits, and judgments of his fellows and avoids the temptation to build his inner equilibrium upon such insecure foundations.&lt;br /&gt;
&lt;br /&gt;
My political ideal is democracy. Let every man be respected as an individual and no man idolized. It is an irony of fate that I myself have been the recipient of excessive admiration and reverence from my fellow-beings, through no fault, and no merit, of my own. The cause of this may well be the desire, unattainable for many, to understand the few ideas to which I have with my feeble powers attained through ceaseless struggle. I have an unequivocal belief that the really valuable thing in the sense of achievement is not the political state but the creative, sentient individual, the personality; that it alone creates the noble and sublime, while the herd as such is dull in thought and dull in feeling.&lt;br /&gt;
&lt;br /&gt;
Speaking of the herd, I am notably referring to the worst of its manifestations, the military system, which I loathe. A person who can take pleasure in marching in rank and file to the strains of a band is beneath my contempt; he received his great brain by mistake—for him the spinal cord would have been amply sufficient. This plague spot of civilization ought to be abolished as soon as possible. Heroism on command, senseless violence, and all the loathsome nonsense that goes by the name of patriotism—how I hate them! War seems to me a mean, contemptible thing; I would rather be hacked in pieces than take part in such an abominable business. And yet, I still believe that, but for the pernicious influence of commercial and political interests which systematically corrupt the health of the people through schools and the press, the horror of war would have disappeared long ago.&lt;br /&gt;
&lt;br /&gt;
The most beautiful experience we can have is the mysterious. It is the fundamental emotion that stands at the cradle of true art and true science. Whoever does not know it and can no longer wonder, no longer marvel, is as good as dead, and his eyes are dimmed. It was the experience of mystery—even if mixed with fear—that engendered religion. A knowledge of the existence of something we cannot penetrate, of the manifestations of the profoundest reason and the most radiant beauty, which are only accessible to our reason in their most elementary forms—it is this knowledge and this emotion that constitute the truly religious attitude; in this sense, and only in this sense, I am a deeply religious man. I cannot conceive of a God who rewards and punishes his creatures, or has a will of the kind that we experience in ourselves. Neither can I nor would I want to conceive of an individual that survives his physical death; let feeble souls, from fear or absurd egoism, cherish such thoughts. I am satisfied with the mystery of the eternity of life and with the awareness and a glimpse of the marvelous structure of the existing world, together with the devoted striving to comprehend a portion, be it ever so tiny, of the Reason that manifests itself in nature.&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
== 中文对照译文 ==&lt;br /&gt;
&lt;br /&gt;
* 许良英、赵中立、张宣三编译，选自商务印书馆《爱因斯坦文集》第三卷&lt;br /&gt;
&lt;br /&gt;
我们这些总有一死的人的命运是多么奇特呀！我们每个人在这个世界上都只作一个短暂的逗留；目的何在，却无所知，尽管有时自以为对此若有所感。但是，不必深思，只要从日常生活就可以明白：人是为别人而生存的——首先是为那样一些人，他们的喜悦和健康关系着我们自己的全部幸福；然后是为许多我们所不认识的人，他们的命运通过同情的纽带同我们密切结合在一起。我每天上百次地提醒自己：我的精神生活和物质生活都依靠着别人（包括生者和死者）的劳动，我必须尽力以同样的分量来报偿我所领受了的和至今还在领受着的东西。我强烈地向往着俭朴的生活，并且时常为发觉自己占用了同胞的过多劳动而难以忍受。我认为阶级的区分是不合理的，它最后所凭借的是以暴力为根据。我也相信，简单淳朴的生活，无论在身体上还是在精神上，对每个人都是有益的。&lt;br /&gt;
&lt;br /&gt;
我完全不相信人类会有那种在哲学意义上的自由。每一个人的行为，不仅受着外界的强迫，而且还要适应内心的必然。叔本华说：“人虽然能够做他所想做的，但不能要他所想要的。”这句话从我青年时代起，就对我是一个真正的启示；在我自己和别人生活面临困难的时候，它总是使我们得到安慰，并且永远是宽容的源泉。这种体会可以宽大为怀地减轻那种使人气馁的责任感，也可以防止我们过于严肃地对待自己和别人；它还导致一种特别给幽默以应有地位的人生观。&lt;br /&gt;
&lt;br /&gt;
要追究一个人自己或一切生物生存的意义或目的，从客观的观点看来，我总觉得是愚蠢可笑的。可是每个人都有一定的理想，这种理想决定着他的努力和判断的方向。就在这个意义上，我从来不把安逸和享乐看作是生活目的本身——这种伦理基础，我叫它猪栏的理想。照亮我的道路，并且不断地给我新的勇气去愉快地正视生活的理想，是真、善和美。要是没有志同道合者之间的亲切感情，要不是全神贯注于客观世界——那个在艺术和科学工作领域里永远达不到的对象，那么在我看来，生活就会是空虚的。人们所努力追求的庸俗的目标——财产、虚荣、奢侈的生活——我总觉得都是可鄙的。&lt;br /&gt;
&lt;br /&gt;
我对社会正义和社会责任的强烈感觉，同我显然的对别人和社会直接接触的淡漠，两者总是形成古怪的对照。我实在是一个“孤独的旅客”，我未曾全心全意地属于我的国家，我的家庭，我的朋友，甚至我最接近的亲人；在所有这些关系面前，我总是感觉到有一定距离并且需要保持孤独——而这种感受正与年俱增。人们会清楚地发觉，同别人的相互了解和协调一致是有限度的，但这不足惋惜。这样的人无疑有点失去他的天真无邪和无忧无虑的心境；但另一方面，他却能够在很大程度上不为别人的意见、习惯和判断所左右，并且能够不受诱惑要去把他的内心平衡在这样一些不可靠的基础之上。&lt;br /&gt;
&lt;br /&gt;
我的政治理想是民主主义。让每一个人都作为个人而受到尊重，而不让任何人成为崇拜的偶像。我自己受到了人们过分的赞扬和尊敬，这不是由于我自己的过错，也不是由于我自己的功劳，而实在是一种命运的嘲弄。其原因大概在于人们有一种愿望，想理解我以自己的微薄绵力通过不断的斗争所获得的少数几个观念，而这种愿望有很多人却未能实现。我完全明白，一个组织要实现它的目的，就必须有一个人去思考，去指挥，并且全面负担起责任来。但是被领导的人不应当受到压迫，他们必须有可能来选择自己的领袖。在我看来，强迫的专制制度很快就会腐化堕落。因为暴力所招引来的总是一些品德低劣的人，而且我相信，天才的暴君总是由无赖来继承，这是一条千古不易的规律。就是这个缘故，我总是强烈地反对今天我们在意大利和俄国所见到的那种制度。像欧洲今天所存在的情况，使得民主形式受到了怀疑，这不能归咎于民主原则本身，而是由于政府的不稳定和选举制度中与个人无关的特征。我相信美国在这方面已经找到了正确的道路。他们选出了一个任期足够长的总统，他有充分的权力来真正履行他的职责。另一方面，在德国的政治制度中，我所重视的是，它为救济患病或贫困的人作出了比较广泛的规定。在人生的丰富多彩的表演中，我觉得真正可贵的，不是政治上的国家，而是有创造性的、有感情的个人，是人格；只有个人才能创造出高尚的和卓越的东西，而群众本身在思想上总是迟钝的，在感觉上也总是迟钝的。&lt;br /&gt;
&lt;br /&gt;
讲到这里，我想起了群众生活中最坏的一种表现，那就是使我厌恶的军事制度。一个人能够洋洋得意地随着军乐队在四列纵队里行进，单凭这一点就足以使我对他轻视。他所以长了一个大脑，只是出于误会；单单一根脊髓就可满足他的全部需要了。文明国家的这种罪恶的渊薮，应当尽快加以消灭。由命令而产生的勇敢行为，毫无意义的暴行，以及在爱国主义名义下一切可恶的胡闹，所有这些都使我深恶痛绝！在我看来，战争是多么卑鄙、下流！我宁愿被千刀万剐，也不愿参预这种可憎的勾当。尽管如此，我对人类的评价还是十分高的，我相信，要是人民的健康感情没有被那些通过学校和报纸而起作用的商业利益和政治利益蓄意进行败坏，那么战争这个妖魔早就该绝迹了。&lt;br /&gt;
&lt;br /&gt;
我们所能有的最美好的经验是奥秘的经验。它是坚守在真正艺术和真正科学发源地上的基本感情。谁要是体验不到它，谁要是不再有好奇心也不再有惊讶的感觉，他就无异于行尸走肉，他的眼睛是迷糊不清的。就是这样奥秘的经验——虽然掺杂着恐怖——产生了宗教。我们认识到有某种为我们所不能洞察的东西存在，感觉到那种只能以其最原始的形式为我们感受到的最深奥的理性和最灿烂的美——正是这种认识和这种情感构成了真正的宗教感情；在这个意义上，而且也只是在这个意义上，我才是一个具有深挚的宗教感情的人。我无法想象一个会对自己的创造物加以赏罚的上帝，也无法想象它会有像在我们自己身上所体验到的那样一种意志。我不能也不愿去想象一个人在肉体死亡以后还会继续活着；让那些脆弱的灵魂，由于恐惧或者由于可笑的唯我论，去拿这种思想当宝贝吧！我自己只求满足于生命永恒的奥秘，满足于觉察现实世界的神奇的结构，窥见它的一鳞半爪，并且以诚挚的努力去领悟在自然界中显示出来的那个理性的一部分，即使只是其极小的一部分，我也就心满意足了。&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
== 版本说明 ==&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
*德文标题: Mein Glaubensbekenntnis &lt;br /&gt;
*写作时间: 1930年夏天 &lt;br /&gt;
写作地点: 柏林郊外卡普特（Caputh）消夏小屋 &lt;br /&gt;
首次发表: 《论坛与世纪》（''Forum and Century''）第84卷，193-194页，1930年10月 &lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
该文也以《我的世界观》（''The World As I See It'' / ''Mein Weltbild''）为题收录于爱因斯坦的多部文集中。文中引用的叔本华格言“人虽然能够做他所想做的，但不能要他所想要的”是理解爱因斯坦人生观的关键线索。&lt;/div&gt;</summary>
		<author><name>Zhli</name></author>
	</entry>
	<entry>
		<id>http://hlt.suda.edu.cn/index.php?title=What-i-believe-Einstein&amp;diff=6217</id>
		<title>What-i-believe-Einstein</title>
		<link rel="alternate" type="text/html" href="http://hlt.suda.edu.cn/index.php?title=What-i-believe-Einstein&amp;diff=6217"/>
		<updated>2026-06-02T03:07:25Z</updated>

		<summary type="html">&lt;p&gt;Zhli：&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;&lt;br /&gt;
* 以下是爱因斯坦 '''《我的信仰》（What I Believe）''' 的原文。该文写于1930年夏天，最初发表于《论坛与世纪》（''Forum and Century''）杂志第84卷。&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
== What I Believe ==&lt;br /&gt;
* By Albert Einstein&lt;br /&gt;
&lt;br /&gt;
How strange is the lot of us mortals! Each of us is here for a brief sojourn; for what purpose he knows not, though he sometimes thinks he senses it. But without deeper reflection one knows from daily life that one exists for other people—first of all for those upon whose smiles and well-being our own happiness is wholly dependent, and then for the many, unknown to us, to whose destinies we are bound by the ties of sympathy. A hundred times every day I remind myself that my inner and outer life are based on the labors of other men, living and dead, and that I must exert myself in order to give in the same measure as I have received and am still receiving. I am strongly drawn to a frugal life and am often oppressively aware that I am engrossing an undue amount of the labor of my fellow-men. I regard class distinctions as unjustified and, in the last resort, based on force. I also believe that a simple and unassuming life is good for everybody, physically and mentally.&lt;br /&gt;
&lt;br /&gt;
I do not at all believe in human freedom in the philosophical sense. Everybody acts not only under external compulsion but also in accordance with inner necessity. Schopenhauer's saying, &amp;quot;A man can do what he wants, but not want what he wants,&amp;quot; has been a very real inspiration to me since my youth; it has been a continual consolation in the face of life's hardships, my own and others', and an unfailing well-spring of tolerance. This realization mercifully mitigates the easily paralyzing sense of responsibility and prevents us from taking ourselves and other people all too seriously; it is conducive to a view of life which, in particular, gives humor its due.&lt;br /&gt;
&lt;br /&gt;
To inquire after the meaning or object of one's own existence or that of all creatures has always seemed to me absurd from an objective point of view. And yet everybody has certain ideals which determine the direction of his endeavors and his judgments. In this sense I have never looked upon ease and happiness as ends in themselves—this ethical basis I call the ideal of a pigsty. The ideals which have lighted my way, and time after time have given me new courage to face life cheerfully, have been Kindness, Beauty, and Truth. Without the sense of kinship with men of like mind, without the occupation with the objective world, the eternally unattainable in the field of art and scientific endeavors, life would have seemed to me empty. The trite objects of human efforts—possessions, outward success, luxury—have always seemed to me contemptible.&lt;br /&gt;
&lt;br /&gt;
My passionate sense of social justice and social responsibility has always contrasted oddly with my pronounced lack of need for direct contact with other human beings and human communities. I am truly a &amp;quot;lone traveler&amp;quot; and have never belonged to my country, my home, my friend, or even my immediate family, with my whole heart; in the face of all these ties, I have never lost a sense of distance and a need for solitude—feelings which increase with the years. One becomes sharply aware, but without regret, of the limits of mutual understanding and consonance with other people. No doubt, such a person loses some of his innocence and unconcern; on the other hand, he is largely independent of the opinions, habits, and judgments of his fellows and avoids the temptation to build his inner equilibrium upon such insecure foundations.&lt;br /&gt;
&lt;br /&gt;
My political ideal is democracy. Let every man be respected as an individual and no man idolized. It is an irony of fate that I myself have been the recipient of excessive admiration and reverence from my fellow-beings, through no fault, and no merit, of my own. The cause of this may well be the desire, unattainable for many, to understand the few ideas to which I have with my feeble powers attained through ceaseless struggle. I have an unequivocal belief that the really valuable thing in the sense of achievement is not the political state but the creative, sentient individual, the personality; that it alone creates the noble and sublime, while the herd as such is dull in thought and dull in feeling.&lt;br /&gt;
&lt;br /&gt;
Speaking of the herd, I am notably referring to the worst of its manifestations, the military system, which I loathe. A person who can take pleasure in marching in rank and file to the strains of a band is beneath my contempt; he received his great brain by mistake—for him the spinal cord would have been amply sufficient. This plague spot of civilization ought to be abolished as soon as possible. Heroism on command, senseless violence, and all the loathsome nonsense that goes by the name of patriotism—how I hate them! War seems to me a mean, contemptible thing; I would rather be hacked in pieces than take part in such an abominable business. And yet, I still believe that, but for the pernicious influence of commercial and political interests which systematically corrupt the health of the people through schools and the press, the horror of war would have disappeared long ago.&lt;br /&gt;
&lt;br /&gt;
The most beautiful experience we can have is the mysterious. It is the fundamental emotion that stands at the cradle of true art and true science. Whoever does not know it and can no longer wonder, no longer marvel, is as good as dead, and his eyes are dimmed. It was the experience of mystery—even if mixed with fear—that engendered religion. A knowledge of the existence of something we cannot penetrate, of the manifestations of the profoundest reason and the most radiant beauty, which are only accessible to our reason in their most elementary forms—it is this knowledge and this emotion that constitute the truly religious attitude; in this sense, and only in this sense, I am a deeply religious man. I cannot conceive of a God who rewards and punishes his creatures, or has a will of the kind that we experience in ourselves. Neither can I nor would I want to conceive of an individual that survives his physical death; let feeble souls, from fear or absurd egoism, cherish such thoughts. I am satisfied with the mystery of the eternity of life and with the awareness and a glimpse of the marvelous structure of the existing world, together with the devoted striving to comprehend a portion, be it ever so tiny, of the Reason that manifests itself in nature.&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
== 中文对照译文 ==&lt;br /&gt;
&lt;br /&gt;
* 许良英、赵中立、张宣三编译，选自商务印书馆《爱因斯坦文集》第三卷&lt;br /&gt;
&lt;br /&gt;
我们这些总有一死的人的命运是多么奇特呀！我们每个人在这个世界上都只作一个短暂的逗留；目的何在，却无所知，尽管有时自以为对此若有所感。但是，不必深思，只要从日常生活就可以明白：人是为别人而生存的——首先是为那样一些人，他们的喜悦和健康关系着我们自己的全部幸福；然后是为许多我们所不认识的人，他们的命运通过同情的纽带同我们密切结合在一起。我每天上百次地提醒自己：我的精神生活和物质生活都依靠着别人（包括生者和死者）的劳动，我必须尽力以同样的分量来报偿我所领受了的和至今还在领受着的东西。我强烈地向往着俭朴的生活，并且时常为发觉自己占用了同胞的过多劳动而难以忍受。我认为阶级的区分是不合理的，它最后所凭借的是以暴力为根据。我也相信，简单淳朴的生活，无论在身体上还是在精神上，对每个人都是有益的。&lt;br /&gt;
&lt;br /&gt;
我完全不相信人类会有那种在哲学意义上的自由。每一个人的行为，不仅受着外界的强迫，而且还要适应内心的必然。叔本华说：“人虽然能够做他所想做的，但不能要他所想要的。”这句话从我青年时代起，就对我是一个真正的启示；在我自己和别人生活面临困难的时候，它总是使我们得到安慰，并且永远是宽容的源泉。这种体会可以宽大为怀地减轻那种使人气馁的责任感，也可以防止我们过于严肃地对待自己和别人；它还导致一种特别给幽默以应有地位的人生观。&lt;br /&gt;
&lt;br /&gt;
要追究一个人自己或一切生物生存的意义或目的，从客观的观点看来，我总觉得是愚蠢可笑的。可是每个人都有一定的理想，这种理想决定着他的努力和判断的方向。就在这个意义上，我从来不把安逸和享乐看作是生活目的本身——这种伦理基础，我叫它猪栏的理想。照亮我的道路，并且不断地给我新的勇气去愉快地正视生活的理想，是真、善和美。要是没有志同道合者之间的亲切感情，要不是全神贯注于客观世界——那个在艺术和科学工作领域里永远达不到的对象，那么在我看来，生活就会是空虚的。人们所努力追求的庸俗的目标——财产、虚荣、奢侈的生活——我总觉得都是可鄙的。&lt;br /&gt;
&lt;br /&gt;
我对社会正义和社会责任的强烈感觉，同我显然的对别人和社会直接接触的淡漠，两者总是形成古怪的对照。我实在是一个“孤独的旅客”，我未曾全心全意地属于我的国家，我的家庭，我的朋友，甚至我最接近的亲人；在所有这些关系面前，我总是感觉到有一定距离并且需要保持孤独——而这种感受正与年俱增。人们会清楚地发觉，同别人的相互了解和协调一致是有限度的，但这不足惋惜。这样的人无疑有点失去他的天真无邪和无忧无虑的心境；但另一方面，他却能够在很大程度上不为别人的意见、习惯和判断所左右，并且能够不受诱惑要去把他的内心平衡在这样一些不可靠的基础之上。&lt;br /&gt;
&lt;br /&gt;
我的政治理想是民主主义。让每一个人都作为个人而受到尊重，而不让任何人成为崇拜的偶像。我自己受到了人们过分的赞扬和尊敬，这不是由于我自己的过错，也不是由于我自己的功劳，而实在是一种命运的嘲弄。其原因大概在于人们有一种愿望，想理解我以自己的微薄绵力通过不断的斗争所获得的少数几个观念，而这种愿望有很多人却未能实现。我完全明白，一个组织要实现它的目的，就必须有一个人去思考，去指挥，并且全面负担起责任来。但是被领导的人不应当受到压迫，他们必须有可能来选择自己的领袖。在我看来，强迫的专制制度很快就会腐化堕落。因为暴力所招引来的总是一些品德低劣的人，而且我相信，天才的暴君总是由无赖来继承，这是一条千古不易的规律。就是这个缘故，我总是强烈地反对今天我们在意大利和俄国所见到的那种制度。像欧洲今天所存在的情况，使得民主形式受到了怀疑，这不能归咎于民主原则本身，而是由于政府的不稳定和选举制度中与个人无关的特征。我相信美国在这方面已经找到了正确的道路。他们选出了一个任期足够长的总统，他有充分的权力来真正履行他的职责。另一方面，在德国的政治制度中，我所重视的是，它为救济患病或贫困的人作出了比较广泛的规定。在人生的丰富多彩的表演中，我觉得真正可贵的，不是政治上的国家，而是有创造性的、有感情的个人，是人格；只有个人才能创造出高尚的和卓越的东西，而群众本身在思想上总是迟钝的，在感觉上也总是迟钝的。&lt;br /&gt;
&lt;br /&gt;
讲到这里，我想起了群众生活中最坏的一种表现，那就是使我厌恶的军事制度。一个人能够洋洋得意地随着军乐队在四列纵队里行进，单凭这一点就足以使我对他轻视。他所以长了一个大脑，只是出于误会；单单一根脊髓就可满足他的全部需要了。文明国家的这种罪恶的渊薮，应当尽快加以消灭。由命令而产生的勇敢行为，毫无意义的暴行，以及在爱国主义名义下一切可恶的胡闹，所有这些都使我深恶痛绝！在我看来，战争是多么卑鄙、下流！我宁愿被千刀万剐，也不愿参预这种可憎的勾当。尽管如此，我对人类的评价还是十分高的，我相信，要是人民的健康感情没有被那些通过学校和报纸而起作用的商业利益和政治利益蓄意进行败坏，那么战争这个妖魔早就该绝迹了。&lt;br /&gt;
&lt;br /&gt;
我们所能有的最美好的经验是奥秘的经验。它是坚守在真正艺术和真正科学发源地上的基本感情。谁要是体验不到它，谁要是不再有好奇心也不再有惊讶的感觉，他就无异于行尸走肉，他的眼睛是迷糊不清的。就是这样奥秘的经验——虽然掺杂着恐怖——产生了宗教。我们认识到有某种为我们所不能洞察的东西存在，感觉到那种只能以其最原始的形式为我们感受到的最深奥的理性和最灿烂的美——正是这种认识和这种情感构成了真正的宗教感情；在这个意义上，而且也只是在这个意义上，我才是一个具有深挚的宗教感情的人。我无法想象一个会对自己的创造物加以赏罚的上帝，也无法想象它会有像在我们自己身上所体验到的那样一种意志。我不能也不愿去想象一个人在肉体死亡以后还会继续活着；让那些脆弱的灵魂，由于恐惧或者由于可笑的唯我论，去拿这种思想当宝贝吧！我自己只求满足于生命永恒的奥秘，满足于觉察现实世界的神奇的结构，窥见它的一鳞半爪，并且以诚挚的努力去领悟在自然界中显示出来的那个理性的一部分，即使只是其极小的一部分，我也就心满意足了。&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
== 版本说明 ==&lt;br /&gt;
&lt;br /&gt;
| 项目 | 内容 |&lt;br /&gt;
|------|------|&lt;br /&gt;
| **标题** | What I Believe（《我的信仰》） |&lt;br /&gt;
| **德文标题** | Mein Glaubensbekenntnis |&lt;br /&gt;
| **写作时间** | 1930年夏天 |&lt;br /&gt;
| **写作地点** | 柏林郊外卡普特（Caputh）消夏小屋 |&lt;br /&gt;
| **首次发表** | 《论坛与世纪》（*Forum and Century*）第84卷，193-194页，1930年10月 |&lt;br /&gt;
| **手稿编号** | 耶路撒冷希伯来大学爱因斯坦档案馆 [29-028] |&lt;br /&gt;
&lt;br /&gt;
该文也以《我的世界观》（*The World As I See It* / *Mein Weltbild*）为题收录于爱因斯坦的多部文集中。文中引用的叔本华格言“人虽然能够做他所想做的，但不能要他所想要的”是理解爱因斯坦人生观的关键线索。&lt;/div&gt;</summary>
		<author><name>Zhli</name></author>
	</entry>
	<entry>
		<id>http://hlt.suda.edu.cn/index.php?title=What-i-believe-Einstein&amp;diff=6216</id>
		<title>What-i-believe-Einstein</title>
		<link rel="alternate" type="text/html" href="http://hlt.suda.edu.cn/index.php?title=What-i-believe-Einstein&amp;diff=6216"/>
		<updated>2026-06-02T03:05:17Z</updated>

		<summary type="html">&lt;p&gt;Zhli：建立内容为“以下是爱因斯坦 **《我的信仰》（What I Believe）** 的原文。该文写于1930年夏天，最初发表于《论坛与世纪》（*Forum and Century…”的新页面&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;以下是爱因斯坦 **《我的信仰》（What I Believe）** 的原文。该文写于1930年夏天，最初发表于《论坛与世纪》（*Forum and Century*）杂志第84卷。&lt;br /&gt;
&lt;br /&gt;
---&lt;br /&gt;
&lt;br /&gt;
## 英文原文&lt;br /&gt;
&lt;br /&gt;
**What I Believe**&lt;br /&gt;
*By Albert Einstein*&lt;br /&gt;
&lt;br /&gt;
How strange is the lot of us mortals! Each of us is here for a brief sojourn; for what purpose he knows not, though he sometimes thinks he senses it. But without deeper reflection one knows from daily life that one exists for other people—first of all for those upon whose smiles and well-being our own happiness is wholly dependent, and then for the many, unknown to us, to whose destinies we are bound by the ties of sympathy. A hundred times every day I remind myself that my inner and outer life are based on the labors of other men, living and dead, and that I must exert myself in order to give in the same measure as I have received and am still receiving. I am strongly drawn to a frugal life and am often oppressively aware that I am engrossing an undue amount of the labor of my fellow-men. I regard class distinctions as unjustified and, in the last resort, based on force. I also believe that a simple and unassuming life is good for everybody, physically and mentally.&lt;br /&gt;
&lt;br /&gt;
I do not at all believe in human freedom in the philosophical sense. Everybody acts not only under external compulsion but also in accordance with inner necessity. Schopenhauer's saying, &amp;quot;A man can do what he wants, but not want what he wants,&amp;quot; has been a very real inspiration to me since my youth; it has been a continual consolation in the face of life's hardships, my own and others', and an unfailing well-spring of tolerance. This realization mercifully mitigates the easily paralyzing sense of responsibility and prevents us from taking ourselves and other people all too seriously; it is conducive to a view of life which, in particular, gives humor its due.&lt;br /&gt;
&lt;br /&gt;
To inquire after the meaning or object of one's own existence or that of all creatures has always seemed to me absurd from an objective point of view. And yet everybody has certain ideals which determine the direction of his endeavors and his judgments. In this sense I have never looked upon ease and happiness as ends in themselves—this ethical basis I call the ideal of a pigsty. The ideals which have lighted my way, and time after time have given me new courage to face life cheerfully, have been Kindness, Beauty, and Truth. Without the sense of kinship with men of like mind, without the occupation with the objective world, the eternally unattainable in the field of art and scientific endeavors, life would have seemed to me empty. The trite objects of human efforts—possessions, outward success, luxury—have always seemed to me contemptible.&lt;br /&gt;
&lt;br /&gt;
My passionate sense of social justice and social responsibility has always contrasted oddly with my pronounced lack of need for direct contact with other human beings and human communities. I am truly a &amp;quot;lone traveler&amp;quot; and have never belonged to my country, my home, my friend, or even my immediate family, with my whole heart; in the face of all these ties, I have never lost a sense of distance and a need for solitude—feelings which increase with the years. One becomes sharply aware, but without regret, of the limits of mutual understanding and consonance with other people. No doubt, such a person loses some of his innocence and unconcern; on the other hand, he is largely independent of the opinions, habits, and judgments of his fellows and avoids the temptation to build his inner equilibrium upon such insecure foundations.&lt;br /&gt;
&lt;br /&gt;
My political ideal is democracy. Let every man be respected as an individual and no man idolized. It is an irony of fate that I myself have been the recipient of excessive admiration and reverence from my fellow-beings, through no fault, and no merit, of my own. The cause of this may well be the desire, unattainable for many, to understand the few ideas to which I have with my feeble powers attained through ceaseless struggle. I have an unequivocal belief that the really valuable thing in the sense of achievement is not the political state but the creative, sentient individual, the personality; that it alone creates the noble and sublime, while the herd as such is dull in thought and dull in feeling.&lt;br /&gt;
&lt;br /&gt;
Speaking of the herd, I am notably referring to the worst of its manifestations, the military system, which I loathe. A person who can take pleasure in marching in rank and file to the strains of a band is beneath my contempt; he received his great brain by mistake—for him the spinal cord would have been amply sufficient. This plague spot of civilization ought to be abolished as soon as possible. Heroism on command, senseless violence, and all the loathsome nonsense that goes by the name of patriotism—how I hate them! War seems to me a mean, contemptible thing; I would rather be hacked in pieces than take part in such an abominable business. And yet, I still believe that, but for the pernicious influence of commercial and political interests which systematically corrupt the health of the people through schools and the press, the horror of war would have disappeared long ago.&lt;br /&gt;
&lt;br /&gt;
The most beautiful experience we can have is the mysterious. It is the fundamental emotion that stands at the cradle of true art and true science. Whoever does not know it and can no longer wonder, no longer marvel, is as good as dead, and his eyes are dimmed. It was the experience of mystery—even if mixed with fear—that engendered religion. A knowledge of the existence of something we cannot penetrate, of the manifestations of the profoundest reason and the most radiant beauty, which are only accessible to our reason in their most elementary forms—it is this knowledge and this emotion that constitute the truly religious attitude; in this sense, and only in this sense, I am a deeply religious man. I cannot conceive of a God who rewards and punishes his creatures, or has a will of the kind that we experience in ourselves. Neither can I nor would I want to conceive of an individual that survives his physical death; let feeble souls, from fear or absurd egoism, cherish such thoughts. I am satisfied with the mystery of the eternity of life and with the awareness and a glimpse of the marvelous structure of the existing world, together with the devoted striving to comprehend a portion, be it ever so tiny, of the Reason that manifests itself in nature.&lt;br /&gt;
&lt;br /&gt;
---&lt;br /&gt;
&lt;br /&gt;
## 中文对照译文&lt;br /&gt;
&lt;br /&gt;
（许良英、赵中立、张宣三编译，选自商务印书馆《爱因斯坦文集》第三卷）&lt;br /&gt;
&lt;br /&gt;
我们这些总有一死的人的命运是多么奇特呀！我们每个人在这个世界上都只作一个短暂的逗留；目的何在，却无所知，尽管有时自以为对此若有所感。但是，不必深思，只要从日常生活就可以明白：人是为别人而生存的——首先是为那样一些人，他们的喜悦和健康关系着我们自己的全部幸福；然后是为许多我们所不认识的人，他们的命运通过同情的纽带同我们密切结合在一起。我每天上百次地提醒自己：我的精神生活和物质生活都依靠着别人（包括生者和死者）的劳动，我必须尽力以同样的分量来报偿我所领受了的和至今还在领受着的东西。我强烈地向往着俭朴的生活，并且时常为发觉自己占用了同胞的过多劳动而难以忍受。我认为阶级的区分是不合理的，它最后所凭借的是以暴力为根据。我也相信，简单淳朴的生活，无论在身体上还是在精神上，对每个人都是有益的。&lt;br /&gt;
&lt;br /&gt;
我完全不相信人类会有那种在哲学意义上的自由。每一个人的行为，不仅受着外界的强迫，而且还要适应内心的必然。叔本华说：“人虽然能够做他所想做的，但不能要他所想要的。”这句话从我青年时代起，就对我是一个真正的启示；在我自己和别人生活面临困难的时候，它总是使我们得到安慰，并且永远是宽容的源泉。这种体会可以宽大为怀地减轻那种使人气馁的责任感，也可以防止我们过于严肃地对待自己和别人；它还导致一种特别给幽默以应有地位的人生观。&lt;br /&gt;
&lt;br /&gt;
要追究一个人自己或一切生物生存的意义或目的，从客观的观点看来，我总觉得是愚蠢可笑的。可是每个人都有一定的理想，这种理想决定着他的努力和判断的方向。就在这个意义上，我从来不把安逸和享乐看作是生活目的本身——这种伦理基础，我叫它猪栏的理想。照亮我的道路，并且不断地给我新的勇气去愉快地正视生活的理想，是真、善和美。要是没有志同道合者之间的亲切感情，要不是全神贯注于客观世界——那个在艺术和科学工作领域里永远达不到的对象，那么在我看来，生活就会是空虚的。人们所努力追求的庸俗的目标——财产、虚荣、奢侈的生活——我总觉得都是可鄙的。&lt;br /&gt;
&lt;br /&gt;
我对社会正义和社会责任的强烈感觉，同我显然的对别人和社会直接接触的淡漠，两者总是形成古怪的对照。我实在是一个“孤独的旅客”，我未曾全心全意地属于我的国家，我的家庭，我的朋友，甚至我最接近的亲人；在所有这些关系面前，我总是感觉到有一定距离并且需要保持孤独——而这种感受正与年俱增。人们会清楚地发觉，同别人的相互了解和协调一致是有限度的，但这不足惋惜。这样的人无疑有点失去他的天真无邪和无忧无虑的心境；但另一方面，他却能够在很大程度上不为别人的意见、习惯和判断所左右，并且能够不受诱惑要去把他的内心平衡在这样一些不可靠的基础之上。&lt;br /&gt;
&lt;br /&gt;
我的政治理想是民主主义。让每一个人都作为个人而受到尊重，而不让任何人成为崇拜的偶像。我自己受到了人们过分的赞扬和尊敬，这不是由于我自己的过错，也不是由于我自己的功劳，而实在是一种命运的嘲弄。其原因大概在于人们有一种愿望，想理解我以自己的微薄绵力通过不断的斗争所获得的少数几个观念，而这种愿望有很多人却未能实现。我完全明白，一个组织要实现它的目的，就必须有一个人去思考，去指挥，并且全面负担起责任来。但是被领导的人不应当受到压迫，他们必须有可能来选择自己的领袖。在我看来，强迫的专制制度很快就会腐化堕落。因为暴力所招引来的总是一些品德低劣的人，而且我相信，天才的暴君总是由无赖来继承，这是一条千古不易的规律。就是这个缘故，我总是强烈地反对今天我们在意大利和俄国所见到的那种制度。像欧洲今天所存在的情况，使得民主形式受到了怀疑，这不能归咎于民主原则本身，而是由于政府的不稳定和选举制度中与个人无关的特征。我相信美国在这方面已经找到了正确的道路。他们选出了一个任期足够长的总统，他有充分的权力来真正履行他的职责。另一方面，在德国的政治制度中，我所重视的是，它为救济患病或贫困的人作出了比较广泛的规定。在人生的丰富多彩的表演中，我觉得真正可贵的，不是政治上的国家，而是有创造性的、有感情的个人，是人格；只有个人才能创造出高尚的和卓越的东西，而群众本身在思想上总是迟钝的，在感觉上也总是迟钝的。&lt;br /&gt;
&lt;br /&gt;
讲到这里，我想起了群众生活中最坏的一种表现，那就是使我厌恶的军事制度。一个人能够洋洋得意地随着军乐队在四列纵队里行进，单凭这一点就足以使我对他轻视。他所以长了一个大脑，只是出于误会；单单一根脊髓就可满足他的全部需要了。文明国家的这种罪恶的渊薮，应当尽快加以消灭。由命令而产生的勇敢行为，毫无意义的暴行，以及在爱国主义名义下一切可恶的胡闹，所有这些都使我深恶痛绝！在我看来，战争是多么卑鄙、下流！我宁愿被千刀万剐，也不愿参预这种可憎的勾当。尽管如此，我对人类的评价还是十分高的，我相信，要是人民的健康感情没有被那些通过学校和报纸而起作用的商业利益和政治利益蓄意进行败坏，那么战争这个妖魔早就该绝迹了。&lt;br /&gt;
&lt;br /&gt;
我们所能有的最美好的经验是奥秘的经验。它是坚守在真正艺术和真正科学发源地上的基本感情。谁要是体验不到它，谁要是不再有好奇心也不再有惊讶的感觉，他就无异于行尸走肉，他的眼睛是迷糊不清的。就是这样奥秘的经验——虽然掺杂着恐怖——产生了宗教。我们认识到有某种为我们所不能洞察的东西存在，感觉到那种只能以其最原始的形式为我们感受到的最深奥的理性和最灿烂的美——正是这种认识和这种情感构成了真正的宗教感情；在这个意义上，而且也只是在这个意义上，我才是一个具有深挚的宗教感情的人。我无法想象一个会对自己的创造物加以赏罚的上帝，也无法想象它会有像在我们自己身上所体验到的那样一种意志。我不能也不愿去想象一个人在肉体死亡以后还会继续活着；让那些脆弱的灵魂，由于恐惧或者由于可笑的唯我论，去拿这种思想当宝贝吧！我自己只求满足于生命永恒的奥秘，满足于觉察现实世界的神奇的结构，窥见它的一鳞半爪，并且以诚挚的努力去领悟在自然界中显示出来的那个理性的一部分，即使只是其极小的一部分，我也就心满意足了。&lt;br /&gt;
&lt;br /&gt;
---&lt;br /&gt;
&lt;br /&gt;
## 版本说明&lt;br /&gt;
&lt;br /&gt;
| 项目 | 内容 |&lt;br /&gt;
|------|------|&lt;br /&gt;
| **标题** | What I Believe（《我的信仰》） |&lt;br /&gt;
| **德文标题** | Mein Glaubensbekenntnis |&lt;br /&gt;
| **写作时间** | 1930年夏天 |&lt;br /&gt;
| **写作地点** | 柏林郊外卡普特（Caputh）消夏小屋 |&lt;br /&gt;
| **首次发表** | 《论坛与世纪》（*Forum and Century*）第84卷，193-194页，1930年10月 |&lt;br /&gt;
| **手稿编号** | 耶路撒冷希伯来大学爱因斯坦档案馆 [29-028] |&lt;br /&gt;
&lt;br /&gt;
该文也以《我的世界观》（*The World As I See It* / *Mein Weltbild*）为题收录于爱因斯坦的多部文集中。文中引用的叔本华格言“人虽然能够做他所想做的，但不能要他所想要的”是理解爱因斯坦人生观的关键线索。&lt;/div&gt;</summary>
		<author><name>Zhli</name></author>
	</entry>
	<entry>
		<id>http://hlt.suda.edu.cn/index.php?title=Linux-2026-fall&amp;diff=6215</id>
		<title>Linux-2026-fall</title>
		<link rel="alternate" type="text/html" href="http://hlt.suda.edu.cn/index.php?title=Linux-2026-fall&amp;diff=6215"/>
		<updated>2026-05-25T06:58:50Z</updated>

		<summary type="html">&lt;p&gt;Zhli：建立内容为“== 课程安排 == * 老师: [http://web.suda.edu.cn/zhli13/ 李正华] * 助教：xx * 计24计科1班,计24计科2班（大三上） * 专业选修课 * 上课…”的新页面&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;== 课程安排 ==&lt;br /&gt;
* 老师: [http://web.suda.edu.cn/zhli13/ 李正华]&lt;br /&gt;
* 助教：xx&lt;br /&gt;
* 计24计科1班,计24计科2班（大三上）&lt;br /&gt;
* 专业选修课&lt;br /&gt;
* 上课时间和地点&lt;br /&gt;
** 理论课：周一 6-7节 14:00-15:35 逸夫楼334  【1-17周】&lt;br /&gt;
** 实践课：周三 1-2节 8:00-9:35 理工楼243 【单周】&lt;/div&gt;</summary>
		<author><name>Zhli</name></author>
	</entry>
	<entry>
		<id>http://hlt.suda.edu.cn/index.php?title=Zhenghua-english-study&amp;diff=6213</id>
		<title>Zhenghua-english-study</title>
		<link rel="alternate" type="text/html" href="http://hlt.suda.edu.cn/index.php?title=Zhenghua-english-study&amp;diff=6213"/>
		<updated>2026-04-19T13:01:17Z</updated>

		<summary type="html">&lt;p&gt;Zhli：建立内容为“ &amp;lt;nowiki&amp;gt; 知乎上的一个问题：中国人有哪些常念错的英语单词？  我不认识的单词，或者我读错的【2026-04】 1. Coupon n. 优惠券…”的新页面&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt; &amp;lt;nowiki&amp;gt;&lt;br /&gt;
知乎上的一个问题：中国人有哪些常念错的英语单词？&lt;br /&gt;
&lt;br /&gt;
我不认识的单词，或者我读错的【2026-04】&lt;br /&gt;
1. Coupon n. 优惠券 - 正确读音：/ˈkuːpɒn/&lt;br /&gt;
2. Debris n. 碎片，残骸 - 正确读音：/ˈdeɪbriː/ 或 /ˈdebriː/&lt;br /&gt;
3. Heir n. 继承人 - 正确读音：/eə/&lt;br /&gt;
5. Receipt n. 收据 - 正确读音：/rɪˈsiːt/&lt;br /&gt;
6. Debut n. 首次亮相 - 正确读音：/ˈdeɪbjuː/ 或 /ˈdebjuː/&lt;br /&gt;
7. Caveat n. 警告，告诫 - 正确读音：/ˈkæviæt/&lt;br /&gt;
8. Salmon n. 三文鱼；鲑鱼 - 正确读音：/ˈsæmən/&lt;br /&gt;
10. Café n. 咖啡馆 - 正确读音：/ˈkæfeɪ/&lt;br /&gt;
15. Epitome n. 缩影，典范 - 正确读音：/ɪˈpɪtəmi/&lt;br /&gt;
16. Certificate n. 证书 - 正确读音：/səˈtɪfɪkət/&lt;br /&gt;
18. Facade n. 正面；表面；立面 - 正确读音：/fəˈsɑːd/&lt;br /&gt;
19. Albeit conj. 虽然 - 正确读音：/ɔːlˈbiːɪt/&lt;br /&gt;
20. Greenwich n. 格林威治 - 正确读音：/ˈɡrenɪtʃ/ 或 /ˈɡrenɪdʒ/&lt;br /&gt;
22. Indictment n. 起诉书；谴责 - 正确读音：/ɪnˈdaɪtmənt/   【Indict v. 起诉 - 正确读音：/ɪnˈdaɪt/】&lt;br /&gt;
23. Gif n. 动图格式 - 正确读音：/dʒɪf/&lt;br /&gt;
24. Recipe n. 食谱，配方 - 正确读音：/ˈresəpi/ &lt;br /&gt;
25. Cupboard n. 橱柜 - 正确读音：/ˈkʌbəd/&lt;br /&gt;
27. Pedagogy n. 教学法 - 正确读音：/ˈpedəɡɒdʒi/&lt;br /&gt;
28. Hegemony n. 霸权 - 正确读音：/hɪˈdʒeməni/ 或 /ˈhedʒɪməni/&lt;br /&gt;
29. Chassis n. 底盘 - 正确读音：/ˈʃæsi/&lt;br /&gt;
32. Ostrich n. 鸵鸟 - 正确读音：/ˈɒstrɪtʃ/&lt;br /&gt;
33. Cache n. 隐藏所；缓存 - 正确读音：/kæʃ/ 【我一直读tʃ】&lt;br /&gt;
34. Photography n. 摄影 - 正确读音：/fəˈtɒɡrəfi/ 【我跟小孩读绘本、学会的】&lt;br /&gt;
35. Cation n. 阳离子 - 正确读音：/ˈkætaɪən/&lt;br /&gt;
37. Rapport n. 融洽关系 - 正确读音：/ræˈpɔː/ 【感觉是法语来的】&lt;br /&gt;
39. Entrepreneur n. 企业家 - 正确读音：/ˌɒntrəprəˈnɜː/ 【听 VOA 学会的】&lt;br /&gt;
41. Dessert n. 甜点 - 正确读音：/dɪˈzɜːt/ 【沙漠 desert】&lt;br /&gt;
43. Process n. 过程；v. 处理 - 正确读音：/ˈprəʊses/（名词和动词均此读音） 【重音一直读错，不应该，美式发ɑː】&lt;br /&gt;
44. Cliché n. 陈词滥调 - 正确读音：/kliːˈʃeɪ/ 或 /ˈkliːʃeɪ/ &lt;br /&gt;
46. Mischievous adj. 淘气的 - 正确读音：/ˈmɪstʃɪvəs/ 的【重音在最前面】&lt;br /&gt;
47. Et cetera (etc.) 等等 - 正确读音：/ɪt ˈsetərə/ 或 /ˌet ˈsetərə/ 【这个会】&lt;br /&gt;
48. Niagara n. 尼亚加拉 - 正确读音：/naɪˈæɡərə/&lt;br /&gt;
49. Draught n. 穿堂风；气流 - 正确读音：/drɑːft/ 或 /dræft/&lt;br /&gt;
50. Genre n. 类型；体裁 - 正确读音：/ˈʒɒnrə/ 或 /ˈʒɑːnrə/ 【这个会】&lt;br /&gt;
&lt;br /&gt;
Debt [dɛt] : 债务&lt;br /&gt;
Receipt [rɪ'sit] : 收据&lt;br /&gt;
Suite [swit] : 套房&lt;br /&gt;
&lt;br /&gt;
clothes / kloʊðz /&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
&amp;lt;/nowiki&amp;gt;&lt;/div&gt;</summary>
		<author><name>Zhli</name></author>
	</entry>
	<entry>
		<id>http://hlt.suda.edu.cn/index.php?title=Ir-2026-spring&amp;diff=6209</id>
		<title>Ir-2026-spring</title>
		<link rel="alternate" type="text/html" href="http://hlt.suda.edu.cn/index.php?title=Ir-2026-spring&amp;diff=6209"/>
		<updated>2026-03-19T08:02:32Z</updated>

		<summary type="html">&lt;p&gt;Zhli：/* 作业1：分字（C++语言） */&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;&lt;br /&gt;
&lt;br /&gt;
= 信息检索综合实践 =&lt;br /&gt;
&lt;br /&gt;
李正华&lt;br /&gt;
&lt;br /&gt;
* 学生：计23计科1班	 	 	 &lt;br /&gt;
* 助教：吕喆、梅睿桐  &lt;br /&gt;
* QQ群: xx&lt;br /&gt;
* 时间：周四 6-9 节课 1-17 周&lt;br /&gt;
* 地点：理工楼238&lt;br /&gt;
&lt;br /&gt;
== 上课基本要求 ==&lt;br /&gt;
* 不能做的事情：打游戏、看课程无关视频、刷网页&lt;br /&gt;
* 认真读作业要求，按时交作业。csteaching&lt;br /&gt;
* 不能抄袭别人或网上的，自己做；不要把自己的作业给别人&lt;br /&gt;
&lt;br /&gt;
== 课程建议 ==&lt;br /&gt;
* 每个作业，截止时间后，把成绩发给大家，并用ppt给大家讲一下批作业发现的问题，题目分析&lt;br /&gt;
* 上课期间：请大家积极提问。遇到大家都无法理解的公共问题，我会补充讲解&lt;br /&gt;
* 非上课时间提问&lt;br /&gt;
** 建议同学们在群里提问（包括但不限于代码的bug、不理解算法、作业资源和提交等），由其他同学帮助解答；&lt;br /&gt;
** 群里的提问如果其他同学也无法回答，可以私信助教（仅限xxx，如周四晚上7点到9点，吕喆增加）；&lt;br /&gt;
&lt;br /&gt;
== 计算成绩的规则和说明（待定） ==&lt;br /&gt;
* &amp;lt;font color='red&amp;gt;核心要求：掌握最基本的概念、方法、算法&amp;lt;/font&amp;gt;&lt;br /&gt;
* 实验作业：70分&lt;br /&gt;
** 一系列作业，每个作业 5-15分（形式检查为辅、平时考核为主）&lt;br /&gt;
*** &amp;lt;font color='red&amp;gt;平时考核：考察课程相关的基础知识，看看作业是否是自己做的&amp;lt;/font&amp;gt;&lt;br /&gt;
** 必须按照规定时间，按照规定格式要求，将实验报告+源代码，提交到网站（见下面）中&lt;br /&gt;
* 平时成绩：30分&lt;br /&gt;
** 不能迟到、早退，特殊情况必须请假，并带辅导员签字的假条；&lt;br /&gt;
** 签到表：除了姓名，还要写一下进展&lt;br /&gt;
&lt;br /&gt;
== 提交作业说明 ==&lt;br /&gt;
* 作业网址：本学期开始的实验布置、提交与批改等不再使用csteaching平台，统一改用工程认证管理系统。请各位老师通过工程认证管理系统（网址[http://42.244.43.76:8000/ http://42.244.43.76:8000/]）开展实验布置、批改等相关工作，并烦请同步通知班级学生在该系统完成实验提交。&lt;br /&gt;
* &amp;lt;font color='red&amp;gt;作业迟交了则最终成绩会按一定比例缩减&amp;lt;/font&amp;gt;&lt;br /&gt;
* 包含两部分&lt;br /&gt;
** 实验报告（pdf文件，&amp;lt;font color='red&amp;gt;请把word转为pdf&amp;lt;/font&amp;gt;）&lt;br /&gt;
*** 请按照实验模版[[:文件:ir-2022-spring-report.doc]]，认真填写个人信息、实验题目、实验内容等&lt;br /&gt;
*** 不要大段粘贴代码，最多可以粘贴核心的一小段代码，&amp;lt;font color='red&amp;gt;粘贴大段代码会扣分&amp;lt;/font&amp;gt;&lt;br /&gt;
*** 写清楚自己的解决思路，尤其是遇到的难点和如何解决&lt;br /&gt;
*** 建议可以画流程图或者写伪代码。&lt;br /&gt;
*** 解决思路的流程图中是以文字为主还是以代码为主？报告中不要直接放代码。文字为主，不在于写得长，而在于写清楚，表明你确实做了、想了。&lt;br /&gt;
*** 问：流程图可以改成自然语言描述或者是伪代码吗？答：流程图也可以画的很high-level的。大家自由发挥。也可以画到纸上然后拍照截图。模块化思维 大问题分解小问题 。&lt;br /&gt;
*** &amp;lt;font color='red&amp;gt;将程序运行结果截图，没有运行结果会扣分&amp;lt;/font&amp;gt;，中间的输出结果/文件可以截图一部分&lt;br /&gt;
** 附件（.zip压缩包）&lt;br /&gt;
*** 源代码：代码不要都团在一起，请用空行对代码进行分隔，并简单注释代码块的功能&lt;br /&gt;
*** readme.txt文件：说明如何运行你的程序，需要什么环境，如windows或linux，python版本如python3.5&lt;br /&gt;
* 提交前自我检查&lt;br /&gt;
** 是否有包含readme.txt文件解释如何编译执行你的程序。 &amp;lt;font color='red&amp;gt;如没有该文件，将减分。&amp;lt;/font&amp;gt;&lt;br /&gt;
** 是否认真完成实验报告&lt;br /&gt;
** 是否可以按照readme.txt正确编译和运行程序&lt;br /&gt;
** 是否包含别人的代码，&amp;lt;font color='red&amp;gt;抄袭和被抄袭的都是0分&amp;lt;/font&amp;gt;&lt;br /&gt;
** 期末可能会用软件做自动抄袭检查&lt;br /&gt;
** 等这学期最后几周，我们可能统一对所有的作业做自动查重，到时候也会查出一些问题。 &amp;lt;font color='red&amp;gt;请大家一定要自己做，编程能力差一点，就做得简单一点，能力强，就做得好一点。但是一定要自己做。 &amp;lt;/font&amp;gt;&lt;br /&gt;
* 提交作业命名规则&lt;br /&gt;
** 实验报告（姓名学号.pdf）&lt;br /&gt;
** 附件（姓名学号.zip）&lt;br /&gt;
&lt;br /&gt;
== 实验报告word模板 ==&lt;br /&gt;
* [[:文件:ir-2022-spring-report.doc]]&lt;br /&gt;
&lt;br /&gt;
== 具体内容（含作业：平时：30 分；实验：70 分） == &lt;br /&gt;
&lt;br /&gt;
{| class=&amp;quot;wikitable&amp;quot;&lt;br /&gt;
! style=&amp;quot;text-align:left;&amp;quot;| 作业&lt;br /&gt;
! 成绩比例&lt;br /&gt;
! 评分要点&lt;br /&gt;
|-&lt;br /&gt;
| 分字&lt;br /&gt;
| 5%&lt;br /&gt;
| 按字节读取并判断高位&lt;br /&gt;
|-&lt;br /&gt;
| 单词计数&lt;br /&gt;
| 5%&lt;br /&gt;
| 无&lt;br /&gt;
|-&lt;br /&gt;
| 最大匹配分词&lt;br /&gt;
| 10%&lt;br /&gt;
| 算法和评价正确实现&lt;br /&gt;
|-&lt;br /&gt;
| 网页正文抽取&lt;br /&gt;
| 10%&lt;br /&gt;
| 按要求完成两个任务&lt;br /&gt;
|-&lt;br /&gt;
| 倒排索引&lt;br /&gt;
| 15%&lt;br /&gt;
| 高效创建倒排文件&lt;br /&gt;
|-&lt;br /&gt;
| 布尔查询&lt;br /&gt;
| 10%&lt;br /&gt;
| inter和union的复杂度为O(n)，复杂查询用堆栈判断优先级&lt;br /&gt;
|-&lt;br /&gt;
| 网页相关性排序&lt;br /&gt;
| 15%&lt;br /&gt;
| 基于向量空间模型VSM、tf-idf权重&lt;br /&gt;
|-&lt;br /&gt;
| 爬虫和某机构主页检索系统&lt;br /&gt;
| 15%&lt;br /&gt;
| 实现爬虫，系统架构设计良好，说明文档详细，UI完整&lt;br /&gt;
|-&lt;br /&gt;
| &amp;lt;font color='black&amp;gt;基于深度学习的检索系统&amp;lt;/font&amp;gt;&lt;br /&gt;
| 15% &lt;br /&gt;
| Contriever：重现部分实验结果；自己实现评价指标；在上一个作业中的爬虫和检索系统的基础上，自己设计、标注 10 个 query，对比向量空间模型VSM 和Contriever 的效果，给出评价结果。建议：VSM 给 100 个结果，然后 Contriever 重排序，然后人工标注，具体如何标注更合理，自己考虑好。&lt;br /&gt;
|-&lt;br /&gt;
|}&lt;br /&gt;
&lt;br /&gt;
== 信息检索课程介绍 ==&lt;br /&gt;
* [http://hlt.suda.edu.cn/~zhli/teach/ir-2019-spring/ir-introduction-v0.4.pdf PPT下载]&lt;br /&gt;
* 2022春视频和图片：&lt;br /&gt;
** 低画质：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/course-intro-low-quality.mp4 课程介绍]&lt;br /&gt;
** 高画质：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/course-intro-part-1.mp4 课程介绍-part1]、 [http://hlt.suda.edu.cn/LA/Ir-2022-Spring/course-intro-part-2.mp4 课程介绍-part2]&lt;br /&gt;
** 图片：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/course-intro.jpg 图]&lt;br /&gt;
&lt;br /&gt;
* &amp;lt;font color='red&amp;gt;和2022年课程的区别&amp;lt;/font&amp;gt;：增加了'''基于深度学习的检索'''的内容，删除'''词性标注'''相关内容&lt;br /&gt;
&lt;br /&gt;
== 信息检索系统介绍 ==&lt;br /&gt;
* 2022春视频：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/intro-to-info-retrieval.mp4 信息检索系统介绍]&lt;br /&gt;
&lt;br /&gt;
= 具体作业 =&lt;br /&gt;
&lt;br /&gt;
== 作业1：分字（C++语言） ==&lt;br /&gt;
* 2022春视频和图片：&lt;br /&gt;
** 低画质：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/split-char-low-quality.mp4 作业1]&lt;br /&gt;
** 高画质：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/split-char-part-1.mp4 作业1-part1]、 [http://hlt.suda.edu.cn/LA/Ir-2022-Spring/split-char-part-2.mp4 作业1-part2]&lt;br /&gt;
** 图片：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/split-char-figure-1.jpg 图1]、 [http://hlt.suda.edu.cn/LA/Ir-2022-Spring/split-char-figure-2.jpg 图2]&lt;br /&gt;
* UTF-8数据：[[文件:sentence.txt]]&lt;br /&gt;
* UFT-8编码规则：【2003 年发布的RFC 3629标准中，已经废除了 5-6 个字节，所以只用考虑 1-4 个字节的情况。感谢曹诗伟同学指出错误。】&lt;br /&gt;
 &amp;lt;nowiki&amp;gt;&lt;br /&gt;
1字节 0xxxxxxx&lt;br /&gt;
2字节 110xxxxx 10xxxxxx&lt;br /&gt;
3字节 1110xxxx 10xxxxxx 10xxxxxx&lt;br /&gt;
4字节 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx&lt;br /&gt;
5字节 111110xx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx&lt;br /&gt;
6字节 1111110x 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx &amp;lt;/nowiki&amp;gt;&lt;br /&gt;
&lt;br /&gt;
== 作业2：单词计数 ==&lt;br /&gt;
* 课件 [http://hlt.suda.edu.cn/~zhli/teach/ir-2019-spring/word-count.pdf PPT下载]&lt;br /&gt;
* 2022春视频：&lt;br /&gt;
** 低画质：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/word-count-low-quality.mp4 作业2]&lt;br /&gt;
** 高画质：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/word-count-2.mp4 作业2] &lt;br /&gt;
* 数据 [http://hlt.suda.edu.cn/~zhli/teach/ir-2019-spring/sample-en.txt txt下载]&lt;br /&gt;
&lt;br /&gt;
== 作业3：最大匹配分词 == &lt;br /&gt;
* 作业提交时间截止时间：第4周下课之前提交&lt;br /&gt;
* 课件：前向最大匹配 PDF文件--[[文件:Word-seg-max-match.pdf]]；PPT文件--[[文件:Word-seg-max-match.zip]]&lt;br /&gt;
* 2022春视频和图片：&lt;br /&gt;
** 低画质：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/word-seg-max-match-low-quality.mp4 作业3]&lt;br /&gt;
** 高画质：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/word-seg-max-match.mp4 作业3] &lt;br /&gt;
** 图片：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/word-seg-max-match.jpg 图] &lt;br /&gt;
&lt;br /&gt;
* 数据下载：&lt;br /&gt;
** 字典：[[文件:dict.txt]] &lt;br /&gt;
** 待分词：[[文件:sentence.txt]] &lt;br /&gt;
** 正确答案（人工标注的，你的模型的预测结果要和这个文件进行对比，从而得到P/R/F值）：[[文件:answer.txt]]；&lt;br /&gt;
** 正向最大匹配分词模型的预测结果（如果你的程序写对了，那么应该和这个结果一模一样）：[[文件:out.txt]]&lt;br /&gt;
&lt;br /&gt;
 &amp;lt;nowiki&amp;gt;&lt;br /&gt;
*正确实验结果&lt;br /&gt;
**正确识别的词数：20263&lt;br /&gt;
**识别出的总体个数：20397&lt;br /&gt;
**测试集中的总体个数：20454&lt;br /&gt;
**正确率：0.99343&lt;br /&gt;
**召回率：0.99066&lt;br /&gt;
**F值：0.99204 &amp;lt;/nowiki&amp;gt;&lt;br /&gt;
&lt;br /&gt;
== 作业4：网页正文抽取 ==&lt;br /&gt;
&lt;br /&gt;
* 作业提交时间截止时间：第 6 周下课前提交&lt;br /&gt;
* 2022春视频： [http://hlt.suda.edu.cn/LA/Ir-2022-Spring/web-page-content-extraction.mp4 作业4]&lt;br /&gt;
* 课件（&amp;lt;font color='red'&amp;gt;请严格按照课件要求完成作业&amp;lt;/font&amp;gt;）： &lt;br /&gt;
** [[:文件:ir-2022-spring-web-page-content-extraction.ppt]]&lt;br /&gt;
** [[:文件:ir-2022-spring-web-page-content-extraction.pdf]]&lt;br /&gt;
* 数据&lt;br /&gt;
** 1.html和2.html [[:文件:ir-2022-spring-example-html.zip]]&lt;br /&gt;
** data-1k：1000个html文件 [[:文件:ir-2022-spring-all-html.zip]] （如果文件出现乱码，请到qq群里下载）&lt;br /&gt;
&lt;br /&gt;
== 作业5：倒排索引 == &lt;br /&gt;
&lt;br /&gt;
* 作业提交时间截止时间：第8周下课前提交&lt;br /&gt;
* 课件： &lt;br /&gt;
** 仅供参考，与本次作业要求无关：[[:文件:ir-2022-spring-inverted-index-simplified.ppt]]&lt;br /&gt;
*  2022春视频和图片： &lt;br /&gt;
** 视频：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/inverted-index.mp4 作业5]&lt;br /&gt;
** 图片：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/inverted-index.jpg 图]&lt;br /&gt;
* 数据&lt;br /&gt;
** 停用词表：[https://github.com/goto456/stopwords github网址] [http://hlt.suda.edu.cn/LA/Ir-2022-Spring/stopwords.zip 苏大本地下载] &lt;br /&gt;
** 结巴词典：[https://github.com/fxsjy/jieba/tree/master/extra_dict github网址] [http://hlt.suda.edu.cn/LA/Ir-2022-Spring/word_dict.zip 苏大本地下载]&lt;br /&gt;
** 结巴词典文件每一行有3列，为：单词、词频、词性，只需要使用第一列的单词即可，使用small进行调试，提交作业用big&lt;br /&gt;
&lt;br /&gt;
== 作业6：布尔查询 ==&lt;br /&gt;
&lt;br /&gt;
* 作业提交时间截止时间：第 10 周下课前提交&lt;br /&gt;
*  2022春视频和图片： &lt;br /&gt;
** 视频：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/bool-query.mp4 作业6]&lt;br /&gt;
** 图片：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/bool-query.jpg 图]&lt;br /&gt;
* 作业提交说明：&lt;br /&gt;
** 附件中给出本次作业使用的倒排索引文件（可以在作业5的基础上进行优化），&amp;lt;font color=&amp;quot;red&amp;quot;&amp;gt;不需要提供构建倒排索引的代码，但在实验报告中给出倒排索引文件的说明，参考侯皓文同学&amp;lt;/font&amp;gt;&lt;br /&gt;
** 交集、并集操作用inter()、union()这两个函数单独封装&lt;br /&gt;
** &amp;lt;font color=&amp;quot;red&amp;quot;&amp;gt;对4个语句&amp;lt;/font&amp;gt; 'A', 'B', 'A AND B', 'A OR B' （A、B为自定义的查询词） 分别进行一次查询，每次的查询结果单独保存到一个txt文件中，以查询语句作为文件名（如 'A AND B.txt'`）&lt;br /&gt;
** 结果展示部分，文件按名字字母序排序：指字符序（用内置的sort即可），先用pinyin包转成拼音再排序也可以，不要自行改变文件名（如 阿大.txt -&amp;gt; 34.txt）&lt;br /&gt;
** 实现更复杂的查询，如：'A AND B OR C' 可以加分&lt;br /&gt;
** 查询词的加重（用#标记）不做强制要求，但做了加分&lt;br /&gt;
&lt;br /&gt;
== 作业7：基于向量空间模型（VSM）和tf-idf权重的网页相关性排序 ==&lt;br /&gt;
&lt;br /&gt;
* 作业提交时间截止时间：第 12 周之前提交&lt;br /&gt;
** 视频：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/web-page-rank.mp4 作业7]&lt;br /&gt;
** 图片：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/web-page-rank-1.jpg 图片1]  [http://hlt.suda.edu.cn/LA/Ir-2022-Spring/web-page-rank-2.jpg 图片2]&lt;br /&gt;
* 作业要求：&lt;br /&gt;
** 如果无法理解向量空间模型，可以选择做tf-idf作业，但最多只给50分&lt;br /&gt;
** 实现基于向量空间模型的网页相关性排序&lt;br /&gt;
** 给定一个查询Q：可以是手动用空格分好词的&amp;quot;李正华 招收 学生&amp;quot;；也可以是未分词的&amp;quot;李正华招收学生&amp;quot;，之后用最大匹配分词分好词 -&amp;gt; &amp;quot;李正华 招收 学生&amp;quot;&lt;br /&gt;
** 注释：一个给定分词的查询Q实际上等价于布尔查询OR：&amp;quot;李正华 招收 学生&amp;quot; &amp;lt;=&amp;gt; &amp;quot;李正华 OR 招收 OR 学生&amp;quot;&lt;br /&gt;
* 作业提交说明：&lt;br /&gt;
** 附件中给出本任务所使用的倒排索引文件&lt;br /&gt;
** 在实验报告中说明对于余弦相似度计算中的：di[k]、q[k]、|di|、|q|是如何处理或存储的&lt;br /&gt;
** 附件中给出一个查询Q的结果，保存为文本文件&amp;quot;Q.txt&amp;quot;中，格式为：&lt;br /&gt;
&lt;br /&gt;
  文档名1（余弦相似度Sim） # Sim值可不除以|q|的值，一个例子： 阿鲁巴岛.txt(0.64)&lt;br /&gt;
  句子1&lt;br /&gt;
  句子2&lt;br /&gt;
  ...&lt;br /&gt;
  文档名2（余弦相似度Sim）&lt;br /&gt;
  句子1&lt;br /&gt;
  句子2&lt;br /&gt;
  ...&lt;br /&gt;
  ......&lt;br /&gt;
&lt;br /&gt;
== 作业8：爬虫和某机构主页检索系统（综合项目） ==&lt;br /&gt;
&lt;br /&gt;
* 作业提交时间截止时间：第14 周下课之前提交&lt;br /&gt;
** 视频：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/web-spider.mp4 作业8]&lt;br /&gt;
** PPT：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/web-spider.pptx PPT]&lt;br /&gt;
* 任务一：用&amp;lt;font color=&amp;quot;red&amp;quot;&amp;gt;爬虫模块&amp;lt;/font&amp;gt;尽量完整地爬下来一个机构对应的所有静态网页（html或htm后缀），保存到磁盘中：&lt;br /&gt;
** 苏大、苏大计算机学院（规模小一点）都可以&lt;br /&gt;
** orphan网页不用考虑&lt;br /&gt;
* 任务二：基于爬取的网页，做一个完整的检索系统（以后可以考虑不断完善、定时更新）：&lt;br /&gt;
** 1. &amp;lt;font color=&amp;quot;red&amp;quot;&amp;gt;网页正文提取模块&amp;lt;/font&amp;gt;（同作业4的实战部分一致）&lt;br /&gt;
** 2. 处理网页正文的&amp;lt;font color=&amp;quot;red&amp;quot;&amp;gt;分句、分词模块&amp;lt;/font&amp;gt;（可以用作业3的最大匹配分词，也可以用第三方的分词器，如jieba）&lt;br /&gt;
** 3. &amp;lt;font color=&amp;quot;red&amp;quot;&amp;gt;倒排索引模块&amp;lt;/font&amp;gt;：基于处理好的网页正文，建立倒排索引文件（同作业5一致）&lt;br /&gt;
** 4. &amp;lt;font color=&amp;quot;red&amp;quot;&amp;gt;网页排序模块&amp;lt;/font&amp;gt;：实现网页相关性排序（同作业7一致）&lt;br /&gt;
** 5. &amp;lt;font color=&amp;quot;red&amp;quot;&amp;gt;查询模块&amp;lt;/font&amp;gt;：提供查询接口，用户输入查询词后显示网页名（暂定为网页的title），和包含查询词的句子，查询词进行highlight处理（如#查询词#）。查询接口可以用命令行实现，提供前端UI界面（Web或Application都可以）会获得加分。&lt;br /&gt;
&lt;br /&gt;
注意：把网页源文件（html文件）保存好，避免重复爬。例如优化了网页正文提取模块、或突然想用一个更好的分词器&lt;br /&gt;
&lt;br /&gt;
* 作业提交说明：&lt;br /&gt;
** 源代码：任务一和任务二的所有代码都要提交，每个模块（共6个，在上方已用红色标出）在readme中指明在哪个python文件中实现的&lt;br /&gt;
** 处理好的网页数据（可选）：原始网页，提取出并分好句、分好词的网页正文，若网页数据特别大的话可以不要&lt;br /&gt;
** 在实验报告中将三项统计信息放到表格中：网页（文档）数、句子数、单词数&lt;br /&gt;
** 倒排索引文件（必备）&lt;br /&gt;
** 说明文档：(每个模块的)实现的功能，如何使用，接口等，内容不限&lt;br /&gt;
&lt;br /&gt;
== 作业9：深度学习方法&amp;amp;检索结果的评价 ==&lt;br /&gt;
* 作业提交时间截止时间：第16 周下课之前提交&lt;br /&gt;
* 要求&lt;br /&gt;
** 账号环境，跑推理代码，重现完成部分实验。&lt;br /&gt;
*** 具体要跑哪些实验，请看文档最后的表格：[https://resplendent-gumdrop-ad2cd4.netlify.app/contriever-ir-course-assignment/ 具体文档] &lt;br /&gt;
** 自己实现评价指标，自己的评价指标的结果，和contriever 的结果一致。&lt;br /&gt;
** VSM和 Contriever 的对比&lt;br /&gt;
 &amp;lt;nowiki&amp;gt; 针对自己实现的“苏大计算机官网搜索引擎”，去对比VSM和Contriever的效果。&lt;br /&gt;
     自己设计10个难度不同的 query，然后 VSM 返回 50 个结果，把这 50 个结果随机打乱顺序（这一步很重要），然后人工做一个标注（给一个排序）【如果觉得 10 个 query 太多，5 个也行】&lt;br /&gt;
     Contriever对 50 个结果重排序&lt;br /&gt;
     比较两种方法的结果：NDCG@5      NDCG@10       NDCG@20等&lt;br /&gt;
     如果有能力、有时间，可以分析下：什么样的query，VSM 做得好；什么样的 query，Contriever 做得好。 &amp;lt;/nowiki&amp;gt;&lt;br /&gt;
** 实验报告体现出自己做了什么、遇到的困难及如何解决。&lt;br /&gt;
&lt;br /&gt;
* 参考资料&lt;br /&gt;
** 上面的文档&lt;br /&gt;
** 微信公众号”语析LAGroup“中 contriever 论文解读&lt;br /&gt;
** contriever 原文&lt;br /&gt;
&lt;br /&gt;
== 时间表 ==&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
 &amp;lt;nowiki&amp;gt;&lt;br /&gt;
3.5 第1周&lt;br /&gt;
3.12 第2周&lt;br /&gt;
&lt;br /&gt;
xxx&lt;br /&gt;
3.25 第5周&lt;br /&gt;
4.1 第6周&lt;br /&gt;
4.29 第10周&lt;br /&gt;
5.6 第11周&lt;br /&gt;
5.27 第14周&lt;br /&gt;
6.3 第15周&lt;br /&gt;
6.17 第17周&lt;br /&gt;
&lt;br /&gt;
1	08:00-08:45&lt;br /&gt;
2	08:50-09:35&lt;br /&gt;
3	09:55-10:40&lt;br /&gt;
4	10:45-11:30&lt;br /&gt;
5	11:35-12:20&lt;br /&gt;
6	14:00-14:45&lt;br /&gt;
7	14:50-15:35 【休息5分钟，+15分钟】&lt;br /&gt;
8	15:55-16:40 &lt;br /&gt;
9	16:45-17:30 【17:15】   &lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
考虑来2-3 次考试。&lt;br /&gt;
闭卷考试，比较正式的那种。在机房里就行。然后拍照留存？&lt;br /&gt;
&lt;br /&gt;
2次考试的方案：&lt;br /&gt;
倒排搞完 考一次&lt;br /&gt;
最后一次 &lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
3次考试的方案：&lt;br /&gt;
最大匹配分词搞完，考一次&lt;br /&gt;
布尔查询搞完 考一次&lt;br /&gt;
最后一次 &lt;br /&gt;
&lt;br /&gt;
上机课9 个作业，实验报告，主要是形式审查，占比比较低。要根据考试的成绩，然后加权得到每一次作业的成绩。&lt;br /&gt;
最后，9 个作业再按照一定比例，得到实验成绩。&lt;br /&gt;
&lt;br /&gt;
&amp;lt;/nowiki&amp;gt;&lt;/div&gt;</summary>
		<author><name>Zhli</name></author>
	</entry>
	<entry>
		<id>http://hlt.suda.edu.cn/index.php?title=Ir-2026-spring&amp;diff=6208</id>
		<title>Ir-2026-spring</title>
		<link rel="alternate" type="text/html" href="http://hlt.suda.edu.cn/index.php?title=Ir-2026-spring&amp;diff=6208"/>
		<updated>2026-03-19T07:45:43Z</updated>

		<summary type="html">&lt;p&gt;Zhli：/* 具体作业 */&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;&lt;br /&gt;
&lt;br /&gt;
= 信息检索综合实践 =&lt;br /&gt;
&lt;br /&gt;
李正华&lt;br /&gt;
&lt;br /&gt;
* 学生：计23计科1班	 	 	 &lt;br /&gt;
* 助教：吕喆、梅睿桐  &lt;br /&gt;
* QQ群: xx&lt;br /&gt;
* 时间：周四 6-9 节课 1-17 周&lt;br /&gt;
* 地点：理工楼238&lt;br /&gt;
&lt;br /&gt;
== 上课基本要求 ==&lt;br /&gt;
* 不能做的事情：打游戏、看课程无关视频、刷网页&lt;br /&gt;
* 认真读作业要求，按时交作业。csteaching&lt;br /&gt;
* 不能抄袭别人或网上的，自己做；不要把自己的作业给别人&lt;br /&gt;
&lt;br /&gt;
== 课程建议 ==&lt;br /&gt;
* 每个作业，截止时间后，把成绩发给大家，并用ppt给大家讲一下批作业发现的问题，题目分析&lt;br /&gt;
* 上课期间：请大家积极提问。遇到大家都无法理解的公共问题，我会补充讲解&lt;br /&gt;
* 非上课时间提问&lt;br /&gt;
** 建议同学们在群里提问（包括但不限于代码的bug、不理解算法、作业资源和提交等），由其他同学帮助解答；&lt;br /&gt;
** 群里的提问如果其他同学也无法回答，可以私信助教（仅限xxx，如周四晚上7点到9点，吕喆增加）；&lt;br /&gt;
&lt;br /&gt;
== 计算成绩的规则和说明（待定） ==&lt;br /&gt;
* &amp;lt;font color='red&amp;gt;核心要求：掌握最基本的概念、方法、算法&amp;lt;/font&amp;gt;&lt;br /&gt;
* 实验作业：70分&lt;br /&gt;
** 一系列作业，每个作业 5-15分（形式检查为辅、平时考核为主）&lt;br /&gt;
*** &amp;lt;font color='red&amp;gt;平时考核：考察课程相关的基础知识，看看作业是否是自己做的&amp;lt;/font&amp;gt;&lt;br /&gt;
** 必须按照规定时间，按照规定格式要求，将实验报告+源代码，提交到网站（见下面）中&lt;br /&gt;
* 平时成绩：30分&lt;br /&gt;
** 不能迟到、早退，特殊情况必须请假，并带辅导员签字的假条；&lt;br /&gt;
** 签到表：除了姓名，还要写一下进展&lt;br /&gt;
&lt;br /&gt;
== 提交作业说明 ==&lt;br /&gt;
* 作业网址：本学期开始的实验布置、提交与批改等不再使用csteaching平台，统一改用工程认证管理系统。请各位老师通过工程认证管理系统（网址[http://42.244.43.76:8000/ http://42.244.43.76:8000/]）开展实验布置、批改等相关工作，并烦请同步通知班级学生在该系统完成实验提交。&lt;br /&gt;
* &amp;lt;font color='red&amp;gt;作业迟交了则最终成绩会按一定比例缩减&amp;lt;/font&amp;gt;&lt;br /&gt;
* 包含两部分&lt;br /&gt;
** 实验报告（pdf文件，&amp;lt;font color='red&amp;gt;请把word转为pdf&amp;lt;/font&amp;gt;）&lt;br /&gt;
*** 请按照实验模版[[:文件:ir-2022-spring-report.doc]]，认真填写个人信息、实验题目、实验内容等&lt;br /&gt;
*** 不要大段粘贴代码，最多可以粘贴核心的一小段代码，&amp;lt;font color='red&amp;gt;粘贴大段代码会扣分&amp;lt;/font&amp;gt;&lt;br /&gt;
*** 写清楚自己的解决思路，尤其是遇到的难点和如何解决&lt;br /&gt;
*** 建议可以画流程图或者写伪代码。&lt;br /&gt;
*** 解决思路的流程图中是以文字为主还是以代码为主？报告中不要直接放代码。文字为主，不在于写得长，而在于写清楚，表明你确实做了、想了。&lt;br /&gt;
*** 问：流程图可以改成自然语言描述或者是伪代码吗？答：流程图也可以画的很high-level的。大家自由发挥。也可以画到纸上然后拍照截图。模块化思维 大问题分解小问题 。&lt;br /&gt;
*** &amp;lt;font color='red&amp;gt;将程序运行结果截图，没有运行结果会扣分&amp;lt;/font&amp;gt;，中间的输出结果/文件可以截图一部分&lt;br /&gt;
** 附件（.zip压缩包）&lt;br /&gt;
*** 源代码：代码不要都团在一起，请用空行对代码进行分隔，并简单注释代码块的功能&lt;br /&gt;
*** readme.txt文件：说明如何运行你的程序，需要什么环境，如windows或linux，python版本如python3.5&lt;br /&gt;
* 提交前自我检查&lt;br /&gt;
** 是否有包含readme.txt文件解释如何编译执行你的程序。 &amp;lt;font color='red&amp;gt;如没有该文件，将减分。&amp;lt;/font&amp;gt;&lt;br /&gt;
** 是否认真完成实验报告&lt;br /&gt;
** 是否可以按照readme.txt正确编译和运行程序&lt;br /&gt;
** 是否包含别人的代码，&amp;lt;font color='red&amp;gt;抄袭和被抄袭的都是0分&amp;lt;/font&amp;gt;&lt;br /&gt;
** 期末可能会用软件做自动抄袭检查&lt;br /&gt;
** 等这学期最后几周，我们可能统一对所有的作业做自动查重，到时候也会查出一些问题。 &amp;lt;font color='red&amp;gt;请大家一定要自己做，编程能力差一点，就做得简单一点，能力强，就做得好一点。但是一定要自己做。 &amp;lt;/font&amp;gt;&lt;br /&gt;
* 提交作业命名规则&lt;br /&gt;
** 实验报告（姓名学号.pdf）&lt;br /&gt;
** 附件（姓名学号.zip）&lt;br /&gt;
&lt;br /&gt;
== 实验报告word模板 ==&lt;br /&gt;
* [[:文件:ir-2022-spring-report.doc]]&lt;br /&gt;
&lt;br /&gt;
== 具体内容（含作业：平时：30 分；实验：70 分） == &lt;br /&gt;
&lt;br /&gt;
{| class=&amp;quot;wikitable&amp;quot;&lt;br /&gt;
! style=&amp;quot;text-align:left;&amp;quot;| 作业&lt;br /&gt;
! 成绩比例&lt;br /&gt;
! 评分要点&lt;br /&gt;
|-&lt;br /&gt;
| 分字&lt;br /&gt;
| 5%&lt;br /&gt;
| 按字节读取并判断高位&lt;br /&gt;
|-&lt;br /&gt;
| 单词计数&lt;br /&gt;
| 5%&lt;br /&gt;
| 无&lt;br /&gt;
|-&lt;br /&gt;
| 最大匹配分词&lt;br /&gt;
| 10%&lt;br /&gt;
| 算法和评价正确实现&lt;br /&gt;
|-&lt;br /&gt;
| 网页正文抽取&lt;br /&gt;
| 10%&lt;br /&gt;
| 按要求完成两个任务&lt;br /&gt;
|-&lt;br /&gt;
| 倒排索引&lt;br /&gt;
| 15%&lt;br /&gt;
| 高效创建倒排文件&lt;br /&gt;
|-&lt;br /&gt;
| 布尔查询&lt;br /&gt;
| 10%&lt;br /&gt;
| inter和union的复杂度为O(n)，复杂查询用堆栈判断优先级&lt;br /&gt;
|-&lt;br /&gt;
| 网页相关性排序&lt;br /&gt;
| 15%&lt;br /&gt;
| 基于向量空间模型VSM、tf-idf权重&lt;br /&gt;
|-&lt;br /&gt;
| 爬虫和某机构主页检索系统&lt;br /&gt;
| 15%&lt;br /&gt;
| 实现爬虫，系统架构设计良好，说明文档详细，UI完整&lt;br /&gt;
|-&lt;br /&gt;
| &amp;lt;font color='black&amp;gt;基于深度学习的检索系统&amp;lt;/font&amp;gt;&lt;br /&gt;
| 15% &lt;br /&gt;
| Contriever：重现部分实验结果；自己实现评价指标；在上一个作业中的爬虫和检索系统的基础上，自己设计、标注 10 个 query，对比向量空间模型VSM 和Contriever 的效果，给出评价结果。建议：VSM 给 100 个结果，然后 Contriever 重排序，然后人工标注，具体如何标注更合理，自己考虑好。&lt;br /&gt;
|-&lt;br /&gt;
|}&lt;br /&gt;
&lt;br /&gt;
== 信息检索课程介绍 ==&lt;br /&gt;
* [http://hlt.suda.edu.cn/~zhli/teach/ir-2019-spring/ir-introduction-v0.4.pdf PPT下载]&lt;br /&gt;
* 2022春视频和图片：&lt;br /&gt;
** 低画质：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/course-intro-low-quality.mp4 课程介绍]&lt;br /&gt;
** 高画质：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/course-intro-part-1.mp4 课程介绍-part1]、 [http://hlt.suda.edu.cn/LA/Ir-2022-Spring/course-intro-part-2.mp4 课程介绍-part2]&lt;br /&gt;
** 图片：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/course-intro.jpg 图]&lt;br /&gt;
&lt;br /&gt;
* &amp;lt;font color='red&amp;gt;和2022年课程的区别&amp;lt;/font&amp;gt;：增加了'''基于深度学习的检索'''的内容，删除'''词性标注'''相关内容&lt;br /&gt;
&lt;br /&gt;
== 信息检索系统介绍 ==&lt;br /&gt;
* 2022春视频：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/intro-to-info-retrieval.mp4 信息检索系统介绍]&lt;br /&gt;
&lt;br /&gt;
= 具体作业 =&lt;br /&gt;
&lt;br /&gt;
== 作业1：分字（C++语言） ==&lt;br /&gt;
* 2022春视频和图片：&lt;br /&gt;
** 低画质：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/split-char-low-quality.mp4 作业1]&lt;br /&gt;
** 高画质：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/split-char-part-1.mp4 作业1-part1]、 [http://hlt.suda.edu.cn/LA/Ir-2022-Spring/split-char-part-2.mp4 作业1-part2]&lt;br /&gt;
** 图片：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/split-char-figure-1.jpg 图1]、 [http://hlt.suda.edu.cn/LA/Ir-2022-Spring/split-char-figure-2.jpg 图2]&lt;br /&gt;
* UTF-8数据：[[文件:sentence.txt]]&lt;br /&gt;
* UFT-8编码规则：&lt;br /&gt;
 &amp;lt;nowiki&amp;gt;&lt;br /&gt;
1字节 0xxxxxxx&lt;br /&gt;
2字节 110xxxxx 10xxxxxx&lt;br /&gt;
3字节 1110xxxx 10xxxxxx 10xxxxxx&lt;br /&gt;
4字节 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx&lt;br /&gt;
5字节 111110xx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx&lt;br /&gt;
6字节 1111110x 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx &amp;lt;/nowiki&amp;gt;&lt;br /&gt;
&lt;br /&gt;
== 作业2：单词计数 ==&lt;br /&gt;
* 课件 [http://hlt.suda.edu.cn/~zhli/teach/ir-2019-spring/word-count.pdf PPT下载]&lt;br /&gt;
* 2022春视频：&lt;br /&gt;
** 低画质：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/word-count-low-quality.mp4 作业2]&lt;br /&gt;
** 高画质：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/word-count-2.mp4 作业2] &lt;br /&gt;
* 数据 [http://hlt.suda.edu.cn/~zhli/teach/ir-2019-spring/sample-en.txt txt下载]&lt;br /&gt;
&lt;br /&gt;
== 作业3：最大匹配分词 == &lt;br /&gt;
* 作业提交时间截止时间：第4周下课之前提交&lt;br /&gt;
* 课件：前向最大匹配 PDF文件--[[文件:Word-seg-max-match.pdf]]；PPT文件--[[文件:Word-seg-max-match.zip]]&lt;br /&gt;
* 2022春视频和图片：&lt;br /&gt;
** 低画质：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/word-seg-max-match-low-quality.mp4 作业3]&lt;br /&gt;
** 高画质：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/word-seg-max-match.mp4 作业3] &lt;br /&gt;
** 图片：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/word-seg-max-match.jpg 图] &lt;br /&gt;
&lt;br /&gt;
* 数据下载：&lt;br /&gt;
** 字典：[[文件:dict.txt]] &lt;br /&gt;
** 待分词：[[文件:sentence.txt]] &lt;br /&gt;
** 正确答案（人工标注的，你的模型的预测结果要和这个文件进行对比，从而得到P/R/F值）：[[文件:answer.txt]]；&lt;br /&gt;
** 正向最大匹配分词模型的预测结果（如果你的程序写对了，那么应该和这个结果一模一样）：[[文件:out.txt]]&lt;br /&gt;
&lt;br /&gt;
 &amp;lt;nowiki&amp;gt;&lt;br /&gt;
*正确实验结果&lt;br /&gt;
**正确识别的词数：20263&lt;br /&gt;
**识别出的总体个数：20397&lt;br /&gt;
**测试集中的总体个数：20454&lt;br /&gt;
**正确率：0.99343&lt;br /&gt;
**召回率：0.99066&lt;br /&gt;
**F值：0.99204 &amp;lt;/nowiki&amp;gt;&lt;br /&gt;
&lt;br /&gt;
== 作业4：网页正文抽取 ==&lt;br /&gt;
&lt;br /&gt;
* 作业提交时间截止时间：第 6 周下课前提交&lt;br /&gt;
* 2022春视频： [http://hlt.suda.edu.cn/LA/Ir-2022-Spring/web-page-content-extraction.mp4 作业4]&lt;br /&gt;
* 课件（&amp;lt;font color='red'&amp;gt;请严格按照课件要求完成作业&amp;lt;/font&amp;gt;）： &lt;br /&gt;
** [[:文件:ir-2022-spring-web-page-content-extraction.ppt]]&lt;br /&gt;
** [[:文件:ir-2022-spring-web-page-content-extraction.pdf]]&lt;br /&gt;
* 数据&lt;br /&gt;
** 1.html和2.html [[:文件:ir-2022-spring-example-html.zip]]&lt;br /&gt;
** data-1k：1000个html文件 [[:文件:ir-2022-spring-all-html.zip]] （如果文件出现乱码，请到qq群里下载）&lt;br /&gt;
&lt;br /&gt;
== 作业5：倒排索引 == &lt;br /&gt;
&lt;br /&gt;
* 作业提交时间截止时间：第8周下课前提交&lt;br /&gt;
* 课件： &lt;br /&gt;
** 仅供参考，与本次作业要求无关：[[:文件:ir-2022-spring-inverted-index-simplified.ppt]]&lt;br /&gt;
*  2022春视频和图片： &lt;br /&gt;
** 视频：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/inverted-index.mp4 作业5]&lt;br /&gt;
** 图片：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/inverted-index.jpg 图]&lt;br /&gt;
* 数据&lt;br /&gt;
** 停用词表：[https://github.com/goto456/stopwords github网址] [http://hlt.suda.edu.cn/LA/Ir-2022-Spring/stopwords.zip 苏大本地下载] &lt;br /&gt;
** 结巴词典：[https://github.com/fxsjy/jieba/tree/master/extra_dict github网址] [http://hlt.suda.edu.cn/LA/Ir-2022-Spring/word_dict.zip 苏大本地下载]&lt;br /&gt;
** 结巴词典文件每一行有3列，为：单词、词频、词性，只需要使用第一列的单词即可，使用small进行调试，提交作业用big&lt;br /&gt;
&lt;br /&gt;
== 作业6：布尔查询 ==&lt;br /&gt;
&lt;br /&gt;
* 作业提交时间截止时间：第 10 周下课前提交&lt;br /&gt;
*  2022春视频和图片： &lt;br /&gt;
** 视频：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/bool-query.mp4 作业6]&lt;br /&gt;
** 图片：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/bool-query.jpg 图]&lt;br /&gt;
* 作业提交说明：&lt;br /&gt;
** 附件中给出本次作业使用的倒排索引文件（可以在作业5的基础上进行优化），&amp;lt;font color=&amp;quot;red&amp;quot;&amp;gt;不需要提供构建倒排索引的代码，但在实验报告中给出倒排索引文件的说明，参考侯皓文同学&amp;lt;/font&amp;gt;&lt;br /&gt;
** 交集、并集操作用inter()、union()这两个函数单独封装&lt;br /&gt;
** &amp;lt;font color=&amp;quot;red&amp;quot;&amp;gt;对4个语句&amp;lt;/font&amp;gt; 'A', 'B', 'A AND B', 'A OR B' （A、B为自定义的查询词） 分别进行一次查询，每次的查询结果单独保存到一个txt文件中，以查询语句作为文件名（如 'A AND B.txt'`）&lt;br /&gt;
** 结果展示部分，文件按名字字母序排序：指字符序（用内置的sort即可），先用pinyin包转成拼音再排序也可以，不要自行改变文件名（如 阿大.txt -&amp;gt; 34.txt）&lt;br /&gt;
** 实现更复杂的查询，如：'A AND B OR C' 可以加分&lt;br /&gt;
** 查询词的加重（用#标记）不做强制要求，但做了加分&lt;br /&gt;
&lt;br /&gt;
== 作业7：基于向量空间模型（VSM）和tf-idf权重的网页相关性排序 ==&lt;br /&gt;
&lt;br /&gt;
* 作业提交时间截止时间：第 12 周之前提交&lt;br /&gt;
** 视频：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/web-page-rank.mp4 作业7]&lt;br /&gt;
** 图片：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/web-page-rank-1.jpg 图片1]  [http://hlt.suda.edu.cn/LA/Ir-2022-Spring/web-page-rank-2.jpg 图片2]&lt;br /&gt;
* 作业要求：&lt;br /&gt;
** 如果无法理解向量空间模型，可以选择做tf-idf作业，但最多只给50分&lt;br /&gt;
** 实现基于向量空间模型的网页相关性排序&lt;br /&gt;
** 给定一个查询Q：可以是手动用空格分好词的&amp;quot;李正华 招收 学生&amp;quot;；也可以是未分词的&amp;quot;李正华招收学生&amp;quot;，之后用最大匹配分词分好词 -&amp;gt; &amp;quot;李正华 招收 学生&amp;quot;&lt;br /&gt;
** 注释：一个给定分词的查询Q实际上等价于布尔查询OR：&amp;quot;李正华 招收 学生&amp;quot; &amp;lt;=&amp;gt; &amp;quot;李正华 OR 招收 OR 学生&amp;quot;&lt;br /&gt;
* 作业提交说明：&lt;br /&gt;
** 附件中给出本任务所使用的倒排索引文件&lt;br /&gt;
** 在实验报告中说明对于余弦相似度计算中的：di[k]、q[k]、|di|、|q|是如何处理或存储的&lt;br /&gt;
** 附件中给出一个查询Q的结果，保存为文本文件&amp;quot;Q.txt&amp;quot;中，格式为：&lt;br /&gt;
&lt;br /&gt;
  文档名1（余弦相似度Sim） # Sim值可不除以|q|的值，一个例子： 阿鲁巴岛.txt(0.64)&lt;br /&gt;
  句子1&lt;br /&gt;
  句子2&lt;br /&gt;
  ...&lt;br /&gt;
  文档名2（余弦相似度Sim）&lt;br /&gt;
  句子1&lt;br /&gt;
  句子2&lt;br /&gt;
  ...&lt;br /&gt;
  ......&lt;br /&gt;
&lt;br /&gt;
== 作业8：爬虫和某机构主页检索系统（综合项目） ==&lt;br /&gt;
&lt;br /&gt;
* 作业提交时间截止时间：第14 周下课之前提交&lt;br /&gt;
** 视频：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/web-spider.mp4 作业8]&lt;br /&gt;
** PPT：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/web-spider.pptx PPT]&lt;br /&gt;
* 任务一：用&amp;lt;font color=&amp;quot;red&amp;quot;&amp;gt;爬虫模块&amp;lt;/font&amp;gt;尽量完整地爬下来一个机构对应的所有静态网页（html或htm后缀），保存到磁盘中：&lt;br /&gt;
** 苏大、苏大计算机学院（规模小一点）都可以&lt;br /&gt;
** orphan网页不用考虑&lt;br /&gt;
* 任务二：基于爬取的网页，做一个完整的检索系统（以后可以考虑不断完善、定时更新）：&lt;br /&gt;
** 1. &amp;lt;font color=&amp;quot;red&amp;quot;&amp;gt;网页正文提取模块&amp;lt;/font&amp;gt;（同作业4的实战部分一致）&lt;br /&gt;
** 2. 处理网页正文的&amp;lt;font color=&amp;quot;red&amp;quot;&amp;gt;分句、分词模块&amp;lt;/font&amp;gt;（可以用作业3的最大匹配分词，也可以用第三方的分词器，如jieba）&lt;br /&gt;
** 3. &amp;lt;font color=&amp;quot;red&amp;quot;&amp;gt;倒排索引模块&amp;lt;/font&amp;gt;：基于处理好的网页正文，建立倒排索引文件（同作业5一致）&lt;br /&gt;
** 4. &amp;lt;font color=&amp;quot;red&amp;quot;&amp;gt;网页排序模块&amp;lt;/font&amp;gt;：实现网页相关性排序（同作业7一致）&lt;br /&gt;
** 5. &amp;lt;font color=&amp;quot;red&amp;quot;&amp;gt;查询模块&amp;lt;/font&amp;gt;：提供查询接口，用户输入查询词后显示网页名（暂定为网页的title），和包含查询词的句子，查询词进行highlight处理（如#查询词#）。查询接口可以用命令行实现，提供前端UI界面（Web或Application都可以）会获得加分。&lt;br /&gt;
&lt;br /&gt;
注意：把网页源文件（html文件）保存好，避免重复爬。例如优化了网页正文提取模块、或突然想用一个更好的分词器&lt;br /&gt;
&lt;br /&gt;
* 作业提交说明：&lt;br /&gt;
** 源代码：任务一和任务二的所有代码都要提交，每个模块（共6个，在上方已用红色标出）在readme中指明在哪个python文件中实现的&lt;br /&gt;
** 处理好的网页数据（可选）：原始网页，提取出并分好句、分好词的网页正文，若网页数据特别大的话可以不要&lt;br /&gt;
** 在实验报告中将三项统计信息放到表格中：网页（文档）数、句子数、单词数&lt;br /&gt;
** 倒排索引文件（必备）&lt;br /&gt;
** 说明文档：(每个模块的)实现的功能，如何使用，接口等，内容不限&lt;br /&gt;
&lt;br /&gt;
== 作业9：深度学习方法&amp;amp;检索结果的评价 ==&lt;br /&gt;
* 作业提交时间截止时间：第16 周下课之前提交&lt;br /&gt;
* 要求&lt;br /&gt;
** 账号环境，跑推理代码，重现完成部分实验。&lt;br /&gt;
*** 具体要跑哪些实验，请看文档最后的表格：[https://resplendent-gumdrop-ad2cd4.netlify.app/contriever-ir-course-assignment/ 具体文档] &lt;br /&gt;
** 自己实现评价指标，自己的评价指标的结果，和contriever 的结果一致。&lt;br /&gt;
** VSM和 Contriever 的对比&lt;br /&gt;
 &amp;lt;nowiki&amp;gt; 针对自己实现的“苏大计算机官网搜索引擎”，去对比VSM和Contriever的效果。&lt;br /&gt;
     自己设计10个难度不同的 query，然后 VSM 返回 50 个结果，把这 50 个结果随机打乱顺序（这一步很重要），然后人工做一个标注（给一个排序）【如果觉得 10 个 query 太多，5 个也行】&lt;br /&gt;
     Contriever对 50 个结果重排序&lt;br /&gt;
     比较两种方法的结果：NDCG@5      NDCG@10       NDCG@20等&lt;br /&gt;
     如果有能力、有时间，可以分析下：什么样的query，VSM 做得好；什么样的 query，Contriever 做得好。 &amp;lt;/nowiki&amp;gt;&lt;br /&gt;
** 实验报告体现出自己做了什么、遇到的困难及如何解决。&lt;br /&gt;
&lt;br /&gt;
* 参考资料&lt;br /&gt;
** 上面的文档&lt;br /&gt;
** 微信公众号”语析LAGroup“中 contriever 论文解读&lt;br /&gt;
** contriever 原文&lt;br /&gt;
&lt;br /&gt;
== 时间表 ==&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
 &amp;lt;nowiki&amp;gt;&lt;br /&gt;
3.5 第1周&lt;br /&gt;
3.12 第2周&lt;br /&gt;
&lt;br /&gt;
xxx&lt;br /&gt;
3.25 第5周&lt;br /&gt;
4.1 第6周&lt;br /&gt;
4.29 第10周&lt;br /&gt;
5.6 第11周&lt;br /&gt;
5.27 第14周&lt;br /&gt;
6.3 第15周&lt;br /&gt;
6.17 第17周&lt;br /&gt;
&lt;br /&gt;
1	08:00-08:45&lt;br /&gt;
2	08:50-09:35&lt;br /&gt;
3	09:55-10:40&lt;br /&gt;
4	10:45-11:30&lt;br /&gt;
5	11:35-12:20&lt;br /&gt;
6	14:00-14:45&lt;br /&gt;
7	14:50-15:35 【休息5分钟，+15分钟】&lt;br /&gt;
8	15:55-16:40 &lt;br /&gt;
9	16:45-17:30 【17:15】   &lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
考虑来2-3 次考试。&lt;br /&gt;
闭卷考试，比较正式的那种。在机房里就行。然后拍照留存？&lt;br /&gt;
&lt;br /&gt;
2次考试的方案：&lt;br /&gt;
倒排搞完 考一次&lt;br /&gt;
最后一次 &lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
3次考试的方案：&lt;br /&gt;
最大匹配分词搞完，考一次&lt;br /&gt;
布尔查询搞完 考一次&lt;br /&gt;
最后一次 &lt;br /&gt;
&lt;br /&gt;
上机课9 个作业，实验报告，主要是形式审查，占比比较低。要根据考试的成绩，然后加权得到每一次作业的成绩。&lt;br /&gt;
最后，9 个作业再按照一定比例，得到实验成绩。&lt;br /&gt;
&lt;br /&gt;
&amp;lt;/nowiki&amp;gt;&lt;/div&gt;</summary>
		<author><name>Zhli</name></author>
	</entry>
	<entry>
		<id>http://hlt.suda.edu.cn/index.php?title=Ir-2026-spring&amp;diff=6207</id>
		<title>Ir-2026-spring</title>
		<link rel="alternate" type="text/html" href="http://hlt.suda.edu.cn/index.php?title=Ir-2026-spring&amp;diff=6207"/>
		<updated>2026-03-19T07:42:57Z</updated>

		<summary type="html">&lt;p&gt;Zhli：/* 具体作业 */&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;&lt;br /&gt;
&lt;br /&gt;
= 信息检索综合实践 =&lt;br /&gt;
&lt;br /&gt;
李正华&lt;br /&gt;
&lt;br /&gt;
* 学生：计23计科1班	 	 	 &lt;br /&gt;
* 助教：吕喆、梅睿桐  &lt;br /&gt;
* QQ群: xx&lt;br /&gt;
* 时间：周四 6-9 节课 1-17 周&lt;br /&gt;
* 地点：理工楼238&lt;br /&gt;
&lt;br /&gt;
== 上课基本要求 ==&lt;br /&gt;
* 不能做的事情：打游戏、看课程无关视频、刷网页&lt;br /&gt;
* 认真读作业要求，按时交作业。csteaching&lt;br /&gt;
* 不能抄袭别人或网上的，自己做；不要把自己的作业给别人&lt;br /&gt;
&lt;br /&gt;
== 课程建议 ==&lt;br /&gt;
* 每个作业，截止时间后，把成绩发给大家，并用ppt给大家讲一下批作业发现的问题，题目分析&lt;br /&gt;
* 上课期间：请大家积极提问。遇到大家都无法理解的公共问题，我会补充讲解&lt;br /&gt;
* 非上课时间提问&lt;br /&gt;
** 建议同学们在群里提问（包括但不限于代码的bug、不理解算法、作业资源和提交等），由其他同学帮助解答；&lt;br /&gt;
** 群里的提问如果其他同学也无法回答，可以私信助教（仅限xxx，如周四晚上7点到9点，吕喆增加）；&lt;br /&gt;
&lt;br /&gt;
== 计算成绩的规则和说明（待定） ==&lt;br /&gt;
* &amp;lt;font color='red&amp;gt;核心要求：掌握最基本的概念、方法、算法&amp;lt;/font&amp;gt;&lt;br /&gt;
* 实验作业：70分&lt;br /&gt;
** 一系列作业，每个作业 5-15分（形式检查为辅、平时考核为主）&lt;br /&gt;
*** &amp;lt;font color='red&amp;gt;平时考核：考察课程相关的基础知识，看看作业是否是自己做的&amp;lt;/font&amp;gt;&lt;br /&gt;
** 必须按照规定时间，按照规定格式要求，将实验报告+源代码，提交到网站（见下面）中&lt;br /&gt;
* 平时成绩：30分&lt;br /&gt;
** 不能迟到、早退，特殊情况必须请假，并带辅导员签字的假条；&lt;br /&gt;
** 签到表：除了姓名，还要写一下进展&lt;br /&gt;
&lt;br /&gt;
== 提交作业说明 ==&lt;br /&gt;
* 作业网址：本学期开始的实验布置、提交与批改等不再使用csteaching平台，统一改用工程认证管理系统。请各位老师通过工程认证管理系统（网址[http://42.244.43.76:8000/ http://42.244.43.76:8000/]）开展实验布置、批改等相关工作，并烦请同步通知班级学生在该系统完成实验提交。&lt;br /&gt;
* &amp;lt;font color='red&amp;gt;作业迟交了则最终成绩会按一定比例缩减&amp;lt;/font&amp;gt;&lt;br /&gt;
* 包含两部分&lt;br /&gt;
** 实验报告（pdf文件，&amp;lt;font color='red&amp;gt;请把word转为pdf&amp;lt;/font&amp;gt;）&lt;br /&gt;
*** 请按照实验模版[[:文件:ir-2022-spring-report.doc]]，认真填写个人信息、实验题目、实验内容等&lt;br /&gt;
*** 不要大段粘贴代码，最多可以粘贴核心的一小段代码，&amp;lt;font color='red&amp;gt;粘贴大段代码会扣分&amp;lt;/font&amp;gt;&lt;br /&gt;
*** 写清楚自己的解决思路，尤其是遇到的难点和如何解决&lt;br /&gt;
*** 建议可以画流程图或者写伪代码。&lt;br /&gt;
*** 解决思路的流程图中是以文字为主还是以代码为主？报告中不要直接放代码。文字为主，不在于写得长，而在于写清楚，表明你确实做了、想了。&lt;br /&gt;
*** 问：流程图可以改成自然语言描述或者是伪代码吗？答：流程图也可以画的很high-level的。大家自由发挥。也可以画到纸上然后拍照截图。模块化思维 大问题分解小问题 。&lt;br /&gt;
*** &amp;lt;font color='red&amp;gt;将程序运行结果截图，没有运行结果会扣分&amp;lt;/font&amp;gt;，中间的输出结果/文件可以截图一部分&lt;br /&gt;
** 附件（.zip压缩包）&lt;br /&gt;
*** 源代码：代码不要都团在一起，请用空行对代码进行分隔，并简单注释代码块的功能&lt;br /&gt;
*** readme.txt文件：说明如何运行你的程序，需要什么环境，如windows或linux，python版本如python3.5&lt;br /&gt;
* 提交前自我检查&lt;br /&gt;
** 是否有包含readme.txt文件解释如何编译执行你的程序。 &amp;lt;font color='red&amp;gt;如没有该文件，将减分。&amp;lt;/font&amp;gt;&lt;br /&gt;
** 是否认真完成实验报告&lt;br /&gt;
** 是否可以按照readme.txt正确编译和运行程序&lt;br /&gt;
** 是否包含别人的代码，&amp;lt;font color='red&amp;gt;抄袭和被抄袭的都是0分&amp;lt;/font&amp;gt;&lt;br /&gt;
** 期末可能会用软件做自动抄袭检查&lt;br /&gt;
** 等这学期最后几周，我们可能统一对所有的作业做自动查重，到时候也会查出一些问题。 &amp;lt;font color='red&amp;gt;请大家一定要自己做，编程能力差一点，就做得简单一点，能力强，就做得好一点。但是一定要自己做。 &amp;lt;/font&amp;gt;&lt;br /&gt;
* 提交作业命名规则&lt;br /&gt;
** 实验报告（姓名学号.pdf）&lt;br /&gt;
** 附件（姓名学号.zip）&lt;br /&gt;
&lt;br /&gt;
== 实验报告word模板 ==&lt;br /&gt;
* [[:文件:ir-2022-spring-report.doc]]&lt;br /&gt;
&lt;br /&gt;
== 具体内容（含作业：平时：30 分；实验：70 分） == &lt;br /&gt;
&lt;br /&gt;
{| class=&amp;quot;wikitable&amp;quot;&lt;br /&gt;
! style=&amp;quot;text-align:left;&amp;quot;| 作业&lt;br /&gt;
! 成绩比例&lt;br /&gt;
! 评分要点&lt;br /&gt;
|-&lt;br /&gt;
| 分字&lt;br /&gt;
| 5%&lt;br /&gt;
| 按字节读取并判断高位&lt;br /&gt;
|-&lt;br /&gt;
| 单词计数&lt;br /&gt;
| 5%&lt;br /&gt;
| 无&lt;br /&gt;
|-&lt;br /&gt;
| 最大匹配分词&lt;br /&gt;
| 10%&lt;br /&gt;
| 算法和评价正确实现&lt;br /&gt;
|-&lt;br /&gt;
| 网页正文抽取&lt;br /&gt;
| 10%&lt;br /&gt;
| 按要求完成两个任务&lt;br /&gt;
|-&lt;br /&gt;
| 倒排索引&lt;br /&gt;
| 15%&lt;br /&gt;
| 高效创建倒排文件&lt;br /&gt;
|-&lt;br /&gt;
| 布尔查询&lt;br /&gt;
| 10%&lt;br /&gt;
| inter和union的复杂度为O(n)，复杂查询用堆栈判断优先级&lt;br /&gt;
|-&lt;br /&gt;
| 网页相关性排序&lt;br /&gt;
| 15%&lt;br /&gt;
| 基于向量空间模型VSM、tf-idf权重&lt;br /&gt;
|-&lt;br /&gt;
| 爬虫和某机构主页检索系统&lt;br /&gt;
| 15%&lt;br /&gt;
| 实现爬虫，系统架构设计良好，说明文档详细，UI完整&lt;br /&gt;
|-&lt;br /&gt;
| &amp;lt;font color='black&amp;gt;基于深度学习的检索系统&amp;lt;/font&amp;gt;&lt;br /&gt;
| 15% &lt;br /&gt;
| Contriever：重现部分实验结果；自己实现评价指标；在上一个作业中的爬虫和检索系统的基础上，自己设计、标注 10 个 query，对比向量空间模型VSM 和Contriever 的效果，给出评价结果。建议：VSM 给 100 个结果，然后 Contriever 重排序，然后人工标注，具体如何标注更合理，自己考虑好。&lt;br /&gt;
|-&lt;br /&gt;
|}&lt;br /&gt;
&lt;br /&gt;
== 信息检索课程介绍 ==&lt;br /&gt;
* [http://hlt.suda.edu.cn/~zhli/teach/ir-2019-spring/ir-introduction-v0.4.pdf PPT下载]&lt;br /&gt;
* 2022春视频和图片：&lt;br /&gt;
** 低画质：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/course-intro-low-quality.mp4 课程介绍]&lt;br /&gt;
** 高画质：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/course-intro-part-1.mp4 课程介绍-part1]、 [http://hlt.suda.edu.cn/LA/Ir-2022-Spring/course-intro-part-2.mp4 课程介绍-part2]&lt;br /&gt;
** 图片：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/course-intro.jpg 图]&lt;br /&gt;
&lt;br /&gt;
* &amp;lt;font color='red&amp;gt;和2022年课程的区别&amp;lt;/font&amp;gt;：增加了'''基于深度学习的检索'''的内容，删除'''词性标注'''相关内容&lt;br /&gt;
&lt;br /&gt;
== 信息检索系统介绍 ==&lt;br /&gt;
* 2022春视频：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/intro-to-info-retrieval.mp4 信息检索系统介绍]&lt;br /&gt;
&lt;br /&gt;
= 具体作业 =&lt;br /&gt;
&lt;br /&gt;
== 作业1：分字（C++语言） ==&lt;br /&gt;
* 2022春视频和图片：&lt;br /&gt;
** 低画质：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/split-char-low-quality.mp4 作业1]&lt;br /&gt;
** 高画质：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/split-char-part-1.mp4 作业1-part1]、 [http://hlt.suda.edu.cn/LA/Ir-2022-Spring/split-char-part-2.mp4 作业1-part2]&lt;br /&gt;
** 图片：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/split-char-figure-1.jpg 图1]、 [http://hlt.suda.edu.cn/LA/Ir-2022-Spring/split-char-figure-2.jpg 图2]&lt;br /&gt;
* UTF-8数据：[[文件:sentence.txt]]&lt;br /&gt;
* UFT-8编码规则：&lt;br /&gt;
 &amp;lt;nowiki&amp;gt;&lt;br /&gt;
1字节 0xxxxxxx&lt;br /&gt;
2字节 110xxxxx 10xxxxxx&lt;br /&gt;
3字节 1110xxxx 10xxxxxx 10xxxxxx&lt;br /&gt;
4字节 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx&lt;br /&gt;
5字节 111110xx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx&lt;br /&gt;
6字节 1111110x 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx &amp;lt;/nowiki&amp;gt;&lt;br /&gt;
&lt;br /&gt;
== 作业2：单词计数 ==&lt;br /&gt;
* 课件 [http://hlt.suda.edu.cn/~zhli/teach/ir-2019-spring/word-count.pdf PPT下载]&lt;br /&gt;
* 2022春视频：&lt;br /&gt;
** 低画质：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/word-count-low-quality.mp4 作业2]&lt;br /&gt;
** 高画质：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/word-count-2.mp4 作业2] &lt;br /&gt;
* 数据 [http://hlt.suda.edu.cn/~zhli/teach/ir-2019-spring/sample-en.txt txt下载]&lt;br /&gt;
&lt;br /&gt;
== 作业3：最大匹配分词 == &lt;br /&gt;
* 作业提交时间截止时间：第4周下课之前提交&lt;br /&gt;
* 课件：前向最大匹配 PDF文件--[[文件:Word-seg-max-match.pdf]]；PPT文件--[[文件:Word-seg-max-match.zip]]&lt;br /&gt;
* 2022春视频和图片：&lt;br /&gt;
** 低画质：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/word-seg-max-match-low-quality.mp4 作业3]&lt;br /&gt;
** 高画质：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/word-seg-max-match.mp4 作业3] &lt;br /&gt;
** 图片：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/word-seg-max-match.jpg 图] &lt;br /&gt;
&lt;br /&gt;
* 数据下载：&lt;br /&gt;
** 字典：[[文件:dict.txt]] &lt;br /&gt;
** 待分词：[[文件:sentence.txt]] &lt;br /&gt;
** 正确答案（人工标注的，你的模型的预测结果要和这个文件进行对比，从而得到P/R/F值）：[[文件:answer.txt]]；&lt;br /&gt;
** 正向最大匹配分词模型的预测结果（如果你的程序写对了，那么应该和这个结果一模一样）：[[文件:out.txt]]&lt;br /&gt;
&lt;br /&gt;
 &amp;lt;nowiki&amp;gt;&lt;br /&gt;
*正确实验结果&lt;br /&gt;
**正确识别的词数：20263&lt;br /&gt;
**识别出的总体个数：20397&lt;br /&gt;
**测试集中的总体个数：20454&lt;br /&gt;
**正确率：0.99343&lt;br /&gt;
**召回率：0.99066&lt;br /&gt;
**F值：0.99204 &amp;lt;/nowiki&amp;gt;&lt;br /&gt;
&lt;br /&gt;
== 作业4：网页正文抽取 ==&lt;br /&gt;
&lt;br /&gt;
* 作业提交时间截止时间：x.x下课前提交&lt;br /&gt;
* 2022春视频： [http://hlt.suda.edu.cn/LA/Ir-2022-Spring/web-page-content-extraction.mp4 作业4]&lt;br /&gt;
* 课件（&amp;lt;font color='red'&amp;gt;请严格按照课件要求完成作业&amp;lt;/font&amp;gt;）： &lt;br /&gt;
** [[:文件:ir-2022-spring-web-page-content-extraction.ppt]]&lt;br /&gt;
** [[:文件:ir-2022-spring-web-page-content-extraction.pdf]]&lt;br /&gt;
* 数据&lt;br /&gt;
** 1.html和2.html [[:文件:ir-2022-spring-example-html.zip]]&lt;br /&gt;
** data-1k：1000个html文件 [[:文件:ir-2022-spring-all-html.zip]] （如果文件出现乱码，请到qq群里下载）&lt;br /&gt;
&lt;br /&gt;
== 作业5：倒排索引 == &lt;br /&gt;
&lt;br /&gt;
* 作业提交时间截止时间：第8周4.15下课前提交&lt;br /&gt;
* 课件： &lt;br /&gt;
** 仅供参考，与本次作业要求无关：[[:文件:ir-2022-spring-inverted-index-simplified.ppt]]&lt;br /&gt;
*  2022春视频和图片： &lt;br /&gt;
** 视频：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/inverted-index.mp4 作业5]&lt;br /&gt;
** 图片：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/inverted-index.jpg 图]&lt;br /&gt;
* 数据&lt;br /&gt;
** 停用词表：[https://github.com/goto456/stopwords github网址] [http://hlt.suda.edu.cn/LA/Ir-2022-Spring/stopwords.zip 苏大本地下载] &lt;br /&gt;
** 结巴词典：[https://github.com/fxsjy/jieba/tree/master/extra_dict github网址] [http://hlt.suda.edu.cn/LA/Ir-2022-Spring/word_dict.zip 苏大本地下载]&lt;br /&gt;
** 结巴词典文件每一行有3列，为：单词、词频、词性，只需要使用第一列的单词即可，使用small进行调试，提交作业用big&lt;br /&gt;
&lt;br /&gt;
== 作业6：布尔查询 ==&lt;br /&gt;
&lt;br /&gt;
* 作业提交时间截止时间：x.x下课前提交&lt;br /&gt;
*  2022春视频和图片： &lt;br /&gt;
** 视频：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/bool-query.mp4 作业6]&lt;br /&gt;
** 图片：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/bool-query.jpg 图]&lt;br /&gt;
* 作业提交说明：&lt;br /&gt;
** 附件中给出本次作业使用的倒排索引文件（可以在作业5的基础上进行优化），&amp;lt;font color=&amp;quot;red&amp;quot;&amp;gt;不需要提供构建倒排索引的代码，但在实验报告中给出倒排索引文件的说明，参考侯皓文同学&amp;lt;/font&amp;gt;&lt;br /&gt;
** 交集、并集操作用inter()、union()这两个函数单独封装&lt;br /&gt;
** &amp;lt;font color=&amp;quot;red&amp;quot;&amp;gt;对4个语句&amp;lt;/font&amp;gt; 'A', 'B', 'A AND B', 'A OR B' （A、B为自定义的查询词） 分别进行一次查询，每次的查询结果单独保存到一个txt文件中，以查询语句作为文件名（如 'A AND B.txt'`）&lt;br /&gt;
** 结果展示部分，文件按名字字母序排序：指字符序（用内置的sort即可），先用pinyin包转成拼音再排序也可以，不要自行改变文件名（如 阿大.txt -&amp;gt; 34.txt）&lt;br /&gt;
** 实现更复杂的查询，如：'A AND B OR C' 可以加分&lt;br /&gt;
** 查询词的加重（用#标记）不做强制要求，但做了加分&lt;br /&gt;
&lt;br /&gt;
== 作业7：基于向量空间模型（VSM）和tf-idf权重的网页相关性排序 ==&lt;br /&gt;
&lt;br /&gt;
* 作业提交时间截止时间：xx之前提交&lt;br /&gt;
** 视频：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/web-page-rank.mp4 作业7]&lt;br /&gt;
** 图片：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/web-page-rank-1.jpg 图片1]  [http://hlt.suda.edu.cn/LA/Ir-2022-Spring/web-page-rank-2.jpg 图片2]&lt;br /&gt;
* 作业要求：&lt;br /&gt;
** 如果无法理解向量空间模型，可以选择做tf-idf作业，但最多只给50分&lt;br /&gt;
** 实现基于向量空间模型的网页相关性排序&lt;br /&gt;
** 给定一个查询Q：可以是手动用空格分好词的&amp;quot;李正华 招收 学生&amp;quot;；也可以是未分词的&amp;quot;李正华招收学生&amp;quot;，之后用最大匹配分词分好词 -&amp;gt; &amp;quot;李正华 招收 学生&amp;quot;&lt;br /&gt;
** 注释：一个给定分词的查询Q实际上等价于布尔查询OR：&amp;quot;李正华 招收 学生&amp;quot; &amp;lt;=&amp;gt; &amp;quot;李正华 OR 招收 OR 学生&amp;quot;&lt;br /&gt;
* 作业提交说明：&lt;br /&gt;
** 附件中给出本任务所使用的倒排索引文件&lt;br /&gt;
** 在实验报告中说明对于余弦相似度计算中的：di[k]、q[k]、|di|、|q|是如何处理或存储的&lt;br /&gt;
** 附件中给出一个查询Q的结果，保存为文本文件&amp;quot;Q.txt&amp;quot;中，格式为：&lt;br /&gt;
&lt;br /&gt;
  文档名1（余弦相似度Sim） # Sim值可不除以|q|的值，一个例子： 阿鲁巴岛.txt(0.64)&lt;br /&gt;
  句子1&lt;br /&gt;
  句子2&lt;br /&gt;
  ...&lt;br /&gt;
  文档名2（余弦相似度Sim）&lt;br /&gt;
  句子1&lt;br /&gt;
  句子2&lt;br /&gt;
  ...&lt;br /&gt;
  ......&lt;br /&gt;
&lt;br /&gt;
== 作业8：爬虫和某机构主页检索系统（综合项目） ==&lt;br /&gt;
&lt;br /&gt;
* 作业提交时间截止时间：xx之前提交&lt;br /&gt;
** 视频：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/web-spider.mp4 作业8]&lt;br /&gt;
** PPT：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/web-spider.pptx PPT]&lt;br /&gt;
* 任务一：用&amp;lt;font color=&amp;quot;red&amp;quot;&amp;gt;爬虫模块&amp;lt;/font&amp;gt;尽量完整地爬下来一个机构对应的所有静态网页（html或htm后缀），保存到磁盘中：&lt;br /&gt;
** 苏大、苏大计算机学院（规模小一点）都可以&lt;br /&gt;
** orphan网页不用考虑&lt;br /&gt;
* 任务二：基于爬取的网页，做一个完整的检索系统（以后可以考虑不断完善、定时更新）：&lt;br /&gt;
** 1. &amp;lt;font color=&amp;quot;red&amp;quot;&amp;gt;网页正文提取模块&amp;lt;/font&amp;gt;（同作业4的实战部分一致）&lt;br /&gt;
** 2. 处理网页正文的&amp;lt;font color=&amp;quot;red&amp;quot;&amp;gt;分句、分词模块&amp;lt;/font&amp;gt;（可以用作业3的最大匹配分词，也可以用第三方的分词器，如jieba）&lt;br /&gt;
** 3. &amp;lt;font color=&amp;quot;red&amp;quot;&amp;gt;倒排索引模块&amp;lt;/font&amp;gt;：基于处理好的网页正文，建立倒排索引文件（同作业5一致）&lt;br /&gt;
** 4. &amp;lt;font color=&amp;quot;red&amp;quot;&amp;gt;网页排序模块&amp;lt;/font&amp;gt;：实现网页相关性排序（同作业7一致）&lt;br /&gt;
** 5. &amp;lt;font color=&amp;quot;red&amp;quot;&amp;gt;查询模块&amp;lt;/font&amp;gt;：提供查询接口，用户输入查询词后显示网页名（暂定为网页的title），和包含查询词的句子，查询词进行highlight处理（如#查询词#）。查询接口可以用命令行实现，提供前端UI界面（Web或Application都可以）会获得加分。&lt;br /&gt;
&lt;br /&gt;
注意：把网页源文件（html文件）保存好，避免重复爬。例如优化了网页正文提取模块、或突然想用一个更好的分词器&lt;br /&gt;
&lt;br /&gt;
* 作业提交说明：&lt;br /&gt;
** 源代码：任务一和任务二的所有代码都要提交，每个模块（共6个，在上方已用红色标出）在readme中指明在哪个python文件中实现的&lt;br /&gt;
** 处理好的网页数据（可选）：原始网页，提取出并分好句、分好词的网页正文，若网页数据特别大的话可以不要&lt;br /&gt;
** 在实验报告中将三项统计信息放到表格中：网页（文档）数、句子数、单词数&lt;br /&gt;
** 倒排索引文件（必备）&lt;br /&gt;
** 说明文档：(每个模块的)实现的功能，如何使用，接口等，内容不限&lt;br /&gt;
&lt;br /&gt;
== 作业9：深度学习方法&amp;amp;检索结果的评价 ==&lt;br /&gt;
&lt;br /&gt;
* 要求&lt;br /&gt;
** 账号环境，跑推理代码，重现完成部分实验。&lt;br /&gt;
*** 具体要跑哪些实验，请看文档最后的表格：[https://resplendent-gumdrop-ad2cd4.netlify.app/contriever-ir-course-assignment/ 具体文档] &lt;br /&gt;
** 自己实现评价指标，自己的评价指标的结果，和contriever 的结果一致。&lt;br /&gt;
** VSM和 Contriever 的对比&lt;br /&gt;
 &amp;lt;nowiki&amp;gt; 针对自己实现的“苏大计算机官网搜索引擎”，去对比VSM和Contriever的效果。&lt;br /&gt;
     自己设计10个难度不同的 query，然后 VSM 返回 50 个结果，把这 50 个结果随机打乱顺序（这一步很重要），然后人工做一个标注（给一个排序）【如果觉得 10 个 query 太多，5 个也行】&lt;br /&gt;
     Contriever对 50 个结果重排序&lt;br /&gt;
     比较两种方法的结果：NDCG@5      NDCG@10       NDCG@20等&lt;br /&gt;
     如果有能力、有时间，可以分析下：什么样的query，VSM 做得好；什么样的 query，Contriever 做得好。 &amp;lt;/nowiki&amp;gt;&lt;br /&gt;
** 实验报告体现出自己做了什么、遇到的困难及如何解决。&lt;br /&gt;
&lt;br /&gt;
* 参考资料&lt;br /&gt;
** 上面的文档&lt;br /&gt;
** 微信公众号”语析LAGroup“中 contriever 论文解读&lt;br /&gt;
** contriever 原文&lt;br /&gt;
&lt;br /&gt;
== 时间表 ==&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
 &amp;lt;nowiki&amp;gt;&lt;br /&gt;
3.5 第1周&lt;br /&gt;
3.12 第2周&lt;br /&gt;
&lt;br /&gt;
xxx&lt;br /&gt;
3.25 第5周&lt;br /&gt;
4.1 第6周&lt;br /&gt;
4.29 第10周&lt;br /&gt;
5.6 第11周&lt;br /&gt;
5.27 第14周&lt;br /&gt;
6.3 第15周&lt;br /&gt;
6.17 第17周&lt;br /&gt;
&lt;br /&gt;
1	08:00-08:45&lt;br /&gt;
2	08:50-09:35&lt;br /&gt;
3	09:55-10:40&lt;br /&gt;
4	10:45-11:30&lt;br /&gt;
5	11:35-12:20&lt;br /&gt;
6	14:00-14:45&lt;br /&gt;
7	14:50-15:35 【休息5分钟，+15分钟】&lt;br /&gt;
8	15:55-16:40 &lt;br /&gt;
9	16:45-17:30 【17:15】   &lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
考虑来2-3 次考试。&lt;br /&gt;
闭卷考试，比较正式的那种。在机房里就行。然后拍照留存？&lt;br /&gt;
&lt;br /&gt;
2次考试的方案：&lt;br /&gt;
倒排搞完 考一次&lt;br /&gt;
最后一次 &lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
3次考试的方案：&lt;br /&gt;
最大匹配分词搞完，考一次&lt;br /&gt;
布尔查询搞完 考一次&lt;br /&gt;
最后一次 &lt;br /&gt;
&lt;br /&gt;
上机课9 个作业，实验报告，主要是形式审查，占比比较低。要根据考试的成绩，然后加权得到每一次作业的成绩。&lt;br /&gt;
最后，9 个作业再按照一定比例，得到实验成绩。&lt;br /&gt;
&lt;br /&gt;
&amp;lt;/nowiki&amp;gt;&lt;/div&gt;</summary>
		<author><name>Zhli</name></author>
	</entry>
	<entry>
		<id>http://hlt.suda.edu.cn/index.php?title=Ir-2026-spring&amp;diff=6206</id>
		<title>Ir-2026-spring</title>
		<link rel="alternate" type="text/html" href="http://hlt.suda.edu.cn/index.php?title=Ir-2026-spring&amp;diff=6206"/>
		<updated>2026-03-19T06:29:59Z</updated>

		<summary type="html">&lt;p&gt;Zhli：/* 计算成绩的规则和说明（待定） */&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;&lt;br /&gt;
&lt;br /&gt;
= 信息检索综合实践 =&lt;br /&gt;
&lt;br /&gt;
李正华&lt;br /&gt;
&lt;br /&gt;
* 学生：计23计科1班	 	 	 &lt;br /&gt;
* 助教：吕喆、梅睿桐  &lt;br /&gt;
* QQ群: xx&lt;br /&gt;
* 时间：周四 6-9 节课 1-17 周&lt;br /&gt;
* 地点：理工楼238&lt;br /&gt;
&lt;br /&gt;
== 上课基本要求 ==&lt;br /&gt;
* 不能做的事情：打游戏、看课程无关视频、刷网页&lt;br /&gt;
* 认真读作业要求，按时交作业。csteaching&lt;br /&gt;
* 不能抄袭别人或网上的，自己做；不要把自己的作业给别人&lt;br /&gt;
&lt;br /&gt;
== 课程建议 ==&lt;br /&gt;
* 每个作业，截止时间后，把成绩发给大家，并用ppt给大家讲一下批作业发现的问题，题目分析&lt;br /&gt;
* 上课期间：请大家积极提问。遇到大家都无法理解的公共问题，我会补充讲解&lt;br /&gt;
* 非上课时间提问&lt;br /&gt;
** 建议同学们在群里提问（包括但不限于代码的bug、不理解算法、作业资源和提交等），由其他同学帮助解答；&lt;br /&gt;
** 群里的提问如果其他同学也无法回答，可以私信助教（仅限xxx，如周四晚上7点到9点，吕喆增加）；&lt;br /&gt;
&lt;br /&gt;
== 计算成绩的规则和说明（待定） ==&lt;br /&gt;
* &amp;lt;font color='red&amp;gt;核心要求：掌握最基本的概念、方法、算法&amp;lt;/font&amp;gt;&lt;br /&gt;
* 实验作业：70分&lt;br /&gt;
** 一系列作业，每个作业 5-15分（形式检查为辅、平时考核为主）&lt;br /&gt;
*** &amp;lt;font color='red&amp;gt;平时考核：考察课程相关的基础知识，看看作业是否是自己做的&amp;lt;/font&amp;gt;&lt;br /&gt;
** 必须按照规定时间，按照规定格式要求，将实验报告+源代码，提交到网站（见下面）中&lt;br /&gt;
* 平时成绩：30分&lt;br /&gt;
** 不能迟到、早退，特殊情况必须请假，并带辅导员签字的假条；&lt;br /&gt;
** 签到表：除了姓名，还要写一下进展&lt;br /&gt;
&lt;br /&gt;
== 提交作业说明 ==&lt;br /&gt;
* 作业网址：本学期开始的实验布置、提交与批改等不再使用csteaching平台，统一改用工程认证管理系统。请各位老师通过工程认证管理系统（网址[http://42.244.43.76:8000/ http://42.244.43.76:8000/]）开展实验布置、批改等相关工作，并烦请同步通知班级学生在该系统完成实验提交。&lt;br /&gt;
* &amp;lt;font color='red&amp;gt;作业迟交了则最终成绩会按一定比例缩减&amp;lt;/font&amp;gt;&lt;br /&gt;
* 包含两部分&lt;br /&gt;
** 实验报告（pdf文件，&amp;lt;font color='red&amp;gt;请把word转为pdf&amp;lt;/font&amp;gt;）&lt;br /&gt;
*** 请按照实验模版[[:文件:ir-2022-spring-report.doc]]，认真填写个人信息、实验题目、实验内容等&lt;br /&gt;
*** 不要大段粘贴代码，最多可以粘贴核心的一小段代码，&amp;lt;font color='red&amp;gt;粘贴大段代码会扣分&amp;lt;/font&amp;gt;&lt;br /&gt;
*** 写清楚自己的解决思路，尤其是遇到的难点和如何解决&lt;br /&gt;
*** 建议可以画流程图或者写伪代码。&lt;br /&gt;
*** 解决思路的流程图中是以文字为主还是以代码为主？报告中不要直接放代码。文字为主，不在于写得长，而在于写清楚，表明你确实做了、想了。&lt;br /&gt;
*** 问：流程图可以改成自然语言描述或者是伪代码吗？答：流程图也可以画的很high-level的。大家自由发挥。也可以画到纸上然后拍照截图。模块化思维 大问题分解小问题 。&lt;br /&gt;
*** &amp;lt;font color='red&amp;gt;将程序运行结果截图，没有运行结果会扣分&amp;lt;/font&amp;gt;，中间的输出结果/文件可以截图一部分&lt;br /&gt;
** 附件（.zip压缩包）&lt;br /&gt;
*** 源代码：代码不要都团在一起，请用空行对代码进行分隔，并简单注释代码块的功能&lt;br /&gt;
*** readme.txt文件：说明如何运行你的程序，需要什么环境，如windows或linux，python版本如python3.5&lt;br /&gt;
* 提交前自我检查&lt;br /&gt;
** 是否有包含readme.txt文件解释如何编译执行你的程序。 &amp;lt;font color='red&amp;gt;如没有该文件，将减分。&amp;lt;/font&amp;gt;&lt;br /&gt;
** 是否认真完成实验报告&lt;br /&gt;
** 是否可以按照readme.txt正确编译和运行程序&lt;br /&gt;
** 是否包含别人的代码，&amp;lt;font color='red&amp;gt;抄袭和被抄袭的都是0分&amp;lt;/font&amp;gt;&lt;br /&gt;
** 期末可能会用软件做自动抄袭检查&lt;br /&gt;
** 等这学期最后几周，我们可能统一对所有的作业做自动查重，到时候也会查出一些问题。 &amp;lt;font color='red&amp;gt;请大家一定要自己做，编程能力差一点，就做得简单一点，能力强，就做得好一点。但是一定要自己做。 &amp;lt;/font&amp;gt;&lt;br /&gt;
* 提交作业命名规则&lt;br /&gt;
** 实验报告（姓名学号.pdf）&lt;br /&gt;
** 附件（姓名学号.zip）&lt;br /&gt;
&lt;br /&gt;
== 实验报告word模板 ==&lt;br /&gt;
* [[:文件:ir-2022-spring-report.doc]]&lt;br /&gt;
&lt;br /&gt;
== 具体内容（含作业：平时：30 分；实验：70 分） == &lt;br /&gt;
&lt;br /&gt;
{| class=&amp;quot;wikitable&amp;quot;&lt;br /&gt;
! style=&amp;quot;text-align:left;&amp;quot;| 作业&lt;br /&gt;
! 成绩比例&lt;br /&gt;
! 评分要点&lt;br /&gt;
|-&lt;br /&gt;
| 分字&lt;br /&gt;
| 5%&lt;br /&gt;
| 按字节读取并判断高位&lt;br /&gt;
|-&lt;br /&gt;
| 单词计数&lt;br /&gt;
| 5%&lt;br /&gt;
| 无&lt;br /&gt;
|-&lt;br /&gt;
| 最大匹配分词&lt;br /&gt;
| 10%&lt;br /&gt;
| 算法和评价正确实现&lt;br /&gt;
|-&lt;br /&gt;
| 网页正文抽取&lt;br /&gt;
| 10%&lt;br /&gt;
| 按要求完成两个任务&lt;br /&gt;
|-&lt;br /&gt;
| 倒排索引&lt;br /&gt;
| 15%&lt;br /&gt;
| 高效创建倒排文件&lt;br /&gt;
|-&lt;br /&gt;
| 布尔查询&lt;br /&gt;
| 10%&lt;br /&gt;
| inter和union的复杂度为O(n)，复杂查询用堆栈判断优先级&lt;br /&gt;
|-&lt;br /&gt;
| 网页相关性排序&lt;br /&gt;
| 15%&lt;br /&gt;
| 基于向量空间模型VSM、tf-idf权重&lt;br /&gt;
|-&lt;br /&gt;
| 爬虫和某机构主页检索系统&lt;br /&gt;
| 15%&lt;br /&gt;
| 实现爬虫，系统架构设计良好，说明文档详细，UI完整&lt;br /&gt;
|-&lt;br /&gt;
| &amp;lt;font color='black&amp;gt;基于深度学习的检索系统&amp;lt;/font&amp;gt;&lt;br /&gt;
| 15% &lt;br /&gt;
| Contriever：重现部分实验结果；自己实现评价指标；在上一个作业中的爬虫和检索系统的基础上，自己设计、标注 10 个 query，对比向量空间模型VSM 和Contriever 的效果，给出评价结果。建议：VSM 给 100 个结果，然后 Contriever 重排序，然后人工标注，具体如何标注更合理，自己考虑好。&lt;br /&gt;
|-&lt;br /&gt;
|}&lt;br /&gt;
&lt;br /&gt;
== 信息检索课程介绍 ==&lt;br /&gt;
* [http://hlt.suda.edu.cn/~zhli/teach/ir-2019-spring/ir-introduction-v0.4.pdf PPT下载]&lt;br /&gt;
* 2022春视频和图片：&lt;br /&gt;
** 低画质：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/course-intro-low-quality.mp4 课程介绍]&lt;br /&gt;
** 高画质：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/course-intro-part-1.mp4 课程介绍-part1]、 [http://hlt.suda.edu.cn/LA/Ir-2022-Spring/course-intro-part-2.mp4 课程介绍-part2]&lt;br /&gt;
** 图片：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/course-intro.jpg 图]&lt;br /&gt;
&lt;br /&gt;
* &amp;lt;font color='red&amp;gt;和2022年课程的区别&amp;lt;/font&amp;gt;：增加了'''基于深度学习的检索'''的内容，删除'''词性标注'''相关内容&lt;br /&gt;
&lt;br /&gt;
== 信息检索系统介绍 ==&lt;br /&gt;
* 2022春视频：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/intro-to-info-retrieval.mp4 信息检索系统介绍]&lt;br /&gt;
&lt;br /&gt;
= 具体作业 =&lt;br /&gt;
&lt;br /&gt;
== 作业1：分字（C++语言） ==&lt;br /&gt;
* 2022春视频和图片：&lt;br /&gt;
** 低画质：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/split-char-low-quality.mp4 作业1]&lt;br /&gt;
** 高画质：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/split-char-part-1.mp4 作业1-part1]、 [http://hlt.suda.edu.cn/LA/Ir-2022-Spring/split-char-part-2.mp4 作业1-part2]&lt;br /&gt;
** 图片：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/split-char-figure-1.jpg 图1]、 [http://hlt.suda.edu.cn/LA/Ir-2022-Spring/split-char-figure-2.jpg 图2]&lt;br /&gt;
* UTF-8数据：[[文件:sentence.txt]]&lt;br /&gt;
* UFT-8编码规则：&lt;br /&gt;
 &amp;lt;nowiki&amp;gt;&lt;br /&gt;
1字节 0xxxxxxx&lt;br /&gt;
2字节 110xxxxx 10xxxxxx&lt;br /&gt;
3字节 1110xxxx 10xxxxxx 10xxxxxx&lt;br /&gt;
4字节 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx&lt;br /&gt;
5字节 111110xx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx&lt;br /&gt;
6字节 1111110x 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx &amp;lt;/nowiki&amp;gt;&lt;br /&gt;
&lt;br /&gt;
== 作业2：单词计数 ==&lt;br /&gt;
* 课件 [http://hlt.suda.edu.cn/~zhli/teach/ir-2019-spring/word-count.pdf PPT下载]&lt;br /&gt;
* 2022春视频：&lt;br /&gt;
** 低画质：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/word-count-low-quality.mp4 作业2]&lt;br /&gt;
** 高画质：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/word-count-2.mp4 作业2] &lt;br /&gt;
* 数据 [http://hlt.suda.edu.cn/~zhli/teach/ir-2019-spring/sample-en.txt txt下载]&lt;br /&gt;
&lt;br /&gt;
== 作业3：最大匹配分词 == &lt;br /&gt;
* 作业提交时间截止时间：第5周3.25下课之前提交&lt;br /&gt;
* 课件：前向最大匹配 PDF文件--[[文件:Word-seg-max-match.pdf]]；PPT文件--[[文件:Word-seg-max-match.zip]]&lt;br /&gt;
* 2022春视频和图片：&lt;br /&gt;
** 低画质：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/word-seg-max-match-low-quality.mp4 作业3]&lt;br /&gt;
** 高画质：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/word-seg-max-match.mp4 作业3] &lt;br /&gt;
** 图片：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/word-seg-max-match.jpg 图] &lt;br /&gt;
&lt;br /&gt;
* 数据下载：&lt;br /&gt;
** 字典：[[文件:dict.txt]] &lt;br /&gt;
** 待分词：[[文件:sentence.txt]] &lt;br /&gt;
** 正确答案（人工标注的，你的模型的预测结果要和这个文件进行对比，从而得到P/R/F值）：[[文件:answer.txt]]；&lt;br /&gt;
** 正向最大匹配分词模型的预测结果（如果你的程序写对了，那么应该和这个结果一模一样）：[[文件:out.txt]]&lt;br /&gt;
&lt;br /&gt;
 &amp;lt;nowiki&amp;gt;&lt;br /&gt;
*正确实验结果&lt;br /&gt;
**正确识别的词数：20263&lt;br /&gt;
**识别出的总体个数：20397&lt;br /&gt;
**测试集中的总体个数：20454&lt;br /&gt;
**正确率：0.99343&lt;br /&gt;
**召回率：0.99066&lt;br /&gt;
**F值：0.99204 &amp;lt;/nowiki&amp;gt;&lt;br /&gt;
&lt;br /&gt;
== 作业4：网页正文抽取 ==&lt;br /&gt;
&lt;br /&gt;
* 作业提交时间截止时间：x.x下课前提交&lt;br /&gt;
* 2022春视频： [http://hlt.suda.edu.cn/LA/Ir-2022-Spring/web-page-content-extraction.mp4 作业4]&lt;br /&gt;
* 课件（&amp;lt;font color='red'&amp;gt;请严格按照课件要求完成作业&amp;lt;/font&amp;gt;）： &lt;br /&gt;
** [[:文件:ir-2022-spring-web-page-content-extraction.ppt]]&lt;br /&gt;
** [[:文件:ir-2022-spring-web-page-content-extraction.pdf]]&lt;br /&gt;
* 数据&lt;br /&gt;
** 1.html和2.html [[:文件:ir-2022-spring-example-html.zip]]&lt;br /&gt;
** data-1k：1000个html文件 [[:文件:ir-2022-spring-all-html.zip]] （如果文件出现乱码，请到qq群里下载）&lt;br /&gt;
&lt;br /&gt;
== 作业5：倒排索引 == &lt;br /&gt;
&lt;br /&gt;
* 作业提交时间截止时间：第8周4.15下课前提交&lt;br /&gt;
* 课件： &lt;br /&gt;
** 仅供参考，与本次作业要求无关：[[:文件:ir-2022-spring-inverted-index-simplified.ppt]]&lt;br /&gt;
*  2022春视频和图片： &lt;br /&gt;
** 视频：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/inverted-index.mp4 作业5]&lt;br /&gt;
** 图片：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/inverted-index.jpg 图]&lt;br /&gt;
* 数据&lt;br /&gt;
** 停用词表：[https://github.com/goto456/stopwords github网址] [http://hlt.suda.edu.cn/LA/Ir-2022-Spring/stopwords.zip 苏大本地下载] &lt;br /&gt;
** 结巴词典：[https://github.com/fxsjy/jieba/tree/master/extra_dict github网址] [http://hlt.suda.edu.cn/LA/Ir-2022-Spring/word_dict.zip 苏大本地下载]&lt;br /&gt;
** 结巴词典文件每一行有3列，为：单词、词频、词性，只需要使用第一列的单词即可，使用small进行调试，提交作业用big&lt;br /&gt;
&lt;br /&gt;
== 作业6：布尔查询 ==&lt;br /&gt;
&lt;br /&gt;
* 作业提交时间截止时间：x.x下课前提交&lt;br /&gt;
*  2022春视频和图片： &lt;br /&gt;
** 视频：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/bool-query.mp4 作业6]&lt;br /&gt;
** 图片：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/bool-query.jpg 图]&lt;br /&gt;
* 作业提交说明：&lt;br /&gt;
** 附件中给出本次作业使用的倒排索引文件（可以在作业5的基础上进行优化），&amp;lt;font color=&amp;quot;red&amp;quot;&amp;gt;不需要提供构建倒排索引的代码，但在实验报告中给出倒排索引文件的说明，参考侯皓文同学&amp;lt;/font&amp;gt;&lt;br /&gt;
** 交集、并集操作用inter()、union()这两个函数单独封装&lt;br /&gt;
** &amp;lt;font color=&amp;quot;red&amp;quot;&amp;gt;对4个语句&amp;lt;/font&amp;gt; 'A', 'B', 'A AND B', 'A OR B' （A、B为自定义的查询词） 分别进行一次查询，每次的查询结果单独保存到一个txt文件中，以查询语句作为文件名（如 'A AND B.txt'`）&lt;br /&gt;
** 结果展示部分，文件按名字字母序排序：指字符序（用内置的sort即可），先用pinyin包转成拼音再排序也可以，不要自行改变文件名（如 阿大.txt -&amp;gt; 34.txt）&lt;br /&gt;
** 实现更复杂的查询，如：'A AND B OR C' 可以加分&lt;br /&gt;
** 查询词的加重（用#标记）不做强制要求，但做了加分&lt;br /&gt;
&lt;br /&gt;
== 作业7：基于向量空间模型（VSM）和tf-idf权重的网页相关性排序 ==&lt;br /&gt;
&lt;br /&gt;
* 作业提交时间截止时间：xx之前提交&lt;br /&gt;
** 视频：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/web-page-rank.mp4 作业7]&lt;br /&gt;
** 图片：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/web-page-rank-1.jpg 图片1]  [http://hlt.suda.edu.cn/LA/Ir-2022-Spring/web-page-rank-2.jpg 图片2]&lt;br /&gt;
* 作业要求：&lt;br /&gt;
** 如果无法理解向量空间模型，可以选择做tf-idf作业，但最多只给50分&lt;br /&gt;
** 实现基于向量空间模型的网页相关性排序&lt;br /&gt;
** 给定一个查询Q：可以是手动用空格分好词的&amp;quot;李正华 招收 学生&amp;quot;；也可以是未分词的&amp;quot;李正华招收学生&amp;quot;，之后用最大匹配分词分好词 -&amp;gt; &amp;quot;李正华 招收 学生&amp;quot;&lt;br /&gt;
** 注释：一个给定分词的查询Q实际上等价于布尔查询OR：&amp;quot;李正华 招收 学生&amp;quot; &amp;lt;=&amp;gt; &amp;quot;李正华 OR 招收 OR 学生&amp;quot;&lt;br /&gt;
* 作业提交说明：&lt;br /&gt;
** 附件中给出本任务所使用的倒排索引文件&lt;br /&gt;
** 在实验报告中说明对于余弦相似度计算中的：di[k]、q[k]、|di|、|q|是如何处理或存储的&lt;br /&gt;
** 附件中给出一个查询Q的结果，保存为文本文件&amp;quot;Q.txt&amp;quot;中，格式为：&lt;br /&gt;
&lt;br /&gt;
  文档名1（余弦相似度Sim） # Sim值可不除以|q|的值，一个例子： 阿鲁巴岛.txt(0.64)&lt;br /&gt;
  句子1&lt;br /&gt;
  句子2&lt;br /&gt;
  ...&lt;br /&gt;
  文档名2（余弦相似度Sim）&lt;br /&gt;
  句子1&lt;br /&gt;
  句子2&lt;br /&gt;
  ...&lt;br /&gt;
  ......&lt;br /&gt;
&lt;br /&gt;
== 作业8：爬虫和某机构主页检索系统（综合项目） ==&lt;br /&gt;
&lt;br /&gt;
* 作业提交时间截止时间：xx之前提交&lt;br /&gt;
** 视频：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/web-spider.mp4 作业8]&lt;br /&gt;
** PPT：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/web-spider.pptx PPT]&lt;br /&gt;
* 任务一：用&amp;lt;font color=&amp;quot;red&amp;quot;&amp;gt;爬虫模块&amp;lt;/font&amp;gt;尽量完整地爬下来一个机构对应的所有静态网页（html或htm后缀），保存到磁盘中：&lt;br /&gt;
** 苏大、苏大计算机学院（规模小一点）都可以&lt;br /&gt;
** orphan网页不用考虑&lt;br /&gt;
* 任务二：基于爬取的网页，做一个完整的检索系统（以后可以考虑不断完善、定时更新）：&lt;br /&gt;
** 1. &amp;lt;font color=&amp;quot;red&amp;quot;&amp;gt;网页正文提取模块&amp;lt;/font&amp;gt;（同作业4的实战部分一致）&lt;br /&gt;
** 2. 处理网页正文的&amp;lt;font color=&amp;quot;red&amp;quot;&amp;gt;分句、分词模块&amp;lt;/font&amp;gt;（可以用作业3的最大匹配分词，也可以用第三方的分词器，如jieba）&lt;br /&gt;
** 3. &amp;lt;font color=&amp;quot;red&amp;quot;&amp;gt;倒排索引模块&amp;lt;/font&amp;gt;：基于处理好的网页正文，建立倒排索引文件（同作业5一致）&lt;br /&gt;
** 4. &amp;lt;font color=&amp;quot;red&amp;quot;&amp;gt;网页排序模块&amp;lt;/font&amp;gt;：实现网页相关性排序（同作业7一致）&lt;br /&gt;
** 5. &amp;lt;font color=&amp;quot;red&amp;quot;&amp;gt;查询模块&amp;lt;/font&amp;gt;：提供查询接口，用户输入查询词后显示网页名（暂定为网页的title），和包含查询词的句子，查询词进行highlight处理（如#查询词#）。查询接口可以用命令行实现，提供前端UI界面（Web或Application都可以）会获得加分。&lt;br /&gt;
&lt;br /&gt;
注意：把网页源文件（html文件）保存好，避免重复爬。例如优化了网页正文提取模块、或突然想用一个更好的分词器&lt;br /&gt;
&lt;br /&gt;
* 作业提交说明：&lt;br /&gt;
** 源代码：任务一和任务二的所有代码都要提交，每个模块（共6个，在上方已用红色标出）在readme中指明在哪个python文件中实现的&lt;br /&gt;
** 处理好的网页数据（可选）：原始网页，提取出并分好句、分好词的网页正文，若网页数据特别大的话可以不要&lt;br /&gt;
** 在实验报告中将三项统计信息放到表格中：网页（文档）数、句子数、单词数&lt;br /&gt;
** 倒排索引文件（必备）&lt;br /&gt;
** 说明文档：(每个模块的)实现的功能，如何使用，接口等，内容不限&lt;br /&gt;
&lt;br /&gt;
== 作业9：深度学习方法&amp;amp;检索结果的评价 ==&lt;br /&gt;
&lt;br /&gt;
* 要求&lt;br /&gt;
** 账号环境，跑推理代码，重现完成部分实验。&lt;br /&gt;
*** 具体要跑哪些实验，请看文档最后的表格：[https://resplendent-gumdrop-ad2cd4.netlify.app/contriever-ir-course-assignment/ 具体文档] &lt;br /&gt;
** 自己实现评价指标，自己的评价指标的结果，和contriever 的结果一致。&lt;br /&gt;
** VSM和 Contriever 的对比&lt;br /&gt;
 &amp;lt;nowiki&amp;gt; 针对自己实现的“苏大计算机官网搜索引擎”，去对比VSM和Contriever的效果。&lt;br /&gt;
     自己设计10个难度不同的 query，然后 VSM 返回 50 个结果，把这 50 个结果随机打乱顺序（这一步很重要），然后人工做一个标注（给一个排序）【如果觉得 10 个 query 太多，5 个也行】&lt;br /&gt;
     Contriever对 50 个结果重排序&lt;br /&gt;
     比较两种方法的结果：NDCG@5      NDCG@10       NDCG@20等&lt;br /&gt;
     如果有能力、有时间，可以分析下：什么样的query，VSM 做得好；什么样的 query，Contriever 做得好。 &amp;lt;/nowiki&amp;gt;&lt;br /&gt;
** 实验报告体现出自己做了什么、遇到的困难及如何解决。&lt;br /&gt;
&lt;br /&gt;
* 参考资料&lt;br /&gt;
** 上面的文档&lt;br /&gt;
** 微信公众号”语析LAGroup“中 contriever 论文解读&lt;br /&gt;
** contriever 原文&lt;br /&gt;
&lt;br /&gt;
== 时间表 ==&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
 &amp;lt;nowiki&amp;gt;&lt;br /&gt;
3.5 第1周&lt;br /&gt;
3.12 第2周&lt;br /&gt;
&lt;br /&gt;
xxx&lt;br /&gt;
3.25 第5周&lt;br /&gt;
4.1 第6周&lt;br /&gt;
4.29 第10周&lt;br /&gt;
5.6 第11周&lt;br /&gt;
5.27 第14周&lt;br /&gt;
6.3 第15周&lt;br /&gt;
6.17 第17周&lt;br /&gt;
&lt;br /&gt;
1	08:00-08:45&lt;br /&gt;
2	08:50-09:35&lt;br /&gt;
3	09:55-10:40&lt;br /&gt;
4	10:45-11:30&lt;br /&gt;
5	11:35-12:20&lt;br /&gt;
6	14:00-14:45&lt;br /&gt;
7	14:50-15:35 【休息5分钟，+15分钟】&lt;br /&gt;
8	15:55-16:40 &lt;br /&gt;
9	16:45-17:30 【17:15】   &lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
考虑来2-3 次考试。&lt;br /&gt;
闭卷考试，比较正式的那种。在机房里就行。然后拍照留存？&lt;br /&gt;
&lt;br /&gt;
2次考试的方案：&lt;br /&gt;
倒排搞完 考一次&lt;br /&gt;
最后一次 &lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
3次考试的方案：&lt;br /&gt;
最大匹配分词搞完，考一次&lt;br /&gt;
布尔查询搞完 考一次&lt;br /&gt;
最后一次 &lt;br /&gt;
&lt;br /&gt;
上机课9 个作业，实验报告，主要是形式审查，占比比较低。要根据考试的成绩，然后加权得到每一次作业的成绩。&lt;br /&gt;
最后，9 个作业再按照一定比例，得到实验成绩。&lt;br /&gt;
&lt;br /&gt;
&amp;lt;/nowiki&amp;gt;&lt;/div&gt;</summary>
		<author><name>Zhli</name></author>
	</entry>
	<entry>
		<id>http://hlt.suda.edu.cn/index.php?title=Ir-2026-spring&amp;diff=6205</id>
		<title>Ir-2026-spring</title>
		<link rel="alternate" type="text/html" href="http://hlt.suda.edu.cn/index.php?title=Ir-2026-spring&amp;diff=6205"/>
		<updated>2026-03-19T06:29:06Z</updated>

		<summary type="html">&lt;p&gt;Zhli：/* 计算成绩的规则和说明（待定） */&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;&lt;br /&gt;
&lt;br /&gt;
= 信息检索综合实践 =&lt;br /&gt;
&lt;br /&gt;
李正华&lt;br /&gt;
&lt;br /&gt;
* 学生：计23计科1班	 	 	 &lt;br /&gt;
* 助教：吕喆、梅睿桐  &lt;br /&gt;
* QQ群: xx&lt;br /&gt;
* 时间：周四 6-9 节课 1-17 周&lt;br /&gt;
* 地点：理工楼238&lt;br /&gt;
&lt;br /&gt;
== 上课基本要求 ==&lt;br /&gt;
* 不能做的事情：打游戏、看课程无关视频、刷网页&lt;br /&gt;
* 认真读作业要求，按时交作业。csteaching&lt;br /&gt;
* 不能抄袭别人或网上的，自己做；不要把自己的作业给别人&lt;br /&gt;
&lt;br /&gt;
== 课程建议 ==&lt;br /&gt;
* 每个作业，截止时间后，把成绩发给大家，并用ppt给大家讲一下批作业发现的问题，题目分析&lt;br /&gt;
* 上课期间：请大家积极提问。遇到大家都无法理解的公共问题，我会补充讲解&lt;br /&gt;
* 非上课时间提问&lt;br /&gt;
** 建议同学们在群里提问（包括但不限于代码的bug、不理解算法、作业资源和提交等），由其他同学帮助解答；&lt;br /&gt;
** 群里的提问如果其他同学也无法回答，可以私信助教（仅限xxx，如周四晚上7点到9点，吕喆增加）；&lt;br /&gt;
&lt;br /&gt;
== 计算成绩的规则和说明（待定） ==&lt;br /&gt;
* &amp;lt;font color='red&amp;gt;核心要求：掌握最基本的概念、方法、算法&amp;lt;/font&amp;gt;&lt;br /&gt;
* 实验作业：70分&lt;br /&gt;
** 一系列作业，每个作业 5-15分（形式检查为辅、考核为主）&lt;br /&gt;
*** 考核：考察课程相关的基础知识，看看作业是否是自己做的&lt;br /&gt;
** 必须按照规定时间，按照规定格式要求，将实验报告+源代码，提交到网站（见下面）中&lt;br /&gt;
* 平时成绩：30分&lt;br /&gt;
** 不能迟到、早退，特殊情况必须请假，并带辅导员签字的假条；&lt;br /&gt;
** 签到表：除了姓名，还要写一下进展&lt;br /&gt;
&lt;br /&gt;
== 提交作业说明 ==&lt;br /&gt;
* 作业网址：本学期开始的实验布置、提交与批改等不再使用csteaching平台，统一改用工程认证管理系统。请各位老师通过工程认证管理系统（网址[http://42.244.43.76:8000/ http://42.244.43.76:8000/]）开展实验布置、批改等相关工作，并烦请同步通知班级学生在该系统完成实验提交。&lt;br /&gt;
* &amp;lt;font color='red&amp;gt;作业迟交了则最终成绩会按一定比例缩减&amp;lt;/font&amp;gt;&lt;br /&gt;
* 包含两部分&lt;br /&gt;
** 实验报告（pdf文件，&amp;lt;font color='red&amp;gt;请把word转为pdf&amp;lt;/font&amp;gt;）&lt;br /&gt;
*** 请按照实验模版[[:文件:ir-2022-spring-report.doc]]，认真填写个人信息、实验题目、实验内容等&lt;br /&gt;
*** 不要大段粘贴代码，最多可以粘贴核心的一小段代码，&amp;lt;font color='red&amp;gt;粘贴大段代码会扣分&amp;lt;/font&amp;gt;&lt;br /&gt;
*** 写清楚自己的解决思路，尤其是遇到的难点和如何解决&lt;br /&gt;
*** 建议可以画流程图或者写伪代码。&lt;br /&gt;
*** 解决思路的流程图中是以文字为主还是以代码为主？报告中不要直接放代码。文字为主，不在于写得长，而在于写清楚，表明你确实做了、想了。&lt;br /&gt;
*** 问：流程图可以改成自然语言描述或者是伪代码吗？答：流程图也可以画的很high-level的。大家自由发挥。也可以画到纸上然后拍照截图。模块化思维 大问题分解小问题 。&lt;br /&gt;
*** &amp;lt;font color='red&amp;gt;将程序运行结果截图，没有运行结果会扣分&amp;lt;/font&amp;gt;，中间的输出结果/文件可以截图一部分&lt;br /&gt;
** 附件（.zip压缩包）&lt;br /&gt;
*** 源代码：代码不要都团在一起，请用空行对代码进行分隔，并简单注释代码块的功能&lt;br /&gt;
*** readme.txt文件：说明如何运行你的程序，需要什么环境，如windows或linux，python版本如python3.5&lt;br /&gt;
* 提交前自我检查&lt;br /&gt;
** 是否有包含readme.txt文件解释如何编译执行你的程序。 &amp;lt;font color='red&amp;gt;如没有该文件，将减分。&amp;lt;/font&amp;gt;&lt;br /&gt;
** 是否认真完成实验报告&lt;br /&gt;
** 是否可以按照readme.txt正确编译和运行程序&lt;br /&gt;
** 是否包含别人的代码，&amp;lt;font color='red&amp;gt;抄袭和被抄袭的都是0分&amp;lt;/font&amp;gt;&lt;br /&gt;
** 期末可能会用软件做自动抄袭检查&lt;br /&gt;
** 等这学期最后几周，我们可能统一对所有的作业做自动查重，到时候也会查出一些问题。 &amp;lt;font color='red&amp;gt;请大家一定要自己做，编程能力差一点，就做得简单一点，能力强，就做得好一点。但是一定要自己做。 &amp;lt;/font&amp;gt;&lt;br /&gt;
* 提交作业命名规则&lt;br /&gt;
** 实验报告（姓名学号.pdf）&lt;br /&gt;
** 附件（姓名学号.zip）&lt;br /&gt;
&lt;br /&gt;
== 实验报告word模板 ==&lt;br /&gt;
* [[:文件:ir-2022-spring-report.doc]]&lt;br /&gt;
&lt;br /&gt;
== 具体内容（含作业：平时：30 分；实验：70 分） == &lt;br /&gt;
&lt;br /&gt;
{| class=&amp;quot;wikitable&amp;quot;&lt;br /&gt;
! style=&amp;quot;text-align:left;&amp;quot;| 作业&lt;br /&gt;
! 成绩比例&lt;br /&gt;
! 评分要点&lt;br /&gt;
|-&lt;br /&gt;
| 分字&lt;br /&gt;
| 5%&lt;br /&gt;
| 按字节读取并判断高位&lt;br /&gt;
|-&lt;br /&gt;
| 单词计数&lt;br /&gt;
| 5%&lt;br /&gt;
| 无&lt;br /&gt;
|-&lt;br /&gt;
| 最大匹配分词&lt;br /&gt;
| 10%&lt;br /&gt;
| 算法和评价正确实现&lt;br /&gt;
|-&lt;br /&gt;
| 网页正文抽取&lt;br /&gt;
| 10%&lt;br /&gt;
| 按要求完成两个任务&lt;br /&gt;
|-&lt;br /&gt;
| 倒排索引&lt;br /&gt;
| 15%&lt;br /&gt;
| 高效创建倒排文件&lt;br /&gt;
|-&lt;br /&gt;
| 布尔查询&lt;br /&gt;
| 10%&lt;br /&gt;
| inter和union的复杂度为O(n)，复杂查询用堆栈判断优先级&lt;br /&gt;
|-&lt;br /&gt;
| 网页相关性排序&lt;br /&gt;
| 15%&lt;br /&gt;
| 基于向量空间模型VSM、tf-idf权重&lt;br /&gt;
|-&lt;br /&gt;
| 爬虫和某机构主页检索系统&lt;br /&gt;
| 15%&lt;br /&gt;
| 实现爬虫，系统架构设计良好，说明文档详细，UI完整&lt;br /&gt;
|-&lt;br /&gt;
| &amp;lt;font color='black&amp;gt;基于深度学习的检索系统&amp;lt;/font&amp;gt;&lt;br /&gt;
| 15% &lt;br /&gt;
| Contriever：重现部分实验结果；自己实现评价指标；在上一个作业中的爬虫和检索系统的基础上，自己设计、标注 10 个 query，对比向量空间模型VSM 和Contriever 的效果，给出评价结果。建议：VSM 给 100 个结果，然后 Contriever 重排序，然后人工标注，具体如何标注更合理，自己考虑好。&lt;br /&gt;
|-&lt;br /&gt;
|}&lt;br /&gt;
&lt;br /&gt;
== 信息检索课程介绍 ==&lt;br /&gt;
* [http://hlt.suda.edu.cn/~zhli/teach/ir-2019-spring/ir-introduction-v0.4.pdf PPT下载]&lt;br /&gt;
* 2022春视频和图片：&lt;br /&gt;
** 低画质：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/course-intro-low-quality.mp4 课程介绍]&lt;br /&gt;
** 高画质：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/course-intro-part-1.mp4 课程介绍-part1]、 [http://hlt.suda.edu.cn/LA/Ir-2022-Spring/course-intro-part-2.mp4 课程介绍-part2]&lt;br /&gt;
** 图片：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/course-intro.jpg 图]&lt;br /&gt;
&lt;br /&gt;
* &amp;lt;font color='red&amp;gt;和2022年课程的区别&amp;lt;/font&amp;gt;：增加了'''基于深度学习的检索'''的内容，删除'''词性标注'''相关内容&lt;br /&gt;
&lt;br /&gt;
== 信息检索系统介绍 ==&lt;br /&gt;
* 2022春视频：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/intro-to-info-retrieval.mp4 信息检索系统介绍]&lt;br /&gt;
&lt;br /&gt;
= 具体作业 =&lt;br /&gt;
&lt;br /&gt;
== 作业1：分字（C++语言） ==&lt;br /&gt;
* 2022春视频和图片：&lt;br /&gt;
** 低画质：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/split-char-low-quality.mp4 作业1]&lt;br /&gt;
** 高画质：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/split-char-part-1.mp4 作业1-part1]、 [http://hlt.suda.edu.cn/LA/Ir-2022-Spring/split-char-part-2.mp4 作业1-part2]&lt;br /&gt;
** 图片：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/split-char-figure-1.jpg 图1]、 [http://hlt.suda.edu.cn/LA/Ir-2022-Spring/split-char-figure-2.jpg 图2]&lt;br /&gt;
* UTF-8数据：[[文件:sentence.txt]]&lt;br /&gt;
* UFT-8编码规则：&lt;br /&gt;
 &amp;lt;nowiki&amp;gt;&lt;br /&gt;
1字节 0xxxxxxx&lt;br /&gt;
2字节 110xxxxx 10xxxxxx&lt;br /&gt;
3字节 1110xxxx 10xxxxxx 10xxxxxx&lt;br /&gt;
4字节 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx&lt;br /&gt;
5字节 111110xx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx&lt;br /&gt;
6字节 1111110x 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx &amp;lt;/nowiki&amp;gt;&lt;br /&gt;
&lt;br /&gt;
== 作业2：单词计数 ==&lt;br /&gt;
* 课件 [http://hlt.suda.edu.cn/~zhli/teach/ir-2019-spring/word-count.pdf PPT下载]&lt;br /&gt;
* 2022春视频：&lt;br /&gt;
** 低画质：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/word-count-low-quality.mp4 作业2]&lt;br /&gt;
** 高画质：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/word-count-2.mp4 作业2] &lt;br /&gt;
* 数据 [http://hlt.suda.edu.cn/~zhli/teach/ir-2019-spring/sample-en.txt txt下载]&lt;br /&gt;
&lt;br /&gt;
== 作业3：最大匹配分词 == &lt;br /&gt;
* 作业提交时间截止时间：第5周3.25下课之前提交&lt;br /&gt;
* 课件：前向最大匹配 PDF文件--[[文件:Word-seg-max-match.pdf]]；PPT文件--[[文件:Word-seg-max-match.zip]]&lt;br /&gt;
* 2022春视频和图片：&lt;br /&gt;
** 低画质：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/word-seg-max-match-low-quality.mp4 作业3]&lt;br /&gt;
** 高画质：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/word-seg-max-match.mp4 作业3] &lt;br /&gt;
** 图片：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/word-seg-max-match.jpg 图] &lt;br /&gt;
&lt;br /&gt;
* 数据下载：&lt;br /&gt;
** 字典：[[文件:dict.txt]] &lt;br /&gt;
** 待分词：[[文件:sentence.txt]] &lt;br /&gt;
** 正确答案（人工标注的，你的模型的预测结果要和这个文件进行对比，从而得到P/R/F值）：[[文件:answer.txt]]；&lt;br /&gt;
** 正向最大匹配分词模型的预测结果（如果你的程序写对了，那么应该和这个结果一模一样）：[[文件:out.txt]]&lt;br /&gt;
&lt;br /&gt;
 &amp;lt;nowiki&amp;gt;&lt;br /&gt;
*正确实验结果&lt;br /&gt;
**正确识别的词数：20263&lt;br /&gt;
**识别出的总体个数：20397&lt;br /&gt;
**测试集中的总体个数：20454&lt;br /&gt;
**正确率：0.99343&lt;br /&gt;
**召回率：0.99066&lt;br /&gt;
**F值：0.99204 &amp;lt;/nowiki&amp;gt;&lt;br /&gt;
&lt;br /&gt;
== 作业4：网页正文抽取 ==&lt;br /&gt;
&lt;br /&gt;
* 作业提交时间截止时间：x.x下课前提交&lt;br /&gt;
* 2022春视频： [http://hlt.suda.edu.cn/LA/Ir-2022-Spring/web-page-content-extraction.mp4 作业4]&lt;br /&gt;
* 课件（&amp;lt;font color='red'&amp;gt;请严格按照课件要求完成作业&amp;lt;/font&amp;gt;）： &lt;br /&gt;
** [[:文件:ir-2022-spring-web-page-content-extraction.ppt]]&lt;br /&gt;
** [[:文件:ir-2022-spring-web-page-content-extraction.pdf]]&lt;br /&gt;
* 数据&lt;br /&gt;
** 1.html和2.html [[:文件:ir-2022-spring-example-html.zip]]&lt;br /&gt;
** data-1k：1000个html文件 [[:文件:ir-2022-spring-all-html.zip]] （如果文件出现乱码，请到qq群里下载）&lt;br /&gt;
&lt;br /&gt;
== 作业5：倒排索引 == &lt;br /&gt;
&lt;br /&gt;
* 作业提交时间截止时间：第8周4.15下课前提交&lt;br /&gt;
* 课件： &lt;br /&gt;
** 仅供参考，与本次作业要求无关：[[:文件:ir-2022-spring-inverted-index-simplified.ppt]]&lt;br /&gt;
*  2022春视频和图片： &lt;br /&gt;
** 视频：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/inverted-index.mp4 作业5]&lt;br /&gt;
** 图片：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/inverted-index.jpg 图]&lt;br /&gt;
* 数据&lt;br /&gt;
** 停用词表：[https://github.com/goto456/stopwords github网址] [http://hlt.suda.edu.cn/LA/Ir-2022-Spring/stopwords.zip 苏大本地下载] &lt;br /&gt;
** 结巴词典：[https://github.com/fxsjy/jieba/tree/master/extra_dict github网址] [http://hlt.suda.edu.cn/LA/Ir-2022-Spring/word_dict.zip 苏大本地下载]&lt;br /&gt;
** 结巴词典文件每一行有3列，为：单词、词频、词性，只需要使用第一列的单词即可，使用small进行调试，提交作业用big&lt;br /&gt;
&lt;br /&gt;
== 作业6：布尔查询 ==&lt;br /&gt;
&lt;br /&gt;
* 作业提交时间截止时间：x.x下课前提交&lt;br /&gt;
*  2022春视频和图片： &lt;br /&gt;
** 视频：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/bool-query.mp4 作业6]&lt;br /&gt;
** 图片：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/bool-query.jpg 图]&lt;br /&gt;
* 作业提交说明：&lt;br /&gt;
** 附件中给出本次作业使用的倒排索引文件（可以在作业5的基础上进行优化），&amp;lt;font color=&amp;quot;red&amp;quot;&amp;gt;不需要提供构建倒排索引的代码，但在实验报告中给出倒排索引文件的说明，参考侯皓文同学&amp;lt;/font&amp;gt;&lt;br /&gt;
** 交集、并集操作用inter()、union()这两个函数单独封装&lt;br /&gt;
** &amp;lt;font color=&amp;quot;red&amp;quot;&amp;gt;对4个语句&amp;lt;/font&amp;gt; 'A', 'B', 'A AND B', 'A OR B' （A、B为自定义的查询词） 分别进行一次查询，每次的查询结果单独保存到一个txt文件中，以查询语句作为文件名（如 'A AND B.txt'`）&lt;br /&gt;
** 结果展示部分，文件按名字字母序排序：指字符序（用内置的sort即可），先用pinyin包转成拼音再排序也可以，不要自行改变文件名（如 阿大.txt -&amp;gt; 34.txt）&lt;br /&gt;
** 实现更复杂的查询，如：'A AND B OR C' 可以加分&lt;br /&gt;
** 查询词的加重（用#标记）不做强制要求，但做了加分&lt;br /&gt;
&lt;br /&gt;
== 作业7：基于向量空间模型（VSM）和tf-idf权重的网页相关性排序 ==&lt;br /&gt;
&lt;br /&gt;
* 作业提交时间截止时间：xx之前提交&lt;br /&gt;
** 视频：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/web-page-rank.mp4 作业7]&lt;br /&gt;
** 图片：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/web-page-rank-1.jpg 图片1]  [http://hlt.suda.edu.cn/LA/Ir-2022-Spring/web-page-rank-2.jpg 图片2]&lt;br /&gt;
* 作业要求：&lt;br /&gt;
** 如果无法理解向量空间模型，可以选择做tf-idf作业，但最多只给50分&lt;br /&gt;
** 实现基于向量空间模型的网页相关性排序&lt;br /&gt;
** 给定一个查询Q：可以是手动用空格分好词的&amp;quot;李正华 招收 学生&amp;quot;；也可以是未分词的&amp;quot;李正华招收学生&amp;quot;，之后用最大匹配分词分好词 -&amp;gt; &amp;quot;李正华 招收 学生&amp;quot;&lt;br /&gt;
** 注释：一个给定分词的查询Q实际上等价于布尔查询OR：&amp;quot;李正华 招收 学生&amp;quot; &amp;lt;=&amp;gt; &amp;quot;李正华 OR 招收 OR 学生&amp;quot;&lt;br /&gt;
* 作业提交说明：&lt;br /&gt;
** 附件中给出本任务所使用的倒排索引文件&lt;br /&gt;
** 在实验报告中说明对于余弦相似度计算中的：di[k]、q[k]、|di|、|q|是如何处理或存储的&lt;br /&gt;
** 附件中给出一个查询Q的结果，保存为文本文件&amp;quot;Q.txt&amp;quot;中，格式为：&lt;br /&gt;
&lt;br /&gt;
  文档名1（余弦相似度Sim） # Sim值可不除以|q|的值，一个例子： 阿鲁巴岛.txt(0.64)&lt;br /&gt;
  句子1&lt;br /&gt;
  句子2&lt;br /&gt;
  ...&lt;br /&gt;
  文档名2（余弦相似度Sim）&lt;br /&gt;
  句子1&lt;br /&gt;
  句子2&lt;br /&gt;
  ...&lt;br /&gt;
  ......&lt;br /&gt;
&lt;br /&gt;
== 作业8：爬虫和某机构主页检索系统（综合项目） ==&lt;br /&gt;
&lt;br /&gt;
* 作业提交时间截止时间：xx之前提交&lt;br /&gt;
** 视频：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/web-spider.mp4 作业8]&lt;br /&gt;
** PPT：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/web-spider.pptx PPT]&lt;br /&gt;
* 任务一：用&amp;lt;font color=&amp;quot;red&amp;quot;&amp;gt;爬虫模块&amp;lt;/font&amp;gt;尽量完整地爬下来一个机构对应的所有静态网页（html或htm后缀），保存到磁盘中：&lt;br /&gt;
** 苏大、苏大计算机学院（规模小一点）都可以&lt;br /&gt;
** orphan网页不用考虑&lt;br /&gt;
* 任务二：基于爬取的网页，做一个完整的检索系统（以后可以考虑不断完善、定时更新）：&lt;br /&gt;
** 1. &amp;lt;font color=&amp;quot;red&amp;quot;&amp;gt;网页正文提取模块&amp;lt;/font&amp;gt;（同作业4的实战部分一致）&lt;br /&gt;
** 2. 处理网页正文的&amp;lt;font color=&amp;quot;red&amp;quot;&amp;gt;分句、分词模块&amp;lt;/font&amp;gt;（可以用作业3的最大匹配分词，也可以用第三方的分词器，如jieba）&lt;br /&gt;
** 3. &amp;lt;font color=&amp;quot;red&amp;quot;&amp;gt;倒排索引模块&amp;lt;/font&amp;gt;：基于处理好的网页正文，建立倒排索引文件（同作业5一致）&lt;br /&gt;
** 4. &amp;lt;font color=&amp;quot;red&amp;quot;&amp;gt;网页排序模块&amp;lt;/font&amp;gt;：实现网页相关性排序（同作业7一致）&lt;br /&gt;
** 5. &amp;lt;font color=&amp;quot;red&amp;quot;&amp;gt;查询模块&amp;lt;/font&amp;gt;：提供查询接口，用户输入查询词后显示网页名（暂定为网页的title），和包含查询词的句子，查询词进行highlight处理（如#查询词#）。查询接口可以用命令行实现，提供前端UI界面（Web或Application都可以）会获得加分。&lt;br /&gt;
&lt;br /&gt;
注意：把网页源文件（html文件）保存好，避免重复爬。例如优化了网页正文提取模块、或突然想用一个更好的分词器&lt;br /&gt;
&lt;br /&gt;
* 作业提交说明：&lt;br /&gt;
** 源代码：任务一和任务二的所有代码都要提交，每个模块（共6个，在上方已用红色标出）在readme中指明在哪个python文件中实现的&lt;br /&gt;
** 处理好的网页数据（可选）：原始网页，提取出并分好句、分好词的网页正文，若网页数据特别大的话可以不要&lt;br /&gt;
** 在实验报告中将三项统计信息放到表格中：网页（文档）数、句子数、单词数&lt;br /&gt;
** 倒排索引文件（必备）&lt;br /&gt;
** 说明文档：(每个模块的)实现的功能，如何使用，接口等，内容不限&lt;br /&gt;
&lt;br /&gt;
== 作业9：深度学习方法&amp;amp;检索结果的评价 ==&lt;br /&gt;
&lt;br /&gt;
* 要求&lt;br /&gt;
** 账号环境，跑推理代码，重现完成部分实验。&lt;br /&gt;
*** 具体要跑哪些实验，请看文档最后的表格：[https://resplendent-gumdrop-ad2cd4.netlify.app/contriever-ir-course-assignment/ 具体文档] &lt;br /&gt;
** 自己实现评价指标，自己的评价指标的结果，和contriever 的结果一致。&lt;br /&gt;
** VSM和 Contriever 的对比&lt;br /&gt;
 &amp;lt;nowiki&amp;gt; 针对自己实现的“苏大计算机官网搜索引擎”，去对比VSM和Contriever的效果。&lt;br /&gt;
     自己设计10个难度不同的 query，然后 VSM 返回 50 个结果，把这 50 个结果随机打乱顺序（这一步很重要），然后人工做一个标注（给一个排序）【如果觉得 10 个 query 太多，5 个也行】&lt;br /&gt;
     Contriever对 50 个结果重排序&lt;br /&gt;
     比较两种方法的结果：NDCG@5      NDCG@10       NDCG@20等&lt;br /&gt;
     如果有能力、有时间，可以分析下：什么样的query，VSM 做得好；什么样的 query，Contriever 做得好。 &amp;lt;/nowiki&amp;gt;&lt;br /&gt;
** 实验报告体现出自己做了什么、遇到的困难及如何解决。&lt;br /&gt;
&lt;br /&gt;
* 参考资料&lt;br /&gt;
** 上面的文档&lt;br /&gt;
** 微信公众号”语析LAGroup“中 contriever 论文解读&lt;br /&gt;
** contriever 原文&lt;br /&gt;
&lt;br /&gt;
== 时间表 ==&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
 &amp;lt;nowiki&amp;gt;&lt;br /&gt;
3.5 第1周&lt;br /&gt;
3.12 第2周&lt;br /&gt;
&lt;br /&gt;
xxx&lt;br /&gt;
3.25 第5周&lt;br /&gt;
4.1 第6周&lt;br /&gt;
4.29 第10周&lt;br /&gt;
5.6 第11周&lt;br /&gt;
5.27 第14周&lt;br /&gt;
6.3 第15周&lt;br /&gt;
6.17 第17周&lt;br /&gt;
&lt;br /&gt;
1	08:00-08:45&lt;br /&gt;
2	08:50-09:35&lt;br /&gt;
3	09:55-10:40&lt;br /&gt;
4	10:45-11:30&lt;br /&gt;
5	11:35-12:20&lt;br /&gt;
6	14:00-14:45&lt;br /&gt;
7	14:50-15:35 【休息5分钟，+15分钟】&lt;br /&gt;
8	15:55-16:40 &lt;br /&gt;
9	16:45-17:30 【17:15】   &lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
考虑来2-3 次考试。&lt;br /&gt;
闭卷考试，比较正式的那种。在机房里就行。然后拍照留存？&lt;br /&gt;
&lt;br /&gt;
2次考试的方案：&lt;br /&gt;
倒排搞完 考一次&lt;br /&gt;
最后一次 &lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
3次考试的方案：&lt;br /&gt;
最大匹配分词搞完，考一次&lt;br /&gt;
布尔查询搞完 考一次&lt;br /&gt;
最后一次 &lt;br /&gt;
&lt;br /&gt;
上机课9 个作业，实验报告，主要是形式审查，占比比较低。要根据考试的成绩，然后加权得到每一次作业的成绩。&lt;br /&gt;
最后，9 个作业再按照一定比例，得到实验成绩。&lt;br /&gt;
&lt;br /&gt;
&amp;lt;/nowiki&amp;gt;&lt;/div&gt;</summary>
		<author><name>Zhli</name></author>
	</entry>
	<entry>
		<id>http://hlt.suda.edu.cn/index.php?title=Ir-2026-spring&amp;diff=6204</id>
		<title>Ir-2026-spring</title>
		<link rel="alternate" type="text/html" href="http://hlt.suda.edu.cn/index.php?title=Ir-2026-spring&amp;diff=6204"/>
		<updated>2026-03-19T06:28:39Z</updated>

		<summary type="html">&lt;p&gt;Zhli：/* 计算成绩的规则和说明（待定） */&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;&lt;br /&gt;
&lt;br /&gt;
= 信息检索综合实践 =&lt;br /&gt;
&lt;br /&gt;
李正华&lt;br /&gt;
&lt;br /&gt;
* 学生：计23计科1班	 	 	 &lt;br /&gt;
* 助教：吕喆、梅睿桐  &lt;br /&gt;
* QQ群: xx&lt;br /&gt;
* 时间：周四 6-9 节课 1-17 周&lt;br /&gt;
* 地点：理工楼238&lt;br /&gt;
&lt;br /&gt;
== 上课基本要求 ==&lt;br /&gt;
* 不能做的事情：打游戏、看课程无关视频、刷网页&lt;br /&gt;
* 认真读作业要求，按时交作业。csteaching&lt;br /&gt;
* 不能抄袭别人或网上的，自己做；不要把自己的作业给别人&lt;br /&gt;
&lt;br /&gt;
== 课程建议 ==&lt;br /&gt;
* 每个作业，截止时间后，把成绩发给大家，并用ppt给大家讲一下批作业发现的问题，题目分析&lt;br /&gt;
* 上课期间：请大家积极提问。遇到大家都无法理解的公共问题，我会补充讲解&lt;br /&gt;
* 非上课时间提问&lt;br /&gt;
** 建议同学们在群里提问（包括但不限于代码的bug、不理解算法、作业资源和提交等），由其他同学帮助解答；&lt;br /&gt;
** 群里的提问如果其他同学也无法回答，可以私信助教（仅限xxx，如周四晚上7点到9点，吕喆增加）；&lt;br /&gt;
&lt;br /&gt;
== 计算成绩的规则和说明（待定） ==&lt;br /&gt;
* &amp;lt;font color='red&amp;gt;核心要求：掌握最基本的概念、方法、算法&amp;lt;/font&amp;gt;&lt;br /&gt;
* 实验作业：70分&lt;br /&gt;
** 一系列作业，每个作业 5-15分（形式检查为辅、考核为主）&lt;br /&gt;
*** 考核：考察课程相关的基础知识，看看作业是否是自己做的&lt;br /&gt;
** 必须按照规定时间，按照规定格式要求，将实验报告+源代码，提交到如上网站中&lt;br /&gt;
* 平时成绩：30分&lt;br /&gt;
** 不能迟到、早退，特殊情况必须请假，并带辅导员签字的假条；&lt;br /&gt;
** 签到表：除了姓名，还要写一下进展&lt;br /&gt;
&lt;br /&gt;
== 提交作业说明 ==&lt;br /&gt;
* 作业网址：本学期开始的实验布置、提交与批改等不再使用csteaching平台，统一改用工程认证管理系统。请各位老师通过工程认证管理系统（网址[http://42.244.43.76:8000/ http://42.244.43.76:8000/]）开展实验布置、批改等相关工作，并烦请同步通知班级学生在该系统完成实验提交。&lt;br /&gt;
* &amp;lt;font color='red&amp;gt;作业迟交了则最终成绩会按一定比例缩减&amp;lt;/font&amp;gt;&lt;br /&gt;
* 包含两部分&lt;br /&gt;
** 实验报告（pdf文件，&amp;lt;font color='red&amp;gt;请把word转为pdf&amp;lt;/font&amp;gt;）&lt;br /&gt;
*** 请按照实验模版[[:文件:ir-2022-spring-report.doc]]，认真填写个人信息、实验题目、实验内容等&lt;br /&gt;
*** 不要大段粘贴代码，最多可以粘贴核心的一小段代码，&amp;lt;font color='red&amp;gt;粘贴大段代码会扣分&amp;lt;/font&amp;gt;&lt;br /&gt;
*** 写清楚自己的解决思路，尤其是遇到的难点和如何解决&lt;br /&gt;
*** 建议可以画流程图或者写伪代码。&lt;br /&gt;
*** 解决思路的流程图中是以文字为主还是以代码为主？报告中不要直接放代码。文字为主，不在于写得长，而在于写清楚，表明你确实做了、想了。&lt;br /&gt;
*** 问：流程图可以改成自然语言描述或者是伪代码吗？答：流程图也可以画的很high-level的。大家自由发挥。也可以画到纸上然后拍照截图。模块化思维 大问题分解小问题 。&lt;br /&gt;
*** &amp;lt;font color='red&amp;gt;将程序运行结果截图，没有运行结果会扣分&amp;lt;/font&amp;gt;，中间的输出结果/文件可以截图一部分&lt;br /&gt;
** 附件（.zip压缩包）&lt;br /&gt;
*** 源代码：代码不要都团在一起，请用空行对代码进行分隔，并简单注释代码块的功能&lt;br /&gt;
*** readme.txt文件：说明如何运行你的程序，需要什么环境，如windows或linux，python版本如python3.5&lt;br /&gt;
* 提交前自我检查&lt;br /&gt;
** 是否有包含readme.txt文件解释如何编译执行你的程序。 &amp;lt;font color='red&amp;gt;如没有该文件，将减分。&amp;lt;/font&amp;gt;&lt;br /&gt;
** 是否认真完成实验报告&lt;br /&gt;
** 是否可以按照readme.txt正确编译和运行程序&lt;br /&gt;
** 是否包含别人的代码，&amp;lt;font color='red&amp;gt;抄袭和被抄袭的都是0分&amp;lt;/font&amp;gt;&lt;br /&gt;
** 期末可能会用软件做自动抄袭检查&lt;br /&gt;
** 等这学期最后几周，我们可能统一对所有的作业做自动查重，到时候也会查出一些问题。 &amp;lt;font color='red&amp;gt;请大家一定要自己做，编程能力差一点，就做得简单一点，能力强，就做得好一点。但是一定要自己做。 &amp;lt;/font&amp;gt;&lt;br /&gt;
* 提交作业命名规则&lt;br /&gt;
** 实验报告（姓名学号.pdf）&lt;br /&gt;
** 附件（姓名学号.zip）&lt;br /&gt;
&lt;br /&gt;
== 实验报告word模板 ==&lt;br /&gt;
* [[:文件:ir-2022-spring-report.doc]]&lt;br /&gt;
&lt;br /&gt;
== 具体内容（含作业：平时：30 分；实验：70 分） == &lt;br /&gt;
&lt;br /&gt;
{| class=&amp;quot;wikitable&amp;quot;&lt;br /&gt;
! style=&amp;quot;text-align:left;&amp;quot;| 作业&lt;br /&gt;
! 成绩比例&lt;br /&gt;
! 评分要点&lt;br /&gt;
|-&lt;br /&gt;
| 分字&lt;br /&gt;
| 5%&lt;br /&gt;
| 按字节读取并判断高位&lt;br /&gt;
|-&lt;br /&gt;
| 单词计数&lt;br /&gt;
| 5%&lt;br /&gt;
| 无&lt;br /&gt;
|-&lt;br /&gt;
| 最大匹配分词&lt;br /&gt;
| 10%&lt;br /&gt;
| 算法和评价正确实现&lt;br /&gt;
|-&lt;br /&gt;
| 网页正文抽取&lt;br /&gt;
| 10%&lt;br /&gt;
| 按要求完成两个任务&lt;br /&gt;
|-&lt;br /&gt;
| 倒排索引&lt;br /&gt;
| 15%&lt;br /&gt;
| 高效创建倒排文件&lt;br /&gt;
|-&lt;br /&gt;
| 布尔查询&lt;br /&gt;
| 10%&lt;br /&gt;
| inter和union的复杂度为O(n)，复杂查询用堆栈判断优先级&lt;br /&gt;
|-&lt;br /&gt;
| 网页相关性排序&lt;br /&gt;
| 15%&lt;br /&gt;
| 基于向量空间模型VSM、tf-idf权重&lt;br /&gt;
|-&lt;br /&gt;
| 爬虫和某机构主页检索系统&lt;br /&gt;
| 15%&lt;br /&gt;
| 实现爬虫，系统架构设计良好，说明文档详细，UI完整&lt;br /&gt;
|-&lt;br /&gt;
| &amp;lt;font color='black&amp;gt;基于深度学习的检索系统&amp;lt;/font&amp;gt;&lt;br /&gt;
| 15% &lt;br /&gt;
| Contriever：重现部分实验结果；自己实现评价指标；在上一个作业中的爬虫和检索系统的基础上，自己设计、标注 10 个 query，对比向量空间模型VSM 和Contriever 的效果，给出评价结果。建议：VSM 给 100 个结果，然后 Contriever 重排序，然后人工标注，具体如何标注更合理，自己考虑好。&lt;br /&gt;
|-&lt;br /&gt;
|}&lt;br /&gt;
&lt;br /&gt;
== 信息检索课程介绍 ==&lt;br /&gt;
* [http://hlt.suda.edu.cn/~zhli/teach/ir-2019-spring/ir-introduction-v0.4.pdf PPT下载]&lt;br /&gt;
* 2022春视频和图片：&lt;br /&gt;
** 低画质：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/course-intro-low-quality.mp4 课程介绍]&lt;br /&gt;
** 高画质：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/course-intro-part-1.mp4 课程介绍-part1]、 [http://hlt.suda.edu.cn/LA/Ir-2022-Spring/course-intro-part-2.mp4 课程介绍-part2]&lt;br /&gt;
** 图片：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/course-intro.jpg 图]&lt;br /&gt;
&lt;br /&gt;
* &amp;lt;font color='red&amp;gt;和2022年课程的区别&amp;lt;/font&amp;gt;：增加了'''基于深度学习的检索'''的内容，删除'''词性标注'''相关内容&lt;br /&gt;
&lt;br /&gt;
== 信息检索系统介绍 ==&lt;br /&gt;
* 2022春视频：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/intro-to-info-retrieval.mp4 信息检索系统介绍]&lt;br /&gt;
&lt;br /&gt;
= 具体作业 =&lt;br /&gt;
&lt;br /&gt;
== 作业1：分字（C++语言） ==&lt;br /&gt;
* 2022春视频和图片：&lt;br /&gt;
** 低画质：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/split-char-low-quality.mp4 作业1]&lt;br /&gt;
** 高画质：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/split-char-part-1.mp4 作业1-part1]、 [http://hlt.suda.edu.cn/LA/Ir-2022-Spring/split-char-part-2.mp4 作业1-part2]&lt;br /&gt;
** 图片：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/split-char-figure-1.jpg 图1]、 [http://hlt.suda.edu.cn/LA/Ir-2022-Spring/split-char-figure-2.jpg 图2]&lt;br /&gt;
* UTF-8数据：[[文件:sentence.txt]]&lt;br /&gt;
* UFT-8编码规则：&lt;br /&gt;
 &amp;lt;nowiki&amp;gt;&lt;br /&gt;
1字节 0xxxxxxx&lt;br /&gt;
2字节 110xxxxx 10xxxxxx&lt;br /&gt;
3字节 1110xxxx 10xxxxxx 10xxxxxx&lt;br /&gt;
4字节 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx&lt;br /&gt;
5字节 111110xx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx&lt;br /&gt;
6字节 1111110x 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx &amp;lt;/nowiki&amp;gt;&lt;br /&gt;
&lt;br /&gt;
== 作业2：单词计数 ==&lt;br /&gt;
* 课件 [http://hlt.suda.edu.cn/~zhli/teach/ir-2019-spring/word-count.pdf PPT下载]&lt;br /&gt;
* 2022春视频：&lt;br /&gt;
** 低画质：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/word-count-low-quality.mp4 作业2]&lt;br /&gt;
** 高画质：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/word-count-2.mp4 作业2] &lt;br /&gt;
* 数据 [http://hlt.suda.edu.cn/~zhli/teach/ir-2019-spring/sample-en.txt txt下载]&lt;br /&gt;
&lt;br /&gt;
== 作业3：最大匹配分词 == &lt;br /&gt;
* 作业提交时间截止时间：第5周3.25下课之前提交&lt;br /&gt;
* 课件：前向最大匹配 PDF文件--[[文件:Word-seg-max-match.pdf]]；PPT文件--[[文件:Word-seg-max-match.zip]]&lt;br /&gt;
* 2022春视频和图片：&lt;br /&gt;
** 低画质：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/word-seg-max-match-low-quality.mp4 作业3]&lt;br /&gt;
** 高画质：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/word-seg-max-match.mp4 作业3] &lt;br /&gt;
** 图片：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/word-seg-max-match.jpg 图] &lt;br /&gt;
&lt;br /&gt;
* 数据下载：&lt;br /&gt;
** 字典：[[文件:dict.txt]] &lt;br /&gt;
** 待分词：[[文件:sentence.txt]] &lt;br /&gt;
** 正确答案（人工标注的，你的模型的预测结果要和这个文件进行对比，从而得到P/R/F值）：[[文件:answer.txt]]；&lt;br /&gt;
** 正向最大匹配分词模型的预测结果（如果你的程序写对了，那么应该和这个结果一模一样）：[[文件:out.txt]]&lt;br /&gt;
&lt;br /&gt;
 &amp;lt;nowiki&amp;gt;&lt;br /&gt;
*正确实验结果&lt;br /&gt;
**正确识别的词数：20263&lt;br /&gt;
**识别出的总体个数：20397&lt;br /&gt;
**测试集中的总体个数：20454&lt;br /&gt;
**正确率：0.99343&lt;br /&gt;
**召回率：0.99066&lt;br /&gt;
**F值：0.99204 &amp;lt;/nowiki&amp;gt;&lt;br /&gt;
&lt;br /&gt;
== 作业4：网页正文抽取 ==&lt;br /&gt;
&lt;br /&gt;
* 作业提交时间截止时间：x.x下课前提交&lt;br /&gt;
* 2022春视频： [http://hlt.suda.edu.cn/LA/Ir-2022-Spring/web-page-content-extraction.mp4 作业4]&lt;br /&gt;
* 课件（&amp;lt;font color='red'&amp;gt;请严格按照课件要求完成作业&amp;lt;/font&amp;gt;）： &lt;br /&gt;
** [[:文件:ir-2022-spring-web-page-content-extraction.ppt]]&lt;br /&gt;
** [[:文件:ir-2022-spring-web-page-content-extraction.pdf]]&lt;br /&gt;
* 数据&lt;br /&gt;
** 1.html和2.html [[:文件:ir-2022-spring-example-html.zip]]&lt;br /&gt;
** data-1k：1000个html文件 [[:文件:ir-2022-spring-all-html.zip]] （如果文件出现乱码，请到qq群里下载）&lt;br /&gt;
&lt;br /&gt;
== 作业5：倒排索引 == &lt;br /&gt;
&lt;br /&gt;
* 作业提交时间截止时间：第8周4.15下课前提交&lt;br /&gt;
* 课件： &lt;br /&gt;
** 仅供参考，与本次作业要求无关：[[:文件:ir-2022-spring-inverted-index-simplified.ppt]]&lt;br /&gt;
*  2022春视频和图片： &lt;br /&gt;
** 视频：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/inverted-index.mp4 作业5]&lt;br /&gt;
** 图片：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/inverted-index.jpg 图]&lt;br /&gt;
* 数据&lt;br /&gt;
** 停用词表：[https://github.com/goto456/stopwords github网址] [http://hlt.suda.edu.cn/LA/Ir-2022-Spring/stopwords.zip 苏大本地下载] &lt;br /&gt;
** 结巴词典：[https://github.com/fxsjy/jieba/tree/master/extra_dict github网址] [http://hlt.suda.edu.cn/LA/Ir-2022-Spring/word_dict.zip 苏大本地下载]&lt;br /&gt;
** 结巴词典文件每一行有3列，为：单词、词频、词性，只需要使用第一列的单词即可，使用small进行调试，提交作业用big&lt;br /&gt;
&lt;br /&gt;
== 作业6：布尔查询 ==&lt;br /&gt;
&lt;br /&gt;
* 作业提交时间截止时间：x.x下课前提交&lt;br /&gt;
*  2022春视频和图片： &lt;br /&gt;
** 视频：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/bool-query.mp4 作业6]&lt;br /&gt;
** 图片：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/bool-query.jpg 图]&lt;br /&gt;
* 作业提交说明：&lt;br /&gt;
** 附件中给出本次作业使用的倒排索引文件（可以在作业5的基础上进行优化），&amp;lt;font color=&amp;quot;red&amp;quot;&amp;gt;不需要提供构建倒排索引的代码，但在实验报告中给出倒排索引文件的说明，参考侯皓文同学&amp;lt;/font&amp;gt;&lt;br /&gt;
** 交集、并集操作用inter()、union()这两个函数单独封装&lt;br /&gt;
** &amp;lt;font color=&amp;quot;red&amp;quot;&amp;gt;对4个语句&amp;lt;/font&amp;gt; 'A', 'B', 'A AND B', 'A OR B' （A、B为自定义的查询词） 分别进行一次查询，每次的查询结果单独保存到一个txt文件中，以查询语句作为文件名（如 'A AND B.txt'`）&lt;br /&gt;
** 结果展示部分，文件按名字字母序排序：指字符序（用内置的sort即可），先用pinyin包转成拼音再排序也可以，不要自行改变文件名（如 阿大.txt -&amp;gt; 34.txt）&lt;br /&gt;
** 实现更复杂的查询，如：'A AND B OR C' 可以加分&lt;br /&gt;
** 查询词的加重（用#标记）不做强制要求，但做了加分&lt;br /&gt;
&lt;br /&gt;
== 作业7：基于向量空间模型（VSM）和tf-idf权重的网页相关性排序 ==&lt;br /&gt;
&lt;br /&gt;
* 作业提交时间截止时间：xx之前提交&lt;br /&gt;
** 视频：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/web-page-rank.mp4 作业7]&lt;br /&gt;
** 图片：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/web-page-rank-1.jpg 图片1]  [http://hlt.suda.edu.cn/LA/Ir-2022-Spring/web-page-rank-2.jpg 图片2]&lt;br /&gt;
* 作业要求：&lt;br /&gt;
** 如果无法理解向量空间模型，可以选择做tf-idf作业，但最多只给50分&lt;br /&gt;
** 实现基于向量空间模型的网页相关性排序&lt;br /&gt;
** 给定一个查询Q：可以是手动用空格分好词的&amp;quot;李正华 招收 学生&amp;quot;；也可以是未分词的&amp;quot;李正华招收学生&amp;quot;，之后用最大匹配分词分好词 -&amp;gt; &amp;quot;李正华 招收 学生&amp;quot;&lt;br /&gt;
** 注释：一个给定分词的查询Q实际上等价于布尔查询OR：&amp;quot;李正华 招收 学生&amp;quot; &amp;lt;=&amp;gt; &amp;quot;李正华 OR 招收 OR 学生&amp;quot;&lt;br /&gt;
* 作业提交说明：&lt;br /&gt;
** 附件中给出本任务所使用的倒排索引文件&lt;br /&gt;
** 在实验报告中说明对于余弦相似度计算中的：di[k]、q[k]、|di|、|q|是如何处理或存储的&lt;br /&gt;
** 附件中给出一个查询Q的结果，保存为文本文件&amp;quot;Q.txt&amp;quot;中，格式为：&lt;br /&gt;
&lt;br /&gt;
  文档名1（余弦相似度Sim） # Sim值可不除以|q|的值，一个例子： 阿鲁巴岛.txt(0.64)&lt;br /&gt;
  句子1&lt;br /&gt;
  句子2&lt;br /&gt;
  ...&lt;br /&gt;
  文档名2（余弦相似度Sim）&lt;br /&gt;
  句子1&lt;br /&gt;
  句子2&lt;br /&gt;
  ...&lt;br /&gt;
  ......&lt;br /&gt;
&lt;br /&gt;
== 作业8：爬虫和某机构主页检索系统（综合项目） ==&lt;br /&gt;
&lt;br /&gt;
* 作业提交时间截止时间：xx之前提交&lt;br /&gt;
** 视频：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/web-spider.mp4 作业8]&lt;br /&gt;
** PPT：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/web-spider.pptx PPT]&lt;br /&gt;
* 任务一：用&amp;lt;font color=&amp;quot;red&amp;quot;&amp;gt;爬虫模块&amp;lt;/font&amp;gt;尽量完整地爬下来一个机构对应的所有静态网页（html或htm后缀），保存到磁盘中：&lt;br /&gt;
** 苏大、苏大计算机学院（规模小一点）都可以&lt;br /&gt;
** orphan网页不用考虑&lt;br /&gt;
* 任务二：基于爬取的网页，做一个完整的检索系统（以后可以考虑不断完善、定时更新）：&lt;br /&gt;
** 1. &amp;lt;font color=&amp;quot;red&amp;quot;&amp;gt;网页正文提取模块&amp;lt;/font&amp;gt;（同作业4的实战部分一致）&lt;br /&gt;
** 2. 处理网页正文的&amp;lt;font color=&amp;quot;red&amp;quot;&amp;gt;分句、分词模块&amp;lt;/font&amp;gt;（可以用作业3的最大匹配分词，也可以用第三方的分词器，如jieba）&lt;br /&gt;
** 3. &amp;lt;font color=&amp;quot;red&amp;quot;&amp;gt;倒排索引模块&amp;lt;/font&amp;gt;：基于处理好的网页正文，建立倒排索引文件（同作业5一致）&lt;br /&gt;
** 4. &amp;lt;font color=&amp;quot;red&amp;quot;&amp;gt;网页排序模块&amp;lt;/font&amp;gt;：实现网页相关性排序（同作业7一致）&lt;br /&gt;
** 5. &amp;lt;font color=&amp;quot;red&amp;quot;&amp;gt;查询模块&amp;lt;/font&amp;gt;：提供查询接口，用户输入查询词后显示网页名（暂定为网页的title），和包含查询词的句子，查询词进行highlight处理（如#查询词#）。查询接口可以用命令行实现，提供前端UI界面（Web或Application都可以）会获得加分。&lt;br /&gt;
&lt;br /&gt;
注意：把网页源文件（html文件）保存好，避免重复爬。例如优化了网页正文提取模块、或突然想用一个更好的分词器&lt;br /&gt;
&lt;br /&gt;
* 作业提交说明：&lt;br /&gt;
** 源代码：任务一和任务二的所有代码都要提交，每个模块（共6个，在上方已用红色标出）在readme中指明在哪个python文件中实现的&lt;br /&gt;
** 处理好的网页数据（可选）：原始网页，提取出并分好句、分好词的网页正文，若网页数据特别大的话可以不要&lt;br /&gt;
** 在实验报告中将三项统计信息放到表格中：网页（文档）数、句子数、单词数&lt;br /&gt;
** 倒排索引文件（必备）&lt;br /&gt;
** 说明文档：(每个模块的)实现的功能，如何使用，接口等，内容不限&lt;br /&gt;
&lt;br /&gt;
== 作业9：深度学习方法&amp;amp;检索结果的评价 ==&lt;br /&gt;
&lt;br /&gt;
* 要求&lt;br /&gt;
** 账号环境，跑推理代码，重现完成部分实验。&lt;br /&gt;
*** 具体要跑哪些实验，请看文档最后的表格：[https://resplendent-gumdrop-ad2cd4.netlify.app/contriever-ir-course-assignment/ 具体文档] &lt;br /&gt;
** 自己实现评价指标，自己的评价指标的结果，和contriever 的结果一致。&lt;br /&gt;
** VSM和 Contriever 的对比&lt;br /&gt;
 &amp;lt;nowiki&amp;gt; 针对自己实现的“苏大计算机官网搜索引擎”，去对比VSM和Contriever的效果。&lt;br /&gt;
     自己设计10个难度不同的 query，然后 VSM 返回 50 个结果，把这 50 个结果随机打乱顺序（这一步很重要），然后人工做一个标注（给一个排序）【如果觉得 10 个 query 太多，5 个也行】&lt;br /&gt;
     Contriever对 50 个结果重排序&lt;br /&gt;
     比较两种方法的结果：NDCG@5      NDCG@10       NDCG@20等&lt;br /&gt;
     如果有能力、有时间，可以分析下：什么样的query，VSM 做得好；什么样的 query，Contriever 做得好。 &amp;lt;/nowiki&amp;gt;&lt;br /&gt;
** 实验报告体现出自己做了什么、遇到的困难及如何解决。&lt;br /&gt;
&lt;br /&gt;
* 参考资料&lt;br /&gt;
** 上面的文档&lt;br /&gt;
** 微信公众号”语析LAGroup“中 contriever 论文解读&lt;br /&gt;
** contriever 原文&lt;br /&gt;
&lt;br /&gt;
== 时间表 ==&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
 &amp;lt;nowiki&amp;gt;&lt;br /&gt;
3.5 第1周&lt;br /&gt;
3.12 第2周&lt;br /&gt;
&lt;br /&gt;
xxx&lt;br /&gt;
3.25 第5周&lt;br /&gt;
4.1 第6周&lt;br /&gt;
4.29 第10周&lt;br /&gt;
5.6 第11周&lt;br /&gt;
5.27 第14周&lt;br /&gt;
6.3 第15周&lt;br /&gt;
6.17 第17周&lt;br /&gt;
&lt;br /&gt;
1	08:00-08:45&lt;br /&gt;
2	08:50-09:35&lt;br /&gt;
3	09:55-10:40&lt;br /&gt;
4	10:45-11:30&lt;br /&gt;
5	11:35-12:20&lt;br /&gt;
6	14:00-14:45&lt;br /&gt;
7	14:50-15:35 【休息5分钟，+15分钟】&lt;br /&gt;
8	15:55-16:40 &lt;br /&gt;
9	16:45-17:30 【17:15】   &lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
考虑来2-3 次考试。&lt;br /&gt;
闭卷考试，比较正式的那种。在机房里就行。然后拍照留存？&lt;br /&gt;
&lt;br /&gt;
2次考试的方案：&lt;br /&gt;
倒排搞完 考一次&lt;br /&gt;
最后一次 &lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
3次考试的方案：&lt;br /&gt;
最大匹配分词搞完，考一次&lt;br /&gt;
布尔查询搞完 考一次&lt;br /&gt;
最后一次 &lt;br /&gt;
&lt;br /&gt;
上机课9 个作业，实验报告，主要是形式审查，占比比较低。要根据考试的成绩，然后加权得到每一次作业的成绩。&lt;br /&gt;
最后，9 个作业再按照一定比例，得到实验成绩。&lt;br /&gt;
&lt;br /&gt;
&amp;lt;/nowiki&amp;gt;&lt;/div&gt;</summary>
		<author><name>Zhli</name></author>
	</entry>
	<entry>
		<id>http://hlt.suda.edu.cn/index.php?title=Ir-2026-spring&amp;diff=6203</id>
		<title>Ir-2026-spring</title>
		<link rel="alternate" type="text/html" href="http://hlt.suda.edu.cn/index.php?title=Ir-2026-spring&amp;diff=6203"/>
		<updated>2026-03-19T06:27:40Z</updated>

		<summary type="html">&lt;p&gt;Zhli：/* 计算成绩的规则和说明（待定） */&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;&lt;br /&gt;
&lt;br /&gt;
= 信息检索综合实践 =&lt;br /&gt;
&lt;br /&gt;
李正华&lt;br /&gt;
&lt;br /&gt;
* 学生：计23计科1班	 	 	 &lt;br /&gt;
* 助教：吕喆、梅睿桐  &lt;br /&gt;
* QQ群: xx&lt;br /&gt;
* 时间：周四 6-9 节课 1-17 周&lt;br /&gt;
* 地点：理工楼238&lt;br /&gt;
&lt;br /&gt;
== 上课基本要求 ==&lt;br /&gt;
* 不能做的事情：打游戏、看课程无关视频、刷网页&lt;br /&gt;
* 认真读作业要求，按时交作业。csteaching&lt;br /&gt;
* 不能抄袭别人或网上的，自己做；不要把自己的作业给别人&lt;br /&gt;
&lt;br /&gt;
== 课程建议 ==&lt;br /&gt;
* 每个作业，截止时间后，把成绩发给大家，并用ppt给大家讲一下批作业发现的问题，题目分析&lt;br /&gt;
* 上课期间：请大家积极提问。遇到大家都无法理解的公共问题，我会补充讲解&lt;br /&gt;
* 非上课时间提问&lt;br /&gt;
** 建议同学们在群里提问（包括但不限于代码的bug、不理解算法、作业资源和提交等），由其他同学帮助解答；&lt;br /&gt;
** 群里的提问如果其他同学也无法回答，可以私信助教（仅限xxx，如周四晚上7点到9点，吕喆增加）；&lt;br /&gt;
&lt;br /&gt;
== 计算成绩的规则和说明（待定） ==&lt;br /&gt;
* &amp;lt;font color='red&amp;gt;核心要求：掌握最基本的概念、方法、算法&amp;lt;/font&amp;gt;&lt;br /&gt;
* 实验作业：70分&lt;br /&gt;
** 一系列作业，每个作业 5-15分（形式检查为辅、考核为主）&lt;br /&gt;
*** 考核：考察课程相关的基础知识，看看作业是否是自己做的&lt;br /&gt;
** 必须按照规定时间，按照规定格式要求，将实验报告+源代码，提交到如上网站中&lt;br /&gt;
* 平时成绩：30分&lt;br /&gt;
** 不能迟到、早退，特殊情况必须请假，并带辅导员签字的假条；&lt;br /&gt;
** 点名时，如果发现名单上没有你的名字，及时提出&lt;br /&gt;
&lt;br /&gt;
== 提交作业说明 ==&lt;br /&gt;
* 作业网址：本学期开始的实验布置、提交与批改等不再使用csteaching平台，统一改用工程认证管理系统。请各位老师通过工程认证管理系统（网址[http://42.244.43.76:8000/ http://42.244.43.76:8000/]）开展实验布置、批改等相关工作，并烦请同步通知班级学生在该系统完成实验提交。&lt;br /&gt;
* &amp;lt;font color='red&amp;gt;作业迟交了则最终成绩会按一定比例缩减&amp;lt;/font&amp;gt;&lt;br /&gt;
* 包含两部分&lt;br /&gt;
** 实验报告（pdf文件，&amp;lt;font color='red&amp;gt;请把word转为pdf&amp;lt;/font&amp;gt;）&lt;br /&gt;
*** 请按照实验模版[[:文件:ir-2022-spring-report.doc]]，认真填写个人信息、实验题目、实验内容等&lt;br /&gt;
*** 不要大段粘贴代码，最多可以粘贴核心的一小段代码，&amp;lt;font color='red&amp;gt;粘贴大段代码会扣分&amp;lt;/font&amp;gt;&lt;br /&gt;
*** 写清楚自己的解决思路，尤其是遇到的难点和如何解决&lt;br /&gt;
*** 建议可以画流程图或者写伪代码。&lt;br /&gt;
*** 解决思路的流程图中是以文字为主还是以代码为主？报告中不要直接放代码。文字为主，不在于写得长，而在于写清楚，表明你确实做了、想了。&lt;br /&gt;
*** 问：流程图可以改成自然语言描述或者是伪代码吗？答：流程图也可以画的很high-level的。大家自由发挥。也可以画到纸上然后拍照截图。模块化思维 大问题分解小问题 。&lt;br /&gt;
*** &amp;lt;font color='red&amp;gt;将程序运行结果截图，没有运行结果会扣分&amp;lt;/font&amp;gt;，中间的输出结果/文件可以截图一部分&lt;br /&gt;
** 附件（.zip压缩包）&lt;br /&gt;
*** 源代码：代码不要都团在一起，请用空行对代码进行分隔，并简单注释代码块的功能&lt;br /&gt;
*** readme.txt文件：说明如何运行你的程序，需要什么环境，如windows或linux，python版本如python3.5&lt;br /&gt;
* 提交前自我检查&lt;br /&gt;
** 是否有包含readme.txt文件解释如何编译执行你的程序。 &amp;lt;font color='red&amp;gt;如没有该文件，将减分。&amp;lt;/font&amp;gt;&lt;br /&gt;
** 是否认真完成实验报告&lt;br /&gt;
** 是否可以按照readme.txt正确编译和运行程序&lt;br /&gt;
** 是否包含别人的代码，&amp;lt;font color='red&amp;gt;抄袭和被抄袭的都是0分&amp;lt;/font&amp;gt;&lt;br /&gt;
** 期末可能会用软件做自动抄袭检查&lt;br /&gt;
** 等这学期最后几周，我们可能统一对所有的作业做自动查重，到时候也会查出一些问题。 &amp;lt;font color='red&amp;gt;请大家一定要自己做，编程能力差一点，就做得简单一点，能力强，就做得好一点。但是一定要自己做。 &amp;lt;/font&amp;gt;&lt;br /&gt;
* 提交作业命名规则&lt;br /&gt;
** 实验报告（姓名学号.pdf）&lt;br /&gt;
** 附件（姓名学号.zip）&lt;br /&gt;
&lt;br /&gt;
== 实验报告word模板 ==&lt;br /&gt;
* [[:文件:ir-2022-spring-report.doc]]&lt;br /&gt;
&lt;br /&gt;
== 具体内容（含作业：平时：30 分；实验：70 分） == &lt;br /&gt;
&lt;br /&gt;
{| class=&amp;quot;wikitable&amp;quot;&lt;br /&gt;
! style=&amp;quot;text-align:left;&amp;quot;| 作业&lt;br /&gt;
! 成绩比例&lt;br /&gt;
! 评分要点&lt;br /&gt;
|-&lt;br /&gt;
| 分字&lt;br /&gt;
| 5%&lt;br /&gt;
| 按字节读取并判断高位&lt;br /&gt;
|-&lt;br /&gt;
| 单词计数&lt;br /&gt;
| 5%&lt;br /&gt;
| 无&lt;br /&gt;
|-&lt;br /&gt;
| 最大匹配分词&lt;br /&gt;
| 10%&lt;br /&gt;
| 算法和评价正确实现&lt;br /&gt;
|-&lt;br /&gt;
| 网页正文抽取&lt;br /&gt;
| 10%&lt;br /&gt;
| 按要求完成两个任务&lt;br /&gt;
|-&lt;br /&gt;
| 倒排索引&lt;br /&gt;
| 15%&lt;br /&gt;
| 高效创建倒排文件&lt;br /&gt;
|-&lt;br /&gt;
| 布尔查询&lt;br /&gt;
| 10%&lt;br /&gt;
| inter和union的复杂度为O(n)，复杂查询用堆栈判断优先级&lt;br /&gt;
|-&lt;br /&gt;
| 网页相关性排序&lt;br /&gt;
| 15%&lt;br /&gt;
| 基于向量空间模型VSM、tf-idf权重&lt;br /&gt;
|-&lt;br /&gt;
| 爬虫和某机构主页检索系统&lt;br /&gt;
| 15%&lt;br /&gt;
| 实现爬虫，系统架构设计良好，说明文档详细，UI完整&lt;br /&gt;
|-&lt;br /&gt;
| &amp;lt;font color='black&amp;gt;基于深度学习的检索系统&amp;lt;/font&amp;gt;&lt;br /&gt;
| 15% &lt;br /&gt;
| Contriever：重现部分实验结果；自己实现评价指标；在上一个作业中的爬虫和检索系统的基础上，自己设计、标注 10 个 query，对比向量空间模型VSM 和Contriever 的效果，给出评价结果。建议：VSM 给 100 个结果，然后 Contriever 重排序，然后人工标注，具体如何标注更合理，自己考虑好。&lt;br /&gt;
|-&lt;br /&gt;
|}&lt;br /&gt;
&lt;br /&gt;
== 信息检索课程介绍 ==&lt;br /&gt;
* [http://hlt.suda.edu.cn/~zhli/teach/ir-2019-spring/ir-introduction-v0.4.pdf PPT下载]&lt;br /&gt;
* 2022春视频和图片：&lt;br /&gt;
** 低画质：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/course-intro-low-quality.mp4 课程介绍]&lt;br /&gt;
** 高画质：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/course-intro-part-1.mp4 课程介绍-part1]、 [http://hlt.suda.edu.cn/LA/Ir-2022-Spring/course-intro-part-2.mp4 课程介绍-part2]&lt;br /&gt;
** 图片：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/course-intro.jpg 图]&lt;br /&gt;
&lt;br /&gt;
* &amp;lt;font color='red&amp;gt;和2022年课程的区别&amp;lt;/font&amp;gt;：增加了'''基于深度学习的检索'''的内容，删除'''词性标注'''相关内容&lt;br /&gt;
&lt;br /&gt;
== 信息检索系统介绍 ==&lt;br /&gt;
* 2022春视频：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/intro-to-info-retrieval.mp4 信息检索系统介绍]&lt;br /&gt;
&lt;br /&gt;
= 具体作业 =&lt;br /&gt;
&lt;br /&gt;
== 作业1：分字（C++语言） ==&lt;br /&gt;
* 2022春视频和图片：&lt;br /&gt;
** 低画质：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/split-char-low-quality.mp4 作业1]&lt;br /&gt;
** 高画质：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/split-char-part-1.mp4 作业1-part1]、 [http://hlt.suda.edu.cn/LA/Ir-2022-Spring/split-char-part-2.mp4 作业1-part2]&lt;br /&gt;
** 图片：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/split-char-figure-1.jpg 图1]、 [http://hlt.suda.edu.cn/LA/Ir-2022-Spring/split-char-figure-2.jpg 图2]&lt;br /&gt;
* UTF-8数据：[[文件:sentence.txt]]&lt;br /&gt;
* UFT-8编码规则：&lt;br /&gt;
 &amp;lt;nowiki&amp;gt;&lt;br /&gt;
1字节 0xxxxxxx&lt;br /&gt;
2字节 110xxxxx 10xxxxxx&lt;br /&gt;
3字节 1110xxxx 10xxxxxx 10xxxxxx&lt;br /&gt;
4字节 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx&lt;br /&gt;
5字节 111110xx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx&lt;br /&gt;
6字节 1111110x 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx &amp;lt;/nowiki&amp;gt;&lt;br /&gt;
&lt;br /&gt;
== 作业2：单词计数 ==&lt;br /&gt;
* 课件 [http://hlt.suda.edu.cn/~zhli/teach/ir-2019-spring/word-count.pdf PPT下载]&lt;br /&gt;
* 2022春视频：&lt;br /&gt;
** 低画质：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/word-count-low-quality.mp4 作业2]&lt;br /&gt;
** 高画质：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/word-count-2.mp4 作业2] &lt;br /&gt;
* 数据 [http://hlt.suda.edu.cn/~zhli/teach/ir-2019-spring/sample-en.txt txt下载]&lt;br /&gt;
&lt;br /&gt;
== 作业3：最大匹配分词 == &lt;br /&gt;
* 作业提交时间截止时间：第5周3.25下课之前提交&lt;br /&gt;
* 课件：前向最大匹配 PDF文件--[[文件:Word-seg-max-match.pdf]]；PPT文件--[[文件:Word-seg-max-match.zip]]&lt;br /&gt;
* 2022春视频和图片：&lt;br /&gt;
** 低画质：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/word-seg-max-match-low-quality.mp4 作业3]&lt;br /&gt;
** 高画质：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/word-seg-max-match.mp4 作业3] &lt;br /&gt;
** 图片：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/word-seg-max-match.jpg 图] &lt;br /&gt;
&lt;br /&gt;
* 数据下载：&lt;br /&gt;
** 字典：[[文件:dict.txt]] &lt;br /&gt;
** 待分词：[[文件:sentence.txt]] &lt;br /&gt;
** 正确答案（人工标注的，你的模型的预测结果要和这个文件进行对比，从而得到P/R/F值）：[[文件:answer.txt]]；&lt;br /&gt;
** 正向最大匹配分词模型的预测结果（如果你的程序写对了，那么应该和这个结果一模一样）：[[文件:out.txt]]&lt;br /&gt;
&lt;br /&gt;
 &amp;lt;nowiki&amp;gt;&lt;br /&gt;
*正确实验结果&lt;br /&gt;
**正确识别的词数：20263&lt;br /&gt;
**识别出的总体个数：20397&lt;br /&gt;
**测试集中的总体个数：20454&lt;br /&gt;
**正确率：0.99343&lt;br /&gt;
**召回率：0.99066&lt;br /&gt;
**F值：0.99204 &amp;lt;/nowiki&amp;gt;&lt;br /&gt;
&lt;br /&gt;
== 作业4：网页正文抽取 ==&lt;br /&gt;
&lt;br /&gt;
* 作业提交时间截止时间：x.x下课前提交&lt;br /&gt;
* 2022春视频： [http://hlt.suda.edu.cn/LA/Ir-2022-Spring/web-page-content-extraction.mp4 作业4]&lt;br /&gt;
* 课件（&amp;lt;font color='red'&amp;gt;请严格按照课件要求完成作业&amp;lt;/font&amp;gt;）： &lt;br /&gt;
** [[:文件:ir-2022-spring-web-page-content-extraction.ppt]]&lt;br /&gt;
** [[:文件:ir-2022-spring-web-page-content-extraction.pdf]]&lt;br /&gt;
* 数据&lt;br /&gt;
** 1.html和2.html [[:文件:ir-2022-spring-example-html.zip]]&lt;br /&gt;
** data-1k：1000个html文件 [[:文件:ir-2022-spring-all-html.zip]] （如果文件出现乱码，请到qq群里下载）&lt;br /&gt;
&lt;br /&gt;
== 作业5：倒排索引 == &lt;br /&gt;
&lt;br /&gt;
* 作业提交时间截止时间：第8周4.15下课前提交&lt;br /&gt;
* 课件： &lt;br /&gt;
** 仅供参考，与本次作业要求无关：[[:文件:ir-2022-spring-inverted-index-simplified.ppt]]&lt;br /&gt;
*  2022春视频和图片： &lt;br /&gt;
** 视频：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/inverted-index.mp4 作业5]&lt;br /&gt;
** 图片：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/inverted-index.jpg 图]&lt;br /&gt;
* 数据&lt;br /&gt;
** 停用词表：[https://github.com/goto456/stopwords github网址] [http://hlt.suda.edu.cn/LA/Ir-2022-Spring/stopwords.zip 苏大本地下载] &lt;br /&gt;
** 结巴词典：[https://github.com/fxsjy/jieba/tree/master/extra_dict github网址] [http://hlt.suda.edu.cn/LA/Ir-2022-Spring/word_dict.zip 苏大本地下载]&lt;br /&gt;
** 结巴词典文件每一行有3列，为：单词、词频、词性，只需要使用第一列的单词即可，使用small进行调试，提交作业用big&lt;br /&gt;
&lt;br /&gt;
== 作业6：布尔查询 ==&lt;br /&gt;
&lt;br /&gt;
* 作业提交时间截止时间：x.x下课前提交&lt;br /&gt;
*  2022春视频和图片： &lt;br /&gt;
** 视频：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/bool-query.mp4 作业6]&lt;br /&gt;
** 图片：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/bool-query.jpg 图]&lt;br /&gt;
* 作业提交说明：&lt;br /&gt;
** 附件中给出本次作业使用的倒排索引文件（可以在作业5的基础上进行优化），&amp;lt;font color=&amp;quot;red&amp;quot;&amp;gt;不需要提供构建倒排索引的代码，但在实验报告中给出倒排索引文件的说明，参考侯皓文同学&amp;lt;/font&amp;gt;&lt;br /&gt;
** 交集、并集操作用inter()、union()这两个函数单独封装&lt;br /&gt;
** &amp;lt;font color=&amp;quot;red&amp;quot;&amp;gt;对4个语句&amp;lt;/font&amp;gt; 'A', 'B', 'A AND B', 'A OR B' （A、B为自定义的查询词） 分别进行一次查询，每次的查询结果单独保存到一个txt文件中，以查询语句作为文件名（如 'A AND B.txt'`）&lt;br /&gt;
** 结果展示部分，文件按名字字母序排序：指字符序（用内置的sort即可），先用pinyin包转成拼音再排序也可以，不要自行改变文件名（如 阿大.txt -&amp;gt; 34.txt）&lt;br /&gt;
** 实现更复杂的查询，如：'A AND B OR C' 可以加分&lt;br /&gt;
** 查询词的加重（用#标记）不做强制要求，但做了加分&lt;br /&gt;
&lt;br /&gt;
== 作业7：基于向量空间模型（VSM）和tf-idf权重的网页相关性排序 ==&lt;br /&gt;
&lt;br /&gt;
* 作业提交时间截止时间：xx之前提交&lt;br /&gt;
** 视频：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/web-page-rank.mp4 作业7]&lt;br /&gt;
** 图片：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/web-page-rank-1.jpg 图片1]  [http://hlt.suda.edu.cn/LA/Ir-2022-Spring/web-page-rank-2.jpg 图片2]&lt;br /&gt;
* 作业要求：&lt;br /&gt;
** 如果无法理解向量空间模型，可以选择做tf-idf作业，但最多只给50分&lt;br /&gt;
** 实现基于向量空间模型的网页相关性排序&lt;br /&gt;
** 给定一个查询Q：可以是手动用空格分好词的&amp;quot;李正华 招收 学生&amp;quot;；也可以是未分词的&amp;quot;李正华招收学生&amp;quot;，之后用最大匹配分词分好词 -&amp;gt; &amp;quot;李正华 招收 学生&amp;quot;&lt;br /&gt;
** 注释：一个给定分词的查询Q实际上等价于布尔查询OR：&amp;quot;李正华 招收 学生&amp;quot; &amp;lt;=&amp;gt; &amp;quot;李正华 OR 招收 OR 学生&amp;quot;&lt;br /&gt;
* 作业提交说明：&lt;br /&gt;
** 附件中给出本任务所使用的倒排索引文件&lt;br /&gt;
** 在实验报告中说明对于余弦相似度计算中的：di[k]、q[k]、|di|、|q|是如何处理或存储的&lt;br /&gt;
** 附件中给出一个查询Q的结果，保存为文本文件&amp;quot;Q.txt&amp;quot;中，格式为：&lt;br /&gt;
&lt;br /&gt;
  文档名1（余弦相似度Sim） # Sim值可不除以|q|的值，一个例子： 阿鲁巴岛.txt(0.64)&lt;br /&gt;
  句子1&lt;br /&gt;
  句子2&lt;br /&gt;
  ...&lt;br /&gt;
  文档名2（余弦相似度Sim）&lt;br /&gt;
  句子1&lt;br /&gt;
  句子2&lt;br /&gt;
  ...&lt;br /&gt;
  ......&lt;br /&gt;
&lt;br /&gt;
== 作业8：爬虫和某机构主页检索系统（综合项目） ==&lt;br /&gt;
&lt;br /&gt;
* 作业提交时间截止时间：xx之前提交&lt;br /&gt;
** 视频：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/web-spider.mp4 作业8]&lt;br /&gt;
** PPT：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/web-spider.pptx PPT]&lt;br /&gt;
* 任务一：用&amp;lt;font color=&amp;quot;red&amp;quot;&amp;gt;爬虫模块&amp;lt;/font&amp;gt;尽量完整地爬下来一个机构对应的所有静态网页（html或htm后缀），保存到磁盘中：&lt;br /&gt;
** 苏大、苏大计算机学院（规模小一点）都可以&lt;br /&gt;
** orphan网页不用考虑&lt;br /&gt;
* 任务二：基于爬取的网页，做一个完整的检索系统（以后可以考虑不断完善、定时更新）：&lt;br /&gt;
** 1. &amp;lt;font color=&amp;quot;red&amp;quot;&amp;gt;网页正文提取模块&amp;lt;/font&amp;gt;（同作业4的实战部分一致）&lt;br /&gt;
** 2. 处理网页正文的&amp;lt;font color=&amp;quot;red&amp;quot;&amp;gt;分句、分词模块&amp;lt;/font&amp;gt;（可以用作业3的最大匹配分词，也可以用第三方的分词器，如jieba）&lt;br /&gt;
** 3. &amp;lt;font color=&amp;quot;red&amp;quot;&amp;gt;倒排索引模块&amp;lt;/font&amp;gt;：基于处理好的网页正文，建立倒排索引文件（同作业5一致）&lt;br /&gt;
** 4. &amp;lt;font color=&amp;quot;red&amp;quot;&amp;gt;网页排序模块&amp;lt;/font&amp;gt;：实现网页相关性排序（同作业7一致）&lt;br /&gt;
** 5. &amp;lt;font color=&amp;quot;red&amp;quot;&amp;gt;查询模块&amp;lt;/font&amp;gt;：提供查询接口，用户输入查询词后显示网页名（暂定为网页的title），和包含查询词的句子，查询词进行highlight处理（如#查询词#）。查询接口可以用命令行实现，提供前端UI界面（Web或Application都可以）会获得加分。&lt;br /&gt;
&lt;br /&gt;
注意：把网页源文件（html文件）保存好，避免重复爬。例如优化了网页正文提取模块、或突然想用一个更好的分词器&lt;br /&gt;
&lt;br /&gt;
* 作业提交说明：&lt;br /&gt;
** 源代码：任务一和任务二的所有代码都要提交，每个模块（共6个，在上方已用红色标出）在readme中指明在哪个python文件中实现的&lt;br /&gt;
** 处理好的网页数据（可选）：原始网页，提取出并分好句、分好词的网页正文，若网页数据特别大的话可以不要&lt;br /&gt;
** 在实验报告中将三项统计信息放到表格中：网页（文档）数、句子数、单词数&lt;br /&gt;
** 倒排索引文件（必备）&lt;br /&gt;
** 说明文档：(每个模块的)实现的功能，如何使用，接口等，内容不限&lt;br /&gt;
&lt;br /&gt;
== 作业9：深度学习方法&amp;amp;检索结果的评价 ==&lt;br /&gt;
&lt;br /&gt;
* 要求&lt;br /&gt;
** 账号环境，跑推理代码，重现完成部分实验。&lt;br /&gt;
*** 具体要跑哪些实验，请看文档最后的表格：[https://resplendent-gumdrop-ad2cd4.netlify.app/contriever-ir-course-assignment/ 具体文档] &lt;br /&gt;
** 自己实现评价指标，自己的评价指标的结果，和contriever 的结果一致。&lt;br /&gt;
** VSM和 Contriever 的对比&lt;br /&gt;
 &amp;lt;nowiki&amp;gt; 针对自己实现的“苏大计算机官网搜索引擎”，去对比VSM和Contriever的效果。&lt;br /&gt;
     自己设计10个难度不同的 query，然后 VSM 返回 50 个结果，把这 50 个结果随机打乱顺序（这一步很重要），然后人工做一个标注（给一个排序）【如果觉得 10 个 query 太多，5 个也行】&lt;br /&gt;
     Contriever对 50 个结果重排序&lt;br /&gt;
     比较两种方法的结果：NDCG@5      NDCG@10       NDCG@20等&lt;br /&gt;
     如果有能力、有时间，可以分析下：什么样的query，VSM 做得好；什么样的 query，Contriever 做得好。 &amp;lt;/nowiki&amp;gt;&lt;br /&gt;
** 实验报告体现出自己做了什么、遇到的困难及如何解决。&lt;br /&gt;
&lt;br /&gt;
* 参考资料&lt;br /&gt;
** 上面的文档&lt;br /&gt;
** 微信公众号”语析LAGroup“中 contriever 论文解读&lt;br /&gt;
** contriever 原文&lt;br /&gt;
&lt;br /&gt;
== 时间表 ==&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
 &amp;lt;nowiki&amp;gt;&lt;br /&gt;
3.5 第1周&lt;br /&gt;
3.12 第2周&lt;br /&gt;
&lt;br /&gt;
xxx&lt;br /&gt;
3.25 第5周&lt;br /&gt;
4.1 第6周&lt;br /&gt;
4.29 第10周&lt;br /&gt;
5.6 第11周&lt;br /&gt;
5.27 第14周&lt;br /&gt;
6.3 第15周&lt;br /&gt;
6.17 第17周&lt;br /&gt;
&lt;br /&gt;
1	08:00-08:45&lt;br /&gt;
2	08:50-09:35&lt;br /&gt;
3	09:55-10:40&lt;br /&gt;
4	10:45-11:30&lt;br /&gt;
5	11:35-12:20&lt;br /&gt;
6	14:00-14:45&lt;br /&gt;
7	14:50-15:35 【休息5分钟，+15分钟】&lt;br /&gt;
8	15:55-16:40 &lt;br /&gt;
9	16:45-17:30 【17:15】   &lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
考虑来2-3 次考试。&lt;br /&gt;
闭卷考试，比较正式的那种。在机房里就行。然后拍照留存？&lt;br /&gt;
&lt;br /&gt;
2次考试的方案：&lt;br /&gt;
倒排搞完 考一次&lt;br /&gt;
最后一次 &lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
3次考试的方案：&lt;br /&gt;
最大匹配分词搞完，考一次&lt;br /&gt;
布尔查询搞完 考一次&lt;br /&gt;
最后一次 &lt;br /&gt;
&lt;br /&gt;
上机课9 个作业，实验报告，主要是形式审查，占比比较低。要根据考试的成绩，然后加权得到每一次作业的成绩。&lt;br /&gt;
最后，9 个作业再按照一定比例，得到实验成绩。&lt;br /&gt;
&lt;br /&gt;
&amp;lt;/nowiki&amp;gt;&lt;/div&gt;</summary>
		<author><name>Zhli</name></author>
	</entry>
	<entry>
		<id>http://hlt.suda.edu.cn/index.php?title=Ir-2026-spring&amp;diff=6201</id>
		<title>Ir-2026-spring</title>
		<link rel="alternate" type="text/html" href="http://hlt.suda.edu.cn/index.php?title=Ir-2026-spring&amp;diff=6201"/>
		<updated>2026-03-12T06:54:40Z</updated>

		<summary type="html">&lt;p&gt;Zhli：/* 具体课程（含作业） */&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;&lt;br /&gt;
&lt;br /&gt;
= 信息检索综合实践 =&lt;br /&gt;
&lt;br /&gt;
李正华&lt;br /&gt;
&lt;br /&gt;
* 学生：计23计科1班	 	 	 &lt;br /&gt;
* 助教：吕喆、梅睿桐  &lt;br /&gt;
* QQ群: xx&lt;br /&gt;
* 时间：周四 6-9 节课 1-17 周&lt;br /&gt;
* 地点：理工楼238&lt;br /&gt;
&lt;br /&gt;
== 上课基本要求 ==&lt;br /&gt;
* 不能做的事情：打游戏、看课程无关视频、刷网页&lt;br /&gt;
* 认真读作业要求，按时交作业。csteaching&lt;br /&gt;
* 不能抄袭别人或网上的，自己做；不要把自己的作业给别人&lt;br /&gt;
&lt;br /&gt;
== 课程建议 ==&lt;br /&gt;
* 每个作业，截止时间后，把成绩发给大家，并用ppt给大家讲一下批作业发现的问题，题目分析&lt;br /&gt;
* 上课期间：请大家积极提问。遇到大家都无法理解的公共问题，我会补充讲解&lt;br /&gt;
* 非上课时间提问&lt;br /&gt;
** 建议同学们在群里提问（包括但不限于代码的bug、不理解算法、作业资源和提交等），由其他同学帮助解答；&lt;br /&gt;
** 群里的提问如果其他同学也无法回答，可以私信助教（仅限xxx，如周四晚上7点到9点，吕喆增加）；&lt;br /&gt;
&lt;br /&gt;
== 计算成绩的规则和说明（待定） ==&lt;br /&gt;
* &amp;lt;font color='red&amp;gt;核心要求：掌握最基本的概念、方法、算法&amp;lt;/font&amp;gt;&lt;br /&gt;
* 实验作业：70-80分&lt;br /&gt;
** 一系列作业，每个作业10-20分（形式检查为辅、考核为主）&lt;br /&gt;
** 必须按照规定时间，按照规定格式要求，将实验报告+源代码，提交到csteaching&lt;br /&gt;
&lt;br /&gt;
* 期末面对面小测验：10分&lt;br /&gt;
** 考察课程相关的基础知识，看看作业是否是自己做的&lt;br /&gt;
&lt;br /&gt;
* 平时成绩：10-20分&lt;br /&gt;
** 不能迟到、早退，特殊情况必须请假，并带辅导员签字的假条；&lt;br /&gt;
** 点名时，如果发现名单上没有你的名字，及时提出&lt;br /&gt;
&lt;br /&gt;
== 提交作业说明 ==&lt;br /&gt;
* 作业网址：本学期开始的实验布置、提交与批改等不再使用csteaching平台，统一改用工程认证管理系统。请各位老师通过工程认证管理系统（网址[http://42.244.43.76:8000/ http://42.244.43.76:8000/]）开展实验布置、批改等相关工作，并烦请同步通知班级学生在该系统完成实验提交。&lt;br /&gt;
* &amp;lt;font color='red&amp;gt;作业迟交了则最终成绩会按一定比例缩减&amp;lt;/font&amp;gt;&lt;br /&gt;
* 包含两部分&lt;br /&gt;
** 实验报告（pdf文件，&amp;lt;font color='red&amp;gt;请把word转为pdf&amp;lt;/font&amp;gt;）&lt;br /&gt;
*** 请按照实验模版[[:文件:ir-2022-spring-report.doc]]，认真填写个人信息、实验题目、实验内容等&lt;br /&gt;
*** 不要大段粘贴代码，最多可以粘贴核心的一小段代码，&amp;lt;font color='red&amp;gt;粘贴大段代码会扣分&amp;lt;/font&amp;gt;&lt;br /&gt;
*** 写清楚自己的解决思路，尤其是遇到的难点和如何解决&lt;br /&gt;
*** 建议可以画流程图或者写伪代码。&lt;br /&gt;
*** 解决思路的流程图中是以文字为主还是以代码为主？报告中不要直接放代码。文字为主，不在于写得长，而在于写清楚，表明你确实做了、想了。&lt;br /&gt;
*** 问：流程图可以改成自然语言描述或者是伪代码吗？答：流程图也可以画的很high-level的。大家自由发挥。也可以画到纸上然后拍照截图。模块化思维 大问题分解小问题 。&lt;br /&gt;
*** &amp;lt;font color='red&amp;gt;将程序运行结果截图，没有运行结果会扣分&amp;lt;/font&amp;gt;，中间的输出结果/文件可以截图一部分&lt;br /&gt;
** 附件（.zip压缩包）&lt;br /&gt;
*** 源代码：代码不要都团在一起，请用空行对代码进行分隔，并简单注释代码块的功能&lt;br /&gt;
*** readme.txt文件：说明如何运行你的程序，需要什么环境，如windows或linux，python版本如python3.5&lt;br /&gt;
* 提交前自我检查&lt;br /&gt;
** 是否有包含readme.txt文件解释如何编译执行你的程序。 &amp;lt;font color='red&amp;gt;如没有该文件，将减分。&amp;lt;/font&amp;gt;&lt;br /&gt;
** 是否认真完成实验报告&lt;br /&gt;
** 是否可以按照readme.txt正确编译和运行程序&lt;br /&gt;
** 是否包含别人的代码，&amp;lt;font color='red&amp;gt;抄袭和被抄袭的都是0分&amp;lt;/font&amp;gt;&lt;br /&gt;
** 期末可能会用软件做自动抄袭检查&lt;br /&gt;
** 等这学期最后几周，我们可能统一对所有的作业做自动查重，到时候也会查出一些问题。 &amp;lt;font color='red&amp;gt;请大家一定要自己做，编程能力差一点，就做得简单一点，能力强，就做得好一点。但是一定要自己做。 &amp;lt;/font&amp;gt;&lt;br /&gt;
* 提交作业命名规则&lt;br /&gt;
** 实验报告（姓名学号.pdf）&lt;br /&gt;
** 附件（姓名学号.zip）&lt;br /&gt;
&lt;br /&gt;
== 实验报告word模板 ==&lt;br /&gt;
* [[:文件:ir-2022-spring-report.doc]]&lt;br /&gt;
&lt;br /&gt;
== 具体内容（含作业：平时：30 分；实验：70 分） == &lt;br /&gt;
&lt;br /&gt;
{| class=&amp;quot;wikitable&amp;quot;&lt;br /&gt;
! style=&amp;quot;text-align:left;&amp;quot;| 作业&lt;br /&gt;
! 成绩比例&lt;br /&gt;
! 评分要点&lt;br /&gt;
|-&lt;br /&gt;
| 分字&lt;br /&gt;
| 5%&lt;br /&gt;
| 按字节读取并判断高位&lt;br /&gt;
|-&lt;br /&gt;
| 单词计数&lt;br /&gt;
| 5%&lt;br /&gt;
| 无&lt;br /&gt;
|-&lt;br /&gt;
| 最大匹配分词&lt;br /&gt;
| 10%&lt;br /&gt;
| 算法和评价正确实现&lt;br /&gt;
|-&lt;br /&gt;
| 网页正文抽取&lt;br /&gt;
| 10%&lt;br /&gt;
| 按要求完成两个任务&lt;br /&gt;
|-&lt;br /&gt;
| 倒排索引&lt;br /&gt;
| 15%&lt;br /&gt;
| 高效创建倒排文件&lt;br /&gt;
|-&lt;br /&gt;
| 布尔查询&lt;br /&gt;
| 10%&lt;br /&gt;
| inter和union的复杂度为O(n)，复杂查询用堆栈判断优先级&lt;br /&gt;
|-&lt;br /&gt;
| 网页相关性排序&lt;br /&gt;
| 15%&lt;br /&gt;
| 基于向量空间模型VSM、tf-idf权重&lt;br /&gt;
|-&lt;br /&gt;
| 爬虫和某机构主页检索系统&lt;br /&gt;
| 15%&lt;br /&gt;
| 实现爬虫，系统架构设计良好，说明文档详细，UI完整&lt;br /&gt;
|-&lt;br /&gt;
| &amp;lt;font color='black&amp;gt;基于深度学习的检索系统&amp;lt;/font&amp;gt;&lt;br /&gt;
| 15% &lt;br /&gt;
| Contriever：重现部分实验结果；自己实现评价指标；在上一个作业中的爬虫和检索系统的基础上，自己设计、标注 10 个 query，对比向量空间模型VSM 和Contriever 的效果，给出评价结果。建议：VSM 给 100 个结果，然后 Contriever 重排序，然后人工标注，具体如何标注更合理，自己考虑好。&lt;br /&gt;
|-&lt;br /&gt;
|}&lt;br /&gt;
&lt;br /&gt;
== 信息检索课程介绍 ==&lt;br /&gt;
* [http://hlt.suda.edu.cn/~zhli/teach/ir-2019-spring/ir-introduction-v0.4.pdf PPT下载]&lt;br /&gt;
* 2022春视频和图片：&lt;br /&gt;
** 低画质：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/course-intro-low-quality.mp4 课程介绍]&lt;br /&gt;
** 高画质：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/course-intro-part-1.mp4 课程介绍-part1]、 [http://hlt.suda.edu.cn/LA/Ir-2022-Spring/course-intro-part-2.mp4 课程介绍-part2]&lt;br /&gt;
** 图片：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/course-intro.jpg 图]&lt;br /&gt;
&lt;br /&gt;
* &amp;lt;font color='red&amp;gt;和2022年课程的区别&amp;lt;/font&amp;gt;：增加了'''基于深度学习的检索'''的内容，删除'''词性标注'''相关内容&lt;br /&gt;
&lt;br /&gt;
== 信息检索系统介绍 ==&lt;br /&gt;
* 2022春视频：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/intro-to-info-retrieval.mp4 信息检索系统介绍]&lt;br /&gt;
&lt;br /&gt;
= 具体作业 =&lt;br /&gt;
&lt;br /&gt;
== 作业1：分字（C++语言） ==&lt;br /&gt;
* 2022春视频和图片：&lt;br /&gt;
** 低画质：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/split-char-low-quality.mp4 作业1]&lt;br /&gt;
** 高画质：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/split-char-part-1.mp4 作业1-part1]、 [http://hlt.suda.edu.cn/LA/Ir-2022-Spring/split-char-part-2.mp4 作业1-part2]&lt;br /&gt;
** 图片：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/split-char-figure-1.jpg 图1]、 [http://hlt.suda.edu.cn/LA/Ir-2022-Spring/split-char-figure-2.jpg 图2]&lt;br /&gt;
* UTF-8数据：[[文件:sentence.txt]]&lt;br /&gt;
* UFT-8编码规则：&lt;br /&gt;
 &amp;lt;nowiki&amp;gt;&lt;br /&gt;
1字节 0xxxxxxx&lt;br /&gt;
2字节 110xxxxx 10xxxxxx&lt;br /&gt;
3字节 1110xxxx 10xxxxxx 10xxxxxx&lt;br /&gt;
4字节 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx&lt;br /&gt;
5字节 111110xx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx&lt;br /&gt;
6字节 1111110x 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx &amp;lt;/nowiki&amp;gt;&lt;br /&gt;
&lt;br /&gt;
== 作业2：单词计数 ==&lt;br /&gt;
* 课件 [http://hlt.suda.edu.cn/~zhli/teach/ir-2019-spring/word-count.pdf PPT下载]&lt;br /&gt;
* 2022春视频：&lt;br /&gt;
** 低画质：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/word-count-low-quality.mp4 作业2]&lt;br /&gt;
** 高画质：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/word-count-2.mp4 作业2] &lt;br /&gt;
* 数据 [http://hlt.suda.edu.cn/~zhli/teach/ir-2019-spring/sample-en.txt txt下载]&lt;br /&gt;
&lt;br /&gt;
== 作业3：最大匹配分词 == &lt;br /&gt;
* 作业提交时间截止时间：第5周3.25下课之前提交&lt;br /&gt;
* 课件：前向最大匹配 PDF文件--[[文件:Word-seg-max-match.pdf]]；PPT文件--[[文件:Word-seg-max-match.zip]]&lt;br /&gt;
* 2022春视频和图片：&lt;br /&gt;
** 低画质：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/word-seg-max-match-low-quality.mp4 作业3]&lt;br /&gt;
** 高画质：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/word-seg-max-match.mp4 作业3] &lt;br /&gt;
** 图片：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/word-seg-max-match.jpg 图] &lt;br /&gt;
&lt;br /&gt;
* 数据下载：&lt;br /&gt;
** 字典：[[文件:dict.txt]] &lt;br /&gt;
** 待分词：[[文件:sentence.txt]] &lt;br /&gt;
** 正确答案（人工标注的，你的模型的预测结果要和这个文件进行对比，从而得到P/R/F值）：[[文件:answer.txt]]；&lt;br /&gt;
** 正向最大匹配分词模型的预测结果（如果你的程序写对了，那么应该和这个结果一模一样）：[[文件:out.txt]]&lt;br /&gt;
&lt;br /&gt;
 &amp;lt;nowiki&amp;gt;&lt;br /&gt;
*正确实验结果&lt;br /&gt;
**正确识别的词数：20263&lt;br /&gt;
**识别出的总体个数：20397&lt;br /&gt;
**测试集中的总体个数：20454&lt;br /&gt;
**正确率：0.99343&lt;br /&gt;
**召回率：0.99066&lt;br /&gt;
**F值：0.99204 &amp;lt;/nowiki&amp;gt;&lt;br /&gt;
&lt;br /&gt;
== 作业4：网页正文抽取 ==&lt;br /&gt;
&lt;br /&gt;
* 作业提交时间截止时间：x.x下课前提交&lt;br /&gt;
* 2022春视频： [http://hlt.suda.edu.cn/LA/Ir-2022-Spring/web-page-content-extraction.mp4 作业4]&lt;br /&gt;
* 课件（&amp;lt;font color='red'&amp;gt;请严格按照课件要求完成作业&amp;lt;/font&amp;gt;）： &lt;br /&gt;
** [[:文件:ir-2022-spring-web-page-content-extraction.ppt]]&lt;br /&gt;
** [[:文件:ir-2022-spring-web-page-content-extraction.pdf]]&lt;br /&gt;
* 数据&lt;br /&gt;
** 1.html和2.html [[:文件:ir-2022-spring-example-html.zip]]&lt;br /&gt;
** data-1k：1000个html文件 [[:文件:ir-2022-spring-all-html.zip]] （如果文件出现乱码，请到qq群里下载）&lt;br /&gt;
&lt;br /&gt;
== 作业5：倒排索引 == &lt;br /&gt;
&lt;br /&gt;
* 作业提交时间截止时间：第8周4.15下课前提交&lt;br /&gt;
* 课件： &lt;br /&gt;
** 仅供参考，与本次作业要求无关：[[:文件:ir-2022-spring-inverted-index-simplified.ppt]]&lt;br /&gt;
*  2022春视频和图片： &lt;br /&gt;
** 视频：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/inverted-index.mp4 作业5]&lt;br /&gt;
** 图片：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/inverted-index.jpg 图]&lt;br /&gt;
* 数据&lt;br /&gt;
** 停用词表：[https://github.com/goto456/stopwords github网址] [http://hlt.suda.edu.cn/LA/Ir-2022-Spring/stopwords.zip 苏大本地下载] &lt;br /&gt;
** 结巴词典：[https://github.com/fxsjy/jieba/tree/master/extra_dict github网址] [http://hlt.suda.edu.cn/LA/Ir-2022-Spring/word_dict.zip 苏大本地下载]&lt;br /&gt;
** 结巴词典文件每一行有3列，为：单词、词频、词性，只需要使用第一列的单词即可，使用small进行调试，提交作业用big&lt;br /&gt;
&lt;br /&gt;
== 作业6：布尔查询 ==&lt;br /&gt;
&lt;br /&gt;
* 作业提交时间截止时间：x.x下课前提交&lt;br /&gt;
*  2022春视频和图片： &lt;br /&gt;
** 视频：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/bool-query.mp4 作业6]&lt;br /&gt;
** 图片：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/bool-query.jpg 图]&lt;br /&gt;
* 作业提交说明：&lt;br /&gt;
** 附件中给出本次作业使用的倒排索引文件（可以在作业5的基础上进行优化），&amp;lt;font color=&amp;quot;red&amp;quot;&amp;gt;不需要提供构建倒排索引的代码，但在实验报告中给出倒排索引文件的说明，参考侯皓文同学&amp;lt;/font&amp;gt;&lt;br /&gt;
** 交集、并集操作用inter()、union()这两个函数单独封装&lt;br /&gt;
** &amp;lt;font color=&amp;quot;red&amp;quot;&amp;gt;对4个语句&amp;lt;/font&amp;gt; 'A', 'B', 'A AND B', 'A OR B' （A、B为自定义的查询词） 分别进行一次查询，每次的查询结果单独保存到一个txt文件中，以查询语句作为文件名（如 'A AND B.txt'`）&lt;br /&gt;
** 结果展示部分，文件按名字字母序排序：指字符序（用内置的sort即可），先用pinyin包转成拼音再排序也可以，不要自行改变文件名（如 阿大.txt -&amp;gt; 34.txt）&lt;br /&gt;
** 实现更复杂的查询，如：'A AND B OR C' 可以加分&lt;br /&gt;
** 查询词的加重（用#标记）不做强制要求，但做了加分&lt;br /&gt;
&lt;br /&gt;
== 作业7：基于向量空间模型（VSM）和tf-idf权重的网页相关性排序 ==&lt;br /&gt;
&lt;br /&gt;
* 作业提交时间截止时间：xx之前提交&lt;br /&gt;
** 视频：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/web-page-rank.mp4 作业7]&lt;br /&gt;
** 图片：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/web-page-rank-1.jpg 图片1]  [http://hlt.suda.edu.cn/LA/Ir-2022-Spring/web-page-rank-2.jpg 图片2]&lt;br /&gt;
* 作业要求：&lt;br /&gt;
** 如果无法理解向量空间模型，可以选择做tf-idf作业，但最多只给50分&lt;br /&gt;
** 实现基于向量空间模型的网页相关性排序&lt;br /&gt;
** 给定一个查询Q：可以是手动用空格分好词的&amp;quot;李正华 招收 学生&amp;quot;；也可以是未分词的&amp;quot;李正华招收学生&amp;quot;，之后用最大匹配分词分好词 -&amp;gt; &amp;quot;李正华 招收 学生&amp;quot;&lt;br /&gt;
** 注释：一个给定分词的查询Q实际上等价于布尔查询OR：&amp;quot;李正华 招收 学生&amp;quot; &amp;lt;=&amp;gt; &amp;quot;李正华 OR 招收 OR 学生&amp;quot;&lt;br /&gt;
* 作业提交说明：&lt;br /&gt;
** 附件中给出本任务所使用的倒排索引文件&lt;br /&gt;
** 在实验报告中说明对于余弦相似度计算中的：di[k]、q[k]、|di|、|q|是如何处理或存储的&lt;br /&gt;
** 附件中给出一个查询Q的结果，保存为文本文件&amp;quot;Q.txt&amp;quot;中，格式为：&lt;br /&gt;
&lt;br /&gt;
  文档名1（余弦相似度Sim） # Sim值可不除以|q|的值，一个例子： 阿鲁巴岛.txt(0.64)&lt;br /&gt;
  句子1&lt;br /&gt;
  句子2&lt;br /&gt;
  ...&lt;br /&gt;
  文档名2（余弦相似度Sim）&lt;br /&gt;
  句子1&lt;br /&gt;
  句子2&lt;br /&gt;
  ...&lt;br /&gt;
  ......&lt;br /&gt;
&lt;br /&gt;
== 作业8：爬虫和某机构主页检索系统（综合项目） ==&lt;br /&gt;
&lt;br /&gt;
* 作业提交时间截止时间：xx之前提交&lt;br /&gt;
** 视频：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/web-spider.mp4 作业8]&lt;br /&gt;
** PPT：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/web-spider.pptx PPT]&lt;br /&gt;
* 任务一：用&amp;lt;font color=&amp;quot;red&amp;quot;&amp;gt;爬虫模块&amp;lt;/font&amp;gt;尽量完整地爬下来一个机构对应的所有静态网页（html或htm后缀），保存到磁盘中：&lt;br /&gt;
** 苏大、苏大计算机学院（规模小一点）都可以&lt;br /&gt;
** orphan网页不用考虑&lt;br /&gt;
* 任务二：基于爬取的网页，做一个完整的检索系统（以后可以考虑不断完善、定时更新）：&lt;br /&gt;
** 1. &amp;lt;font color=&amp;quot;red&amp;quot;&amp;gt;网页正文提取模块&amp;lt;/font&amp;gt;（同作业4的实战部分一致）&lt;br /&gt;
** 2. 处理网页正文的&amp;lt;font color=&amp;quot;red&amp;quot;&amp;gt;分句、分词模块&amp;lt;/font&amp;gt;（可以用作业3的最大匹配分词，也可以用第三方的分词器，如jieba）&lt;br /&gt;
** 3. &amp;lt;font color=&amp;quot;red&amp;quot;&amp;gt;倒排索引模块&amp;lt;/font&amp;gt;：基于处理好的网页正文，建立倒排索引文件（同作业5一致）&lt;br /&gt;
** 4. &amp;lt;font color=&amp;quot;red&amp;quot;&amp;gt;网页排序模块&amp;lt;/font&amp;gt;：实现网页相关性排序（同作业7一致）&lt;br /&gt;
** 5. &amp;lt;font color=&amp;quot;red&amp;quot;&amp;gt;查询模块&amp;lt;/font&amp;gt;：提供查询接口，用户输入查询词后显示网页名（暂定为网页的title），和包含查询词的句子，查询词进行highlight处理（如#查询词#）。查询接口可以用命令行实现，提供前端UI界面（Web或Application都可以）会获得加分。&lt;br /&gt;
&lt;br /&gt;
注意：把网页源文件（html文件）保存好，避免重复爬。例如优化了网页正文提取模块、或突然想用一个更好的分词器&lt;br /&gt;
&lt;br /&gt;
* 作业提交说明：&lt;br /&gt;
** 源代码：任务一和任务二的所有代码都要提交，每个模块（共6个，在上方已用红色标出）在readme中指明在哪个python文件中实现的&lt;br /&gt;
** 处理好的网页数据（可选）：原始网页，提取出并分好句、分好词的网页正文，若网页数据特别大的话可以不要&lt;br /&gt;
** 在实验报告中将三项统计信息放到表格中：网页（文档）数、句子数、单词数&lt;br /&gt;
** 倒排索引文件（必备）&lt;br /&gt;
** 说明文档：(每个模块的)实现的功能，如何使用，接口等，内容不限&lt;br /&gt;
&lt;br /&gt;
== 作业9：深度学习方法&amp;amp;检索结果的评价 ==&lt;br /&gt;
&lt;br /&gt;
* 要求&lt;br /&gt;
** 账号环境，跑推理代码，重现完成部分实验。&lt;br /&gt;
*** 具体要跑哪些实验，请看文档最后的表格：[https://resplendent-gumdrop-ad2cd4.netlify.app/contriever-ir-course-assignment/ 具体文档] &lt;br /&gt;
** 自己实现评价指标，自己的评价指标的结果，和contriever 的结果一致。&lt;br /&gt;
** VSM和 Contriever 的对比&lt;br /&gt;
 &amp;lt;nowiki&amp;gt; 针对自己实现的“苏大计算机官网搜索引擎”，去对比VSM和Contriever的效果。&lt;br /&gt;
     自己设计10个难度不同的 query，然后 VSM 返回 50 个结果，把这 50 个结果随机打乱顺序（这一步很重要），然后人工做一个标注（给一个排序）【如果觉得 10 个 query 太多，5 个也行】&lt;br /&gt;
     Contriever对 50 个结果重排序&lt;br /&gt;
     比较两种方法的结果：NDCG@5      NDCG@10       NDCG@20等&lt;br /&gt;
     如果有能力、有时间，可以分析下：什么样的query，VSM 做得好；什么样的 query，Contriever 做得好。 &amp;lt;/nowiki&amp;gt;&lt;br /&gt;
** 实验报告体现出自己做了什么、遇到的困难及如何解决。&lt;br /&gt;
&lt;br /&gt;
* 参考资料&lt;br /&gt;
** 上面的文档&lt;br /&gt;
** 微信公众号”语析LAGroup“中 contriever 论文解读&lt;br /&gt;
** contriever 原文&lt;br /&gt;
&lt;br /&gt;
== 时间表 ==&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
 &amp;lt;nowiki&amp;gt;&lt;br /&gt;
3.5 第1周&lt;br /&gt;
3.12 第2周&lt;br /&gt;
&lt;br /&gt;
xxx&lt;br /&gt;
3.25 第5周&lt;br /&gt;
4.1 第6周&lt;br /&gt;
4.29 第10周&lt;br /&gt;
5.6 第11周&lt;br /&gt;
5.27 第14周&lt;br /&gt;
6.3 第15周&lt;br /&gt;
6.17 第17周&lt;br /&gt;
&lt;br /&gt;
1	08:00-08:45&lt;br /&gt;
2	08:50-09:35&lt;br /&gt;
3	09:55-10:40&lt;br /&gt;
4	10:45-11:30&lt;br /&gt;
5	11:35-12:20&lt;br /&gt;
6	14:00-14:45&lt;br /&gt;
7	14:50-15:35 【休息5分钟，+15分钟】&lt;br /&gt;
8	15:55-16:40 &lt;br /&gt;
9	16:45-17:30 【17:15】   &lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
考虑来2-3 次考试。&lt;br /&gt;
闭卷考试，比较正式的那种。在机房里就行。然后拍照留存？&lt;br /&gt;
&lt;br /&gt;
2次考试的方案：&lt;br /&gt;
倒排搞完 考一次&lt;br /&gt;
最后一次 &lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
3次考试的方案：&lt;br /&gt;
最大匹配分词搞完，考一次&lt;br /&gt;
布尔查询搞完 考一次&lt;br /&gt;
最后一次 &lt;br /&gt;
&lt;br /&gt;
上机课9 个作业，实验报告，主要是形式审查，占比比较低。要根据考试的成绩，然后加权得到每一次作业的成绩。&lt;br /&gt;
最后，9 个作业再按照一定比例，得到实验成绩。&lt;br /&gt;
&lt;br /&gt;
&amp;lt;/nowiki&amp;gt;&lt;/div&gt;</summary>
		<author><name>Zhli</name></author>
	</entry>
	<entry>
		<id>http://hlt.suda.edu.cn/index.php?title=Ir-2026-spring&amp;diff=6200</id>
		<title>Ir-2026-spring</title>
		<link rel="alternate" type="text/html" href="http://hlt.suda.edu.cn/index.php?title=Ir-2026-spring&amp;diff=6200"/>
		<updated>2026-03-12T06:30:52Z</updated>

		<summary type="html">&lt;p&gt;Zhli：/* 具体课程（含作业） */&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;&lt;br /&gt;
&lt;br /&gt;
= 信息检索综合实践 =&lt;br /&gt;
&lt;br /&gt;
李正华&lt;br /&gt;
&lt;br /&gt;
* 学生：计23计科1班	 	 	 &lt;br /&gt;
* 助教：吕喆、梅睿桐  &lt;br /&gt;
* QQ群: xx&lt;br /&gt;
* 时间：周四 6-9 节课 1-17 周&lt;br /&gt;
* 地点：理工楼238&lt;br /&gt;
&lt;br /&gt;
== 上课基本要求 ==&lt;br /&gt;
* 不能做的事情：打游戏、看课程无关视频、刷网页&lt;br /&gt;
* 认真读作业要求，按时交作业。csteaching&lt;br /&gt;
* 不能抄袭别人或网上的，自己做；不要把自己的作业给别人&lt;br /&gt;
&lt;br /&gt;
== 课程建议 ==&lt;br /&gt;
* 每个作业，截止时间后，把成绩发给大家，并用ppt给大家讲一下批作业发现的问题，题目分析&lt;br /&gt;
* 上课期间：请大家积极提问。遇到大家都无法理解的公共问题，我会补充讲解&lt;br /&gt;
* 非上课时间提问&lt;br /&gt;
** 建议同学们在群里提问（包括但不限于代码的bug、不理解算法、作业资源和提交等），由其他同学帮助解答；&lt;br /&gt;
** 群里的提问如果其他同学也无法回答，可以私信助教（仅限xxx，如周四晚上7点到9点，吕喆增加）；&lt;br /&gt;
&lt;br /&gt;
== 计算成绩的规则和说明（待定） ==&lt;br /&gt;
* &amp;lt;font color='red&amp;gt;核心要求：掌握最基本的概念、方法、算法&amp;lt;/font&amp;gt;&lt;br /&gt;
* 实验作业：70-80分&lt;br /&gt;
** 一系列作业，每个作业10-20分（形式检查为辅、考核为主）&lt;br /&gt;
** 必须按照规定时间，按照规定格式要求，将实验报告+源代码，提交到csteaching&lt;br /&gt;
&lt;br /&gt;
* 期末面对面小测验：10分&lt;br /&gt;
** 考察课程相关的基础知识，看看作业是否是自己做的&lt;br /&gt;
&lt;br /&gt;
* 平时成绩：10-20分&lt;br /&gt;
** 不能迟到、早退，特殊情况必须请假，并带辅导员签字的假条；&lt;br /&gt;
** 点名时，如果发现名单上没有你的名字，及时提出&lt;br /&gt;
&lt;br /&gt;
== 提交作业说明 ==&lt;br /&gt;
* 作业网址：本学期开始的实验布置、提交与批改等不再使用csteaching平台，统一改用工程认证管理系统。请各位老师通过工程认证管理系统（网址[http://42.244.43.76:8000/ http://42.244.43.76:8000/]）开展实验布置、批改等相关工作，并烦请同步通知班级学生在该系统完成实验提交。&lt;br /&gt;
* &amp;lt;font color='red&amp;gt;作业迟交了则最终成绩会按一定比例缩减&amp;lt;/font&amp;gt;&lt;br /&gt;
* 包含两部分&lt;br /&gt;
** 实验报告（pdf文件，&amp;lt;font color='red&amp;gt;请把word转为pdf&amp;lt;/font&amp;gt;）&lt;br /&gt;
*** 请按照实验模版[[:文件:ir-2022-spring-report.doc]]，认真填写个人信息、实验题目、实验内容等&lt;br /&gt;
*** 不要大段粘贴代码，最多可以粘贴核心的一小段代码，&amp;lt;font color='red&amp;gt;粘贴大段代码会扣分&amp;lt;/font&amp;gt;&lt;br /&gt;
*** 写清楚自己的解决思路，尤其是遇到的难点和如何解决&lt;br /&gt;
*** 建议可以画流程图或者写伪代码。&lt;br /&gt;
*** 解决思路的流程图中是以文字为主还是以代码为主？报告中不要直接放代码。文字为主，不在于写得长，而在于写清楚，表明你确实做了、想了。&lt;br /&gt;
*** 问：流程图可以改成自然语言描述或者是伪代码吗？答：流程图也可以画的很high-level的。大家自由发挥。也可以画到纸上然后拍照截图。模块化思维 大问题分解小问题 。&lt;br /&gt;
*** &amp;lt;font color='red&amp;gt;将程序运行结果截图，没有运行结果会扣分&amp;lt;/font&amp;gt;，中间的输出结果/文件可以截图一部分&lt;br /&gt;
** 附件（.zip压缩包）&lt;br /&gt;
*** 源代码：代码不要都团在一起，请用空行对代码进行分隔，并简单注释代码块的功能&lt;br /&gt;
*** readme.txt文件：说明如何运行你的程序，需要什么环境，如windows或linux，python版本如python3.5&lt;br /&gt;
* 提交前自我检查&lt;br /&gt;
** 是否有包含readme.txt文件解释如何编译执行你的程序。 &amp;lt;font color='red&amp;gt;如没有该文件，将减分。&amp;lt;/font&amp;gt;&lt;br /&gt;
** 是否认真完成实验报告&lt;br /&gt;
** 是否可以按照readme.txt正确编译和运行程序&lt;br /&gt;
** 是否包含别人的代码，&amp;lt;font color='red&amp;gt;抄袭和被抄袭的都是0分&amp;lt;/font&amp;gt;&lt;br /&gt;
** 期末可能会用软件做自动抄袭检查&lt;br /&gt;
** 等这学期最后几周，我们可能统一对所有的作业做自动查重，到时候也会查出一些问题。 &amp;lt;font color='red&amp;gt;请大家一定要自己做，编程能力差一点，就做得简单一点，能力强，就做得好一点。但是一定要自己做。 &amp;lt;/font&amp;gt;&lt;br /&gt;
* 提交作业命名规则&lt;br /&gt;
** 实验报告（姓名学号.pdf）&lt;br /&gt;
** 附件（姓名学号.zip）&lt;br /&gt;
&lt;br /&gt;
== 实验报告word模板 ==&lt;br /&gt;
* [[:文件:ir-2022-spring-report.doc]]&lt;br /&gt;
&lt;br /&gt;
== 具体课程（含作业） == &lt;br /&gt;
&lt;br /&gt;
{| class=&amp;quot;wikitable&amp;quot;&lt;br /&gt;
! style=&amp;quot;text-align:left;&amp;quot;| 作业&lt;br /&gt;
! 成绩比例&lt;br /&gt;
! 评分要点&lt;br /&gt;
|-&lt;br /&gt;
| 分字&lt;br /&gt;
| 5%&lt;br /&gt;
| 按字节读取并判断高位&lt;br /&gt;
|-&lt;br /&gt;
| 单词计数&lt;br /&gt;
| 5%&lt;br /&gt;
| 无&lt;br /&gt;
|-&lt;br /&gt;
| 最大匹配分词&lt;br /&gt;
| 10%&lt;br /&gt;
| 算法和评价正确实现&lt;br /&gt;
|-&lt;br /&gt;
| 网页正文抽取&lt;br /&gt;
| 10%&lt;br /&gt;
| 按要求完成两个任务&lt;br /&gt;
|-&lt;br /&gt;
| 倒排索引&lt;br /&gt;
| 15%&lt;br /&gt;
| 高效创建倒排文件&lt;br /&gt;
|-&lt;br /&gt;
| 布尔查询&lt;br /&gt;
| 10%&lt;br /&gt;
| inter和union的复杂度为O(n)，复杂查询用堆栈判断优先级&lt;br /&gt;
|-&lt;br /&gt;
| 网页相关性排序&lt;br /&gt;
| 15%&lt;br /&gt;
| 基于向量空间模型VSM、tf-idf权重&lt;br /&gt;
|-&lt;br /&gt;
| 爬虫和某机构主页检索系统&lt;br /&gt;
| 15%&lt;br /&gt;
| 实现爬虫，系统架构设计良好，说明文档详细，UI完整&lt;br /&gt;
|-&lt;br /&gt;
| &amp;lt;font color='black&amp;gt;基于深度学习的检索系统&amp;lt;/font&amp;gt;&lt;br /&gt;
| 15% &lt;br /&gt;
| Contriever：重现部分实验结果；自己实现评价指标；在上一个作业中的爬虫和检索系统的基础上，自己设计、标注 10 个 query，对比向量空间模型VSM 和Contriever 的效果，给出评价结果。建议：VSM 给 100 个结果，然后 Contriever 重排序，然后人工标注，具体如何标注更合理，自己考虑好。&lt;br /&gt;
|-&lt;br /&gt;
|}&lt;br /&gt;
&lt;br /&gt;
== 信息检索课程介绍 ==&lt;br /&gt;
* [http://hlt.suda.edu.cn/~zhli/teach/ir-2019-spring/ir-introduction-v0.4.pdf PPT下载]&lt;br /&gt;
* 2022春视频和图片：&lt;br /&gt;
** 低画质：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/course-intro-low-quality.mp4 课程介绍]&lt;br /&gt;
** 高画质：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/course-intro-part-1.mp4 课程介绍-part1]、 [http://hlt.suda.edu.cn/LA/Ir-2022-Spring/course-intro-part-2.mp4 课程介绍-part2]&lt;br /&gt;
** 图片：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/course-intro.jpg 图]&lt;br /&gt;
&lt;br /&gt;
* &amp;lt;font color='red&amp;gt;和2022年课程的区别&amp;lt;/font&amp;gt;：增加了'''基于深度学习的检索'''的内容，删除'''词性标注'''相关内容&lt;br /&gt;
&lt;br /&gt;
== 信息检索系统介绍 ==&lt;br /&gt;
* 2022春视频：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/intro-to-info-retrieval.mp4 信息检索系统介绍]&lt;br /&gt;
&lt;br /&gt;
= 具体作业 =&lt;br /&gt;
&lt;br /&gt;
== 作业1：分字（C++语言） ==&lt;br /&gt;
* 2022春视频和图片：&lt;br /&gt;
** 低画质：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/split-char-low-quality.mp4 作业1]&lt;br /&gt;
** 高画质：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/split-char-part-1.mp4 作业1-part1]、 [http://hlt.suda.edu.cn/LA/Ir-2022-Spring/split-char-part-2.mp4 作业1-part2]&lt;br /&gt;
** 图片：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/split-char-figure-1.jpg 图1]、 [http://hlt.suda.edu.cn/LA/Ir-2022-Spring/split-char-figure-2.jpg 图2]&lt;br /&gt;
* UTF-8数据：[[文件:sentence.txt]]&lt;br /&gt;
* UFT-8编码规则：&lt;br /&gt;
 &amp;lt;nowiki&amp;gt;&lt;br /&gt;
1字节 0xxxxxxx&lt;br /&gt;
2字节 110xxxxx 10xxxxxx&lt;br /&gt;
3字节 1110xxxx 10xxxxxx 10xxxxxx&lt;br /&gt;
4字节 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx&lt;br /&gt;
5字节 111110xx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx&lt;br /&gt;
6字节 1111110x 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx &amp;lt;/nowiki&amp;gt;&lt;br /&gt;
&lt;br /&gt;
== 作业2：单词计数 ==&lt;br /&gt;
* 课件 [http://hlt.suda.edu.cn/~zhli/teach/ir-2019-spring/word-count.pdf PPT下载]&lt;br /&gt;
* 2022春视频：&lt;br /&gt;
** 低画质：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/word-count-low-quality.mp4 作业2]&lt;br /&gt;
** 高画质：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/word-count-2.mp4 作业2] &lt;br /&gt;
* 数据 [http://hlt.suda.edu.cn/~zhli/teach/ir-2019-spring/sample-en.txt txt下载]&lt;br /&gt;
&lt;br /&gt;
== 作业3：最大匹配分词 == &lt;br /&gt;
* 作业提交时间截止时间：第5周3.25下课之前提交&lt;br /&gt;
* 课件：前向最大匹配 PDF文件--[[文件:Word-seg-max-match.pdf]]；PPT文件--[[文件:Word-seg-max-match.zip]]&lt;br /&gt;
* 2022春视频和图片：&lt;br /&gt;
** 低画质：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/word-seg-max-match-low-quality.mp4 作业3]&lt;br /&gt;
** 高画质：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/word-seg-max-match.mp4 作业3] &lt;br /&gt;
** 图片：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/word-seg-max-match.jpg 图] &lt;br /&gt;
&lt;br /&gt;
* 数据下载：&lt;br /&gt;
** 字典：[[文件:dict.txt]] &lt;br /&gt;
** 待分词：[[文件:sentence.txt]] &lt;br /&gt;
** 正确答案（人工标注的，你的模型的预测结果要和这个文件进行对比，从而得到P/R/F值）：[[文件:answer.txt]]；&lt;br /&gt;
** 正向最大匹配分词模型的预测结果（如果你的程序写对了，那么应该和这个结果一模一样）：[[文件:out.txt]]&lt;br /&gt;
&lt;br /&gt;
 &amp;lt;nowiki&amp;gt;&lt;br /&gt;
*正确实验结果&lt;br /&gt;
**正确识别的词数：20263&lt;br /&gt;
**识别出的总体个数：20397&lt;br /&gt;
**测试集中的总体个数：20454&lt;br /&gt;
**正确率：0.99343&lt;br /&gt;
**召回率：0.99066&lt;br /&gt;
**F值：0.99204 &amp;lt;/nowiki&amp;gt;&lt;br /&gt;
&lt;br /&gt;
== 作业4：网页正文抽取 ==&lt;br /&gt;
&lt;br /&gt;
* 作业提交时间截止时间：x.x下课前提交&lt;br /&gt;
* 2022春视频： [http://hlt.suda.edu.cn/LA/Ir-2022-Spring/web-page-content-extraction.mp4 作业4]&lt;br /&gt;
* 课件（&amp;lt;font color='red'&amp;gt;请严格按照课件要求完成作业&amp;lt;/font&amp;gt;）： &lt;br /&gt;
** [[:文件:ir-2022-spring-web-page-content-extraction.ppt]]&lt;br /&gt;
** [[:文件:ir-2022-spring-web-page-content-extraction.pdf]]&lt;br /&gt;
* 数据&lt;br /&gt;
** 1.html和2.html [[:文件:ir-2022-spring-example-html.zip]]&lt;br /&gt;
** data-1k：1000个html文件 [[:文件:ir-2022-spring-all-html.zip]] （如果文件出现乱码，请到qq群里下载）&lt;br /&gt;
&lt;br /&gt;
== 作业5：倒排索引 == &lt;br /&gt;
&lt;br /&gt;
* 作业提交时间截止时间：第8周4.15下课前提交&lt;br /&gt;
* 课件： &lt;br /&gt;
** 仅供参考，与本次作业要求无关：[[:文件:ir-2022-spring-inverted-index-simplified.ppt]]&lt;br /&gt;
*  2022春视频和图片： &lt;br /&gt;
** 视频：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/inverted-index.mp4 作业5]&lt;br /&gt;
** 图片：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/inverted-index.jpg 图]&lt;br /&gt;
* 数据&lt;br /&gt;
** 停用词表：[https://github.com/goto456/stopwords github网址] [http://hlt.suda.edu.cn/LA/Ir-2022-Spring/stopwords.zip 苏大本地下载] &lt;br /&gt;
** 结巴词典：[https://github.com/fxsjy/jieba/tree/master/extra_dict github网址] [http://hlt.suda.edu.cn/LA/Ir-2022-Spring/word_dict.zip 苏大本地下载]&lt;br /&gt;
** 结巴词典文件每一行有3列，为：单词、词频、词性，只需要使用第一列的单词即可，使用small进行调试，提交作业用big&lt;br /&gt;
&lt;br /&gt;
== 作业6：布尔查询 ==&lt;br /&gt;
&lt;br /&gt;
* 作业提交时间截止时间：x.x下课前提交&lt;br /&gt;
*  2022春视频和图片： &lt;br /&gt;
** 视频：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/bool-query.mp4 作业6]&lt;br /&gt;
** 图片：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/bool-query.jpg 图]&lt;br /&gt;
* 作业提交说明：&lt;br /&gt;
** 附件中给出本次作业使用的倒排索引文件（可以在作业5的基础上进行优化），&amp;lt;font color=&amp;quot;red&amp;quot;&amp;gt;不需要提供构建倒排索引的代码，但在实验报告中给出倒排索引文件的说明，参考侯皓文同学&amp;lt;/font&amp;gt;&lt;br /&gt;
** 交集、并集操作用inter()、union()这两个函数单独封装&lt;br /&gt;
** &amp;lt;font color=&amp;quot;red&amp;quot;&amp;gt;对4个语句&amp;lt;/font&amp;gt; 'A', 'B', 'A AND B', 'A OR B' （A、B为自定义的查询词） 分别进行一次查询，每次的查询结果单独保存到一个txt文件中，以查询语句作为文件名（如 'A AND B.txt'`）&lt;br /&gt;
** 结果展示部分，文件按名字字母序排序：指字符序（用内置的sort即可），先用pinyin包转成拼音再排序也可以，不要自行改变文件名（如 阿大.txt -&amp;gt; 34.txt）&lt;br /&gt;
** 实现更复杂的查询，如：'A AND B OR C' 可以加分&lt;br /&gt;
** 查询词的加重（用#标记）不做强制要求，但做了加分&lt;br /&gt;
&lt;br /&gt;
== 作业7：基于向量空间模型（VSM）和tf-idf权重的网页相关性排序 ==&lt;br /&gt;
&lt;br /&gt;
* 作业提交时间截止时间：xx之前提交&lt;br /&gt;
** 视频：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/web-page-rank.mp4 作业7]&lt;br /&gt;
** 图片：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/web-page-rank-1.jpg 图片1]  [http://hlt.suda.edu.cn/LA/Ir-2022-Spring/web-page-rank-2.jpg 图片2]&lt;br /&gt;
* 作业要求：&lt;br /&gt;
** 如果无法理解向量空间模型，可以选择做tf-idf作业，但最多只给50分&lt;br /&gt;
** 实现基于向量空间模型的网页相关性排序&lt;br /&gt;
** 给定一个查询Q：可以是手动用空格分好词的&amp;quot;李正华 招收 学生&amp;quot;；也可以是未分词的&amp;quot;李正华招收学生&amp;quot;，之后用最大匹配分词分好词 -&amp;gt; &amp;quot;李正华 招收 学生&amp;quot;&lt;br /&gt;
** 注释：一个给定分词的查询Q实际上等价于布尔查询OR：&amp;quot;李正华 招收 学生&amp;quot; &amp;lt;=&amp;gt; &amp;quot;李正华 OR 招收 OR 学生&amp;quot;&lt;br /&gt;
* 作业提交说明：&lt;br /&gt;
** 附件中给出本任务所使用的倒排索引文件&lt;br /&gt;
** 在实验报告中说明对于余弦相似度计算中的：di[k]、q[k]、|di|、|q|是如何处理或存储的&lt;br /&gt;
** 附件中给出一个查询Q的结果，保存为文本文件&amp;quot;Q.txt&amp;quot;中，格式为：&lt;br /&gt;
&lt;br /&gt;
  文档名1（余弦相似度Sim） # Sim值可不除以|q|的值，一个例子： 阿鲁巴岛.txt(0.64)&lt;br /&gt;
  句子1&lt;br /&gt;
  句子2&lt;br /&gt;
  ...&lt;br /&gt;
  文档名2（余弦相似度Sim）&lt;br /&gt;
  句子1&lt;br /&gt;
  句子2&lt;br /&gt;
  ...&lt;br /&gt;
  ......&lt;br /&gt;
&lt;br /&gt;
== 作业8：爬虫和某机构主页检索系统（综合项目） ==&lt;br /&gt;
&lt;br /&gt;
* 作业提交时间截止时间：xx之前提交&lt;br /&gt;
** 视频：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/web-spider.mp4 作业8]&lt;br /&gt;
** PPT：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/web-spider.pptx PPT]&lt;br /&gt;
* 任务一：用&amp;lt;font color=&amp;quot;red&amp;quot;&amp;gt;爬虫模块&amp;lt;/font&amp;gt;尽量完整地爬下来一个机构对应的所有静态网页（html或htm后缀），保存到磁盘中：&lt;br /&gt;
** 苏大、苏大计算机学院（规模小一点）都可以&lt;br /&gt;
** orphan网页不用考虑&lt;br /&gt;
* 任务二：基于爬取的网页，做一个完整的检索系统（以后可以考虑不断完善、定时更新）：&lt;br /&gt;
** 1. &amp;lt;font color=&amp;quot;red&amp;quot;&amp;gt;网页正文提取模块&amp;lt;/font&amp;gt;（同作业4的实战部分一致）&lt;br /&gt;
** 2. 处理网页正文的&amp;lt;font color=&amp;quot;red&amp;quot;&amp;gt;分句、分词模块&amp;lt;/font&amp;gt;（可以用作业3的最大匹配分词，也可以用第三方的分词器，如jieba）&lt;br /&gt;
** 3. &amp;lt;font color=&amp;quot;red&amp;quot;&amp;gt;倒排索引模块&amp;lt;/font&amp;gt;：基于处理好的网页正文，建立倒排索引文件（同作业5一致）&lt;br /&gt;
** 4. &amp;lt;font color=&amp;quot;red&amp;quot;&amp;gt;网页排序模块&amp;lt;/font&amp;gt;：实现网页相关性排序（同作业7一致）&lt;br /&gt;
** 5. &amp;lt;font color=&amp;quot;red&amp;quot;&amp;gt;查询模块&amp;lt;/font&amp;gt;：提供查询接口，用户输入查询词后显示网页名（暂定为网页的title），和包含查询词的句子，查询词进行highlight处理（如#查询词#）。查询接口可以用命令行实现，提供前端UI界面（Web或Application都可以）会获得加分。&lt;br /&gt;
&lt;br /&gt;
注意：把网页源文件（html文件）保存好，避免重复爬。例如优化了网页正文提取模块、或突然想用一个更好的分词器&lt;br /&gt;
&lt;br /&gt;
* 作业提交说明：&lt;br /&gt;
** 源代码：任务一和任务二的所有代码都要提交，每个模块（共6个，在上方已用红色标出）在readme中指明在哪个python文件中实现的&lt;br /&gt;
** 处理好的网页数据（可选）：原始网页，提取出并分好句、分好词的网页正文，若网页数据特别大的话可以不要&lt;br /&gt;
** 在实验报告中将三项统计信息放到表格中：网页（文档）数、句子数、单词数&lt;br /&gt;
** 倒排索引文件（必备）&lt;br /&gt;
** 说明文档：(每个模块的)实现的功能，如何使用，接口等，内容不限&lt;br /&gt;
&lt;br /&gt;
== 作业9：深度学习方法&amp;amp;检索结果的评价 ==&lt;br /&gt;
&lt;br /&gt;
* 要求&lt;br /&gt;
** 账号环境，跑推理代码，重现完成部分实验。&lt;br /&gt;
*** 具体要跑哪些实验，请看文档最后的表格：[https://resplendent-gumdrop-ad2cd4.netlify.app/contriever-ir-course-assignment/ 具体文档] &lt;br /&gt;
** 自己实现评价指标，自己的评价指标的结果，和contriever 的结果一致。&lt;br /&gt;
** VSM和 Contriever 的对比&lt;br /&gt;
 &amp;lt;nowiki&amp;gt; 针对自己实现的“苏大计算机官网搜索引擎”，去对比VSM和Contriever的效果。&lt;br /&gt;
     自己设计10个难度不同的 query，然后 VSM 返回 50 个结果，把这 50 个结果随机打乱顺序（这一步很重要），然后人工做一个标注（给一个排序）【如果觉得 10 个 query 太多，5 个也行】&lt;br /&gt;
     Contriever对 50 个结果重排序&lt;br /&gt;
     比较两种方法的结果：NDCG@5      NDCG@10       NDCG@20等&lt;br /&gt;
     如果有能力、有时间，可以分析下：什么样的query，VSM 做得好；什么样的 query，Contriever 做得好。 &amp;lt;/nowiki&amp;gt;&lt;br /&gt;
** 实验报告体现出自己做了什么、遇到的困难及如何解决。&lt;br /&gt;
&lt;br /&gt;
* 参考资料&lt;br /&gt;
** 上面的文档&lt;br /&gt;
** 微信公众号”语析LAGroup“中 contriever 论文解读&lt;br /&gt;
** contriever 原文&lt;br /&gt;
&lt;br /&gt;
== 时间表 ==&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
 &amp;lt;nowiki&amp;gt;&lt;br /&gt;
3.5 第1周&lt;br /&gt;
3.12 第2周&lt;br /&gt;
&lt;br /&gt;
xxx&lt;br /&gt;
3.25 第5周&lt;br /&gt;
4.1 第6周&lt;br /&gt;
4.29 第10周&lt;br /&gt;
5.6 第11周&lt;br /&gt;
5.27 第14周&lt;br /&gt;
6.3 第15周&lt;br /&gt;
6.17 第17周&lt;br /&gt;
&lt;br /&gt;
1	08:00-08:45&lt;br /&gt;
2	08:50-09:35&lt;br /&gt;
3	09:55-10:40&lt;br /&gt;
4	10:45-11:30&lt;br /&gt;
5	11:35-12:20&lt;br /&gt;
6	14:00-14:45&lt;br /&gt;
7	14:50-15:35 【休息5分钟，+15分钟】&lt;br /&gt;
8	15:55-16:40 &lt;br /&gt;
9	16:45-17:30 【17:15】   &lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
考虑来2-3 次考试。&lt;br /&gt;
闭卷考试，比较正式的那种。在机房里就行。然后拍照留存？&lt;br /&gt;
&lt;br /&gt;
2次考试的方案：&lt;br /&gt;
倒排搞完 考一次&lt;br /&gt;
最后一次 &lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
3次考试的方案：&lt;br /&gt;
最大匹配分词搞完，考一次&lt;br /&gt;
布尔查询搞完 考一次&lt;br /&gt;
最后一次 &lt;br /&gt;
&lt;br /&gt;
上机课9 个作业，实验报告，主要是形式审查，占比比较低。要根据考试的成绩，然后加权得到每一次作业的成绩。&lt;br /&gt;
最后，9 个作业再按照一定比例，得到实验成绩。&lt;br /&gt;
&lt;br /&gt;
&amp;lt;/nowiki&amp;gt;&lt;/div&gt;</summary>
		<author><name>Zhli</name></author>
	</entry>
	<entry>
		<id>http://hlt.suda.edu.cn/index.php?title=Projects&amp;diff=6199</id>
		<title>Projects</title>
		<link rel="alternate" type="text/html" href="http://hlt.suda.edu.cn/index.php?title=Projects&amp;diff=6199"/>
		<updated>2026-03-11T01:28:29Z</updated>

		<summary type="html">&lt;p&gt;Zhli：/* MT(机器翻译)开放数据集 */&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;Suda-HLT主要项目 &lt;br /&gt;
&lt;br /&gt;
== LAGroup（语言分析小组） ==&lt;br /&gt;
&lt;br /&gt;
  作为自然语言处理基础研究，苏州大学自然语言分析技术的目标是精准分析句子的词法和句法信息，以支持各种应用需求。我们的技术主要有几个特点：1）采用目前行业领先的多种机器学习技术，包括传统的基于离散特征的方法和深度学习方法，以提高分析性能，同时兼顾效率；2）基于我们做出的面向多源异构数据融合的一系列工作，充分利用现有的各种人工标注数据，提高模型的分析能；3）采用我们提出的基于局部标注表示的统一框架，允许训练数据只包含局部标注信息，从而充分利用各种弱标注数据，也可以将先验知识转化为弱标注信息，从而对模型解码过程进行直接约束；4）我们不断针对多源网络文本，进行人工标注，不断增加高质量训练数据。&lt;br /&gt;
&lt;br /&gt;
 基于以上技术，我们搭建了一个稳定、高准确率、高效率的[http://hlt-la.suda.edu.cn/ 汉语理解平台]，从而实现技术不断积累和沉淀，目前已经向阿里、科沃斯、狗尾草等公司提供服务。同时，为了支持人工数据标注工作，我们也搭建了一个139X224X234X18/anno-sys 数据标注平台，采用局部标注、严格双人标注、专家审核等形式，我们发现可以最大限度降低数据标注管理者的工作，同时也可以在降低人力成本和提高数据质量之间获得平衡。&lt;br /&gt;
&lt;br /&gt;
* 汉语开放依存树库构建：[http://hlt.suda.edu.cn/index.php/CODT CODT]&lt;br /&gt;
* 词语关系网络构建（目前关注上下位关系）&lt;br /&gt;
&lt;br /&gt;
== KG(知识图谱) ==&lt;br /&gt;
* 情感知识构建&lt;br /&gt;
 * 中文实体情感知识库 [[SentiBridge]]&lt;br /&gt;
 * 电商情感词典[[ECSD]]&lt;br /&gt;
&lt;br /&gt;
* 知识图谱构建&lt;br /&gt;
 * 人物关系标注数据集：IPRE，下载地址=https://github.com/SUDA-HLT/IPRE&lt;br /&gt;
 * 实体关系标注数据集：NYT-H，在NYT远程监督数据基础上，人工对测试集进行标注，可实现准确评价，下载地址=https://github.com/Spico197/NYT-H&lt;br /&gt;
&lt;br /&gt;
== MT(机器翻译)开放数据集 ==&lt;br /&gt;
&lt;br /&gt;
* 中英篇章翻译词汇一致性评测数据集&lt;br /&gt;
** [https://github.com/577521/Evaluation-Dataset-for-Lexical-Translation-Consistency 下载网址]&lt;br /&gt;
* 中文电商评论文本噪声纠正数据集&lt;br /&gt;
** [[:文件:Review42k.txt|下载网址]]&lt;br /&gt;
* 中文电商评论翻译噪声标注数据集&lt;br /&gt;
** [[:文件:review_annote_error_data.jsonl.zip|下载网址]]&lt;br /&gt;
* 中英翻译噪声标注数据集&lt;br /&gt;
** [[:文件:iwslt_fixed_data.jsonl.zip|下载网址]]&lt;/div&gt;</summary>
		<author><name>Zhli</name></author>
	</entry>
	<entry>
		<id>http://hlt.suda.edu.cn/index.php?title=Projects&amp;diff=6198</id>
		<title>Projects</title>
		<link rel="alternate" type="text/html" href="http://hlt.suda.edu.cn/index.php?title=Projects&amp;diff=6198"/>
		<updated>2026-03-11T01:28:06Z</updated>

		<summary type="html">&lt;p&gt;Zhli：/* MT(机器翻译)开放数据集 */&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;Suda-HLT主要项目 &lt;br /&gt;
&lt;br /&gt;
== LAGroup（语言分析小组） ==&lt;br /&gt;
&lt;br /&gt;
  作为自然语言处理基础研究，苏州大学自然语言分析技术的目标是精准分析句子的词法和句法信息，以支持各种应用需求。我们的技术主要有几个特点：1）采用目前行业领先的多种机器学习技术，包括传统的基于离散特征的方法和深度学习方法，以提高分析性能，同时兼顾效率；2）基于我们做出的面向多源异构数据融合的一系列工作，充分利用现有的各种人工标注数据，提高模型的分析能；3）采用我们提出的基于局部标注表示的统一框架，允许训练数据只包含局部标注信息，从而充分利用各种弱标注数据，也可以将先验知识转化为弱标注信息，从而对模型解码过程进行直接约束；4）我们不断针对多源网络文本，进行人工标注，不断增加高质量训练数据。&lt;br /&gt;
&lt;br /&gt;
 基于以上技术，我们搭建了一个稳定、高准确率、高效率的[http://hlt-la.suda.edu.cn/ 汉语理解平台]，从而实现技术不断积累和沉淀，目前已经向阿里、科沃斯、狗尾草等公司提供服务。同时，为了支持人工数据标注工作，我们也搭建了一个139X224X234X18/anno-sys 数据标注平台，采用局部标注、严格双人标注、专家审核等形式，我们发现可以最大限度降低数据标注管理者的工作，同时也可以在降低人力成本和提高数据质量之间获得平衡。&lt;br /&gt;
&lt;br /&gt;
* 汉语开放依存树库构建：[http://hlt.suda.edu.cn/index.php/CODT CODT]&lt;br /&gt;
* 词语关系网络构建（目前关注上下位关系）&lt;br /&gt;
&lt;br /&gt;
== KG(知识图谱) ==&lt;br /&gt;
* 情感知识构建&lt;br /&gt;
 * 中文实体情感知识库 [[SentiBridge]]&lt;br /&gt;
 * 电商情感词典[[ECSD]]&lt;br /&gt;
&lt;br /&gt;
* 知识图谱构建&lt;br /&gt;
 * 人物关系标注数据集：IPRE，下载地址=https://github.com/SUDA-HLT/IPRE&lt;br /&gt;
 * 实体关系标注数据集：NYT-H，在NYT远程监督数据基础上，人工对测试集进行标注，可实现准确评价，下载地址=https://github.com/Spico197/NYT-H&lt;br /&gt;
&lt;br /&gt;
== MT(机器翻译)开放数据集 ==&lt;br /&gt;
&lt;br /&gt;
* 中英篇章翻译词汇一致性评测数据集&lt;br /&gt;
** [https://github.com/577521/Evaluation-Dataset-for-Lexical-Translation-Consistency 下载网址]&lt;br /&gt;
* 中文电商评论文本噪声纠正数据集&lt;br /&gt;
** [[文件:Review42k.txt]]&lt;br /&gt;
* 中文电商评论翻译噪声标注数据集&lt;br /&gt;
** [[:文件:review_annote_error_data.jsonl.zip|||下载网址]]&lt;br /&gt;
* 中英翻译噪声标注数据集&lt;br /&gt;
** [[文件:iwslt_fixed_data.jsonl.zip]]&lt;/div&gt;</summary>
		<author><name>Zhli</name></author>
	</entry>
	<entry>
		<id>http://hlt.suda.edu.cn/index.php?title=Projects&amp;diff=6197</id>
		<title>Projects</title>
		<link rel="alternate" type="text/html" href="http://hlt.suda.edu.cn/index.php?title=Projects&amp;diff=6197"/>
		<updated>2026-03-11T01:25:52Z</updated>

		<summary type="html">&lt;p&gt;Zhli：/* MT(机器翻译)开放数据集 */&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;Suda-HLT主要项目 &lt;br /&gt;
&lt;br /&gt;
== LAGroup（语言分析小组） ==&lt;br /&gt;
&lt;br /&gt;
  作为自然语言处理基础研究，苏州大学自然语言分析技术的目标是精准分析句子的词法和句法信息，以支持各种应用需求。我们的技术主要有几个特点：1）采用目前行业领先的多种机器学习技术，包括传统的基于离散特征的方法和深度学习方法，以提高分析性能，同时兼顾效率；2）基于我们做出的面向多源异构数据融合的一系列工作，充分利用现有的各种人工标注数据，提高模型的分析能；3）采用我们提出的基于局部标注表示的统一框架，允许训练数据只包含局部标注信息，从而充分利用各种弱标注数据，也可以将先验知识转化为弱标注信息，从而对模型解码过程进行直接约束；4）我们不断针对多源网络文本，进行人工标注，不断增加高质量训练数据。&lt;br /&gt;
&lt;br /&gt;
 基于以上技术，我们搭建了一个稳定、高准确率、高效率的[http://hlt-la.suda.edu.cn/ 汉语理解平台]，从而实现技术不断积累和沉淀，目前已经向阿里、科沃斯、狗尾草等公司提供服务。同时，为了支持人工数据标注工作，我们也搭建了一个139X224X234X18/anno-sys 数据标注平台，采用局部标注、严格双人标注、专家审核等形式，我们发现可以最大限度降低数据标注管理者的工作，同时也可以在降低人力成本和提高数据质量之间获得平衡。&lt;br /&gt;
&lt;br /&gt;
* 汉语开放依存树库构建：[http://hlt.suda.edu.cn/index.php/CODT CODT]&lt;br /&gt;
* 词语关系网络构建（目前关注上下位关系）&lt;br /&gt;
&lt;br /&gt;
== KG(知识图谱) ==&lt;br /&gt;
* 情感知识构建&lt;br /&gt;
 * 中文实体情感知识库 [[SentiBridge]]&lt;br /&gt;
 * 电商情感词典[[ECSD]]&lt;br /&gt;
&lt;br /&gt;
* 知识图谱构建&lt;br /&gt;
 * 人物关系标注数据集：IPRE，下载地址=https://github.com/SUDA-HLT/IPRE&lt;br /&gt;
 * 实体关系标注数据集：NYT-H，在NYT远程监督数据基础上，人工对测试集进行标注，可实现准确评价，下载地址=https://github.com/Spico197/NYT-H&lt;br /&gt;
&lt;br /&gt;
== MT(机器翻译)开放数据集 ==&lt;br /&gt;
&lt;br /&gt;
* 中英篇章翻译词汇一致性评测数据集&lt;br /&gt;
** [https://github.com/577521/Evaluation-Dataset-for-Lexical-Translation-Consistency 下载网址]&lt;br /&gt;
* 中文电商评论文本噪声纠正数据集&lt;br /&gt;
** [[文件:Review42k.txt]]&lt;br /&gt;
* 中文电商评论翻译噪声标注数据集&lt;br /&gt;
** [[文件:review_annote_error_data.jsonl.zip|||下载网址]]&lt;br /&gt;
* 中英翻译噪声标注数据集&lt;br /&gt;
** [[文件:iwslt_fixed_data.jsonl.zip]]&lt;/div&gt;</summary>
		<author><name>Zhli</name></author>
	</entry>
	<entry>
		<id>http://hlt.suda.edu.cn/index.php?title=Projects&amp;diff=6196</id>
		<title>Projects</title>
		<link rel="alternate" type="text/html" href="http://hlt.suda.edu.cn/index.php?title=Projects&amp;diff=6196"/>
		<updated>2026-03-11T01:25:40Z</updated>

		<summary type="html">&lt;p&gt;Zhli：/* MT(机器翻译)开放数据集 */&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;Suda-HLT主要项目 &lt;br /&gt;
&lt;br /&gt;
== LAGroup（语言分析小组） ==&lt;br /&gt;
&lt;br /&gt;
  作为自然语言处理基础研究，苏州大学自然语言分析技术的目标是精准分析句子的词法和句法信息，以支持各种应用需求。我们的技术主要有几个特点：1）采用目前行业领先的多种机器学习技术，包括传统的基于离散特征的方法和深度学习方法，以提高分析性能，同时兼顾效率；2）基于我们做出的面向多源异构数据融合的一系列工作，充分利用现有的各种人工标注数据，提高模型的分析能；3）采用我们提出的基于局部标注表示的统一框架，允许训练数据只包含局部标注信息，从而充分利用各种弱标注数据，也可以将先验知识转化为弱标注信息，从而对模型解码过程进行直接约束；4）我们不断针对多源网络文本，进行人工标注，不断增加高质量训练数据。&lt;br /&gt;
&lt;br /&gt;
 基于以上技术，我们搭建了一个稳定、高准确率、高效率的[http://hlt-la.suda.edu.cn/ 汉语理解平台]，从而实现技术不断积累和沉淀，目前已经向阿里、科沃斯、狗尾草等公司提供服务。同时，为了支持人工数据标注工作，我们也搭建了一个139X224X234X18/anno-sys 数据标注平台，采用局部标注、严格双人标注、专家审核等形式，我们发现可以最大限度降低数据标注管理者的工作，同时也可以在降低人力成本和提高数据质量之间获得平衡。&lt;br /&gt;
&lt;br /&gt;
* 汉语开放依存树库构建：[http://hlt.suda.edu.cn/index.php/CODT CODT]&lt;br /&gt;
* 词语关系网络构建（目前关注上下位关系）&lt;br /&gt;
&lt;br /&gt;
== KG(知识图谱) ==&lt;br /&gt;
* 情感知识构建&lt;br /&gt;
 * 中文实体情感知识库 [[SentiBridge]]&lt;br /&gt;
 * 电商情感词典[[ECSD]]&lt;br /&gt;
&lt;br /&gt;
* 知识图谱构建&lt;br /&gt;
 * 人物关系标注数据集：IPRE，下载地址=https://github.com/SUDA-HLT/IPRE&lt;br /&gt;
 * 实体关系标注数据集：NYT-H，在NYT远程监督数据基础上，人工对测试集进行标注，可实现准确评价，下载地址=https://github.com/Spico197/NYT-H&lt;br /&gt;
&lt;br /&gt;
== MT(机器翻译)开放数据集 ==&lt;br /&gt;
&lt;br /&gt;
* 中英篇章翻译词汇一致性评测数据集&lt;br /&gt;
** [https://github.com/577521/Evaluation-Dataset-for-Lexical-Translation-Consistency 下载网址]&lt;br /&gt;
* 中文电商评论文本噪声纠正数据集&lt;br /&gt;
** [[文件:Review42k.txt]]&lt;br /&gt;
* 中文电商评论翻译噪声标注数据集&lt;br /&gt;
** [[文件:review_annote_error_data.jsonl.zip|下载网址]]&lt;br /&gt;
* 中英翻译噪声标注数据集&lt;br /&gt;
** [[文件:iwslt_fixed_data.jsonl.zip]]&lt;/div&gt;</summary>
		<author><name>Zhli</name></author>
	</entry>
	<entry>
		<id>http://hlt.suda.edu.cn/index.php?title=%E6%96%87%E4%BB%B6:Review_annote_error_data.jsonl.zip&amp;diff=6195</id>
		<title>文件:Review annote error data.jsonl.zip</title>
		<link rel="alternate" type="text/html" href="http://hlt.suda.edu.cn/index.php?title=%E6%96%87%E4%BB%B6:Review_annote_error_data.jsonl.zip&amp;diff=6195"/>
		<updated>2026-03-11T01:25:23Z</updated>

		<summary type="html">&lt;p&gt;Zhli：&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;&lt;/div&gt;</summary>
		<author><name>Zhli</name></author>
	</entry>
	<entry>
		<id>http://hlt.suda.edu.cn/index.php?title=Projects&amp;diff=6194</id>
		<title>Projects</title>
		<link rel="alternate" type="text/html" href="http://hlt.suda.edu.cn/index.php?title=Projects&amp;diff=6194"/>
		<updated>2026-03-11T01:24:25Z</updated>

		<summary type="html">&lt;p&gt;Zhli：/* MT(机器翻译)开放数据集 */&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;Suda-HLT主要项目 &lt;br /&gt;
&lt;br /&gt;
== LAGroup（语言分析小组） ==&lt;br /&gt;
&lt;br /&gt;
  作为自然语言处理基础研究，苏州大学自然语言分析技术的目标是精准分析句子的词法和句法信息，以支持各种应用需求。我们的技术主要有几个特点：1）采用目前行业领先的多种机器学习技术，包括传统的基于离散特征的方法和深度学习方法，以提高分析性能，同时兼顾效率；2）基于我们做出的面向多源异构数据融合的一系列工作，充分利用现有的各种人工标注数据，提高模型的分析能；3）采用我们提出的基于局部标注表示的统一框架，允许训练数据只包含局部标注信息，从而充分利用各种弱标注数据，也可以将先验知识转化为弱标注信息，从而对模型解码过程进行直接约束；4）我们不断针对多源网络文本，进行人工标注，不断增加高质量训练数据。&lt;br /&gt;
&lt;br /&gt;
 基于以上技术，我们搭建了一个稳定、高准确率、高效率的[http://hlt-la.suda.edu.cn/ 汉语理解平台]，从而实现技术不断积累和沉淀，目前已经向阿里、科沃斯、狗尾草等公司提供服务。同时，为了支持人工数据标注工作，我们也搭建了一个139X224X234X18/anno-sys 数据标注平台，采用局部标注、严格双人标注、专家审核等形式，我们发现可以最大限度降低数据标注管理者的工作，同时也可以在降低人力成本和提高数据质量之间获得平衡。&lt;br /&gt;
&lt;br /&gt;
* 汉语开放依存树库构建：[http://hlt.suda.edu.cn/index.php/CODT CODT]&lt;br /&gt;
* 词语关系网络构建（目前关注上下位关系）&lt;br /&gt;
&lt;br /&gt;
== KG(知识图谱) ==&lt;br /&gt;
* 情感知识构建&lt;br /&gt;
 * 中文实体情感知识库 [[SentiBridge]]&lt;br /&gt;
 * 电商情感词典[[ECSD]]&lt;br /&gt;
&lt;br /&gt;
* 知识图谱构建&lt;br /&gt;
 * 人物关系标注数据集：IPRE，下载地址=https://github.com/SUDA-HLT/IPRE&lt;br /&gt;
 * 实体关系标注数据集：NYT-H，在NYT远程监督数据基础上，人工对测试集进行标注，可实现准确评价，下载地址=https://github.com/Spico197/NYT-H&lt;br /&gt;
&lt;br /&gt;
== MT(机器翻译)开放数据集 ==&lt;br /&gt;
&lt;br /&gt;
* 中英篇章翻译词汇一致性评测数据集&lt;br /&gt;
** [https://github.com/577521/Evaluation-Dataset-for-Lexical-Translation-Consistency 下载网址]&lt;br /&gt;
* 中文电商评论文本噪声纠正数据集&lt;br /&gt;
** [[文件:Review42k.txt]]&lt;br /&gt;
* 中文电商评论翻译噪声标注数据集&lt;br /&gt;
** [[文件:review_annote_error_data.jsonl.zip]]&lt;br /&gt;
* 中英翻译噪声标注数据集&lt;br /&gt;
** [[文件:iwslt_fixed_data.jsonl.zip]]&lt;/div&gt;</summary>
		<author><name>Zhli</name></author>
	</entry>
	<entry>
		<id>http://hlt.suda.edu.cn/index.php?title=%E6%96%87%E4%BB%B6:Iwslt_fixed_data.jsonl.zip&amp;diff=6193</id>
		<title>文件:Iwslt fixed data.jsonl.zip</title>
		<link rel="alternate" type="text/html" href="http://hlt.suda.edu.cn/index.php?title=%E6%96%87%E4%BB%B6:Iwslt_fixed_data.jsonl.zip&amp;diff=6193"/>
		<updated>2026-03-11T01:22:47Z</updated>

		<summary type="html">&lt;p&gt;Zhli：&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;&lt;/div&gt;</summary>
		<author><name>Zhli</name></author>
	</entry>
	<entry>
		<id>http://hlt.suda.edu.cn/index.php?title=Projects&amp;diff=6192</id>
		<title>Projects</title>
		<link rel="alternate" type="text/html" href="http://hlt.suda.edu.cn/index.php?title=Projects&amp;diff=6192"/>
		<updated>2026-03-11T01:21:57Z</updated>

		<summary type="html">&lt;p&gt;Zhli：/* MT(机器翻译)开放数据集 */&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;Suda-HLT主要项目 &lt;br /&gt;
&lt;br /&gt;
== LAGroup（语言分析小组） ==&lt;br /&gt;
&lt;br /&gt;
  作为自然语言处理基础研究，苏州大学自然语言分析技术的目标是精准分析句子的词法和句法信息，以支持各种应用需求。我们的技术主要有几个特点：1）采用目前行业领先的多种机器学习技术，包括传统的基于离散特征的方法和深度学习方法，以提高分析性能，同时兼顾效率；2）基于我们做出的面向多源异构数据融合的一系列工作，充分利用现有的各种人工标注数据，提高模型的分析能；3）采用我们提出的基于局部标注表示的统一框架，允许训练数据只包含局部标注信息，从而充分利用各种弱标注数据，也可以将先验知识转化为弱标注信息，从而对模型解码过程进行直接约束；4）我们不断针对多源网络文本，进行人工标注，不断增加高质量训练数据。&lt;br /&gt;
&lt;br /&gt;
 基于以上技术，我们搭建了一个稳定、高准确率、高效率的[http://hlt-la.suda.edu.cn/ 汉语理解平台]，从而实现技术不断积累和沉淀，目前已经向阿里、科沃斯、狗尾草等公司提供服务。同时，为了支持人工数据标注工作，我们也搭建了一个139X224X234X18/anno-sys 数据标注平台，采用局部标注、严格双人标注、专家审核等形式，我们发现可以最大限度降低数据标注管理者的工作，同时也可以在降低人力成本和提高数据质量之间获得平衡。&lt;br /&gt;
&lt;br /&gt;
* 汉语开放依存树库构建：[http://hlt.suda.edu.cn/index.php/CODT CODT]&lt;br /&gt;
* 词语关系网络构建（目前关注上下位关系）&lt;br /&gt;
&lt;br /&gt;
== KG(知识图谱) ==&lt;br /&gt;
* 情感知识构建&lt;br /&gt;
 * 中文实体情感知识库 [[SentiBridge]]&lt;br /&gt;
 * 电商情感词典[[ECSD]]&lt;br /&gt;
&lt;br /&gt;
* 知识图谱构建&lt;br /&gt;
 * 人物关系标注数据集：IPRE，下载地址=https://github.com/SUDA-HLT/IPRE&lt;br /&gt;
 * 实体关系标注数据集：NYT-H，在NYT远程监督数据基础上，人工对测试集进行标注，可实现准确评价，下载地址=https://github.com/Spico197/NYT-H&lt;br /&gt;
&lt;br /&gt;
== MT(机器翻译)开放数据集 ==&lt;br /&gt;
&lt;br /&gt;
* 中英篇章翻译词汇一致性评测数据集&lt;br /&gt;
** [https://github.com/577521/Evaluation-Dataset-for-Lexical-Translation-Consistency 下载网址]&lt;br /&gt;
* &lt;br /&gt;
** [[文件:Review42k.txt]]&lt;/div&gt;</summary>
		<author><name>Zhli</name></author>
	</entry>
	<entry>
		<id>http://hlt.suda.edu.cn/index.php?title=Projects&amp;diff=6191</id>
		<title>Projects</title>
		<link rel="alternate" type="text/html" href="http://hlt.suda.edu.cn/index.php?title=Projects&amp;diff=6191"/>
		<updated>2026-03-11T01:19:35Z</updated>

		<summary type="html">&lt;p&gt;Zhli：/* MT(机器翻译)开放数据集 */&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;Suda-HLT主要项目 &lt;br /&gt;
&lt;br /&gt;
== LAGroup（语言分析小组） ==&lt;br /&gt;
&lt;br /&gt;
  作为自然语言处理基础研究，苏州大学自然语言分析技术的目标是精准分析句子的词法和句法信息，以支持各种应用需求。我们的技术主要有几个特点：1）采用目前行业领先的多种机器学习技术，包括传统的基于离散特征的方法和深度学习方法，以提高分析性能，同时兼顾效率；2）基于我们做出的面向多源异构数据融合的一系列工作，充分利用现有的各种人工标注数据，提高模型的分析能；3）采用我们提出的基于局部标注表示的统一框架，允许训练数据只包含局部标注信息，从而充分利用各种弱标注数据，也可以将先验知识转化为弱标注信息，从而对模型解码过程进行直接约束；4）我们不断针对多源网络文本，进行人工标注，不断增加高质量训练数据。&lt;br /&gt;
&lt;br /&gt;
 基于以上技术，我们搭建了一个稳定、高准确率、高效率的[http://hlt-la.suda.edu.cn/ 汉语理解平台]，从而实现技术不断积累和沉淀，目前已经向阿里、科沃斯、狗尾草等公司提供服务。同时，为了支持人工数据标注工作，我们也搭建了一个139X224X234X18/anno-sys 数据标注平台，采用局部标注、严格双人标注、专家审核等形式，我们发现可以最大限度降低数据标注管理者的工作，同时也可以在降低人力成本和提高数据质量之间获得平衡。&lt;br /&gt;
&lt;br /&gt;
* 汉语开放依存树库构建：[http://hlt.suda.edu.cn/index.php/CODT CODT]&lt;br /&gt;
* 词语关系网络构建（目前关注上下位关系）&lt;br /&gt;
&lt;br /&gt;
== KG(知识图谱) ==&lt;br /&gt;
* 情感知识构建&lt;br /&gt;
 * 中文实体情感知识库 [[SentiBridge]]&lt;br /&gt;
 * 电商情感词典[[ECSD]]&lt;br /&gt;
&lt;br /&gt;
* 知识图谱构建&lt;br /&gt;
 * 人物关系标注数据集：IPRE，下载地址=https://github.com/SUDA-HLT/IPRE&lt;br /&gt;
 * 实体关系标注数据集：NYT-H，在NYT远程监督数据基础上，人工对测试集进行标注，可实现准确评价，下载地址=https://github.com/Spico197/NYT-H&lt;br /&gt;
&lt;br /&gt;
== MT(机器翻译)开放数据集 ==&lt;br /&gt;
&lt;br /&gt;
* 中英篇章翻译词汇一致性评测数据集&lt;br /&gt;
** [https://github.com/577521/Evaluation-Dataset-for-Lexical-Translation-Consistency 下载网址]&lt;/div&gt;</summary>
		<author><name>Zhli</name></author>
	</entry>
	<entry>
		<id>http://hlt.suda.edu.cn/index.php?title=Projects&amp;diff=6190</id>
		<title>Projects</title>
		<link rel="alternate" type="text/html" href="http://hlt.suda.edu.cn/index.php?title=Projects&amp;diff=6190"/>
		<updated>2026-03-11T01:19:17Z</updated>

		<summary type="html">&lt;p&gt;Zhli：/* MT(机器翻译) */&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;Suda-HLT主要项目 &lt;br /&gt;
&lt;br /&gt;
== LAGroup（语言分析小组） ==&lt;br /&gt;
&lt;br /&gt;
  作为自然语言处理基础研究，苏州大学自然语言分析技术的目标是精准分析句子的词法和句法信息，以支持各种应用需求。我们的技术主要有几个特点：1）采用目前行业领先的多种机器学习技术，包括传统的基于离散特征的方法和深度学习方法，以提高分析性能，同时兼顾效率；2）基于我们做出的面向多源异构数据融合的一系列工作，充分利用现有的各种人工标注数据，提高模型的分析能；3）采用我们提出的基于局部标注表示的统一框架，允许训练数据只包含局部标注信息，从而充分利用各种弱标注数据，也可以将先验知识转化为弱标注信息，从而对模型解码过程进行直接约束；4）我们不断针对多源网络文本，进行人工标注，不断增加高质量训练数据。&lt;br /&gt;
&lt;br /&gt;
 基于以上技术，我们搭建了一个稳定、高准确率、高效率的[http://hlt-la.suda.edu.cn/ 汉语理解平台]，从而实现技术不断积累和沉淀，目前已经向阿里、科沃斯、狗尾草等公司提供服务。同时，为了支持人工数据标注工作，我们也搭建了一个139X224X234X18/anno-sys 数据标注平台，采用局部标注、严格双人标注、专家审核等形式，我们发现可以最大限度降低数据标注管理者的工作，同时也可以在降低人力成本和提高数据质量之间获得平衡。&lt;br /&gt;
&lt;br /&gt;
* 汉语开放依存树库构建：[http://hlt.suda.edu.cn/index.php/CODT CODT]&lt;br /&gt;
* 词语关系网络构建（目前关注上下位关系）&lt;br /&gt;
&lt;br /&gt;
== KG(知识图谱) ==&lt;br /&gt;
* 情感知识构建&lt;br /&gt;
 * 中文实体情感知识库 [[SentiBridge]]&lt;br /&gt;
 * 电商情感词典[[ECSD]]&lt;br /&gt;
&lt;br /&gt;
* 知识图谱构建&lt;br /&gt;
 * 人物关系标注数据集：IPRE，下载地址=https://github.com/SUDA-HLT/IPRE&lt;br /&gt;
 * 实体关系标注数据集：NYT-H，在NYT远程监督数据基础上，人工对测试集进行标注，可实现准确评价，下载地址=https://github.com/Spico197/NYT-H&lt;br /&gt;
&lt;br /&gt;
== MT(机器翻译)开放数据集 ==&lt;br /&gt;
&lt;br /&gt;
* 中英篇章翻译词汇一致性评测数据集&lt;br /&gt;
&lt;br /&gt;
[https://github.com/577521/Evaluation-Dataset-for-Lexical-Translation-Consistency 网址]&lt;/div&gt;</summary>
		<author><name>Zhli</name></author>
	</entry>
	<entry>
		<id>http://hlt.suda.edu.cn/index.php?title=%E6%96%87%E4%BB%B6:Review42k.txt&amp;diff=6189</id>
		<title>文件:Review42k.txt</title>
		<link rel="alternate" type="text/html" href="http://hlt.suda.edu.cn/index.php?title=%E6%96%87%E4%BB%B6:Review42k.txt&amp;diff=6189"/>
		<updated>2026-03-11T01:18:22Z</updated>

		<summary type="html">&lt;p&gt;Zhli：&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;&lt;/div&gt;</summary>
		<author><name>Zhli</name></author>
	</entry>
	<entry>
		<id>http://hlt.suda.edu.cn/index.php?title=Ir-2026-spring&amp;diff=6188</id>
		<title>Ir-2026-spring</title>
		<link rel="alternate" type="text/html" href="http://hlt.suda.edu.cn/index.php?title=Ir-2026-spring&amp;diff=6188"/>
		<updated>2026-03-10T02:36:21Z</updated>

		<summary type="html">&lt;p&gt;Zhli：/* 提交作业说明 */&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;&lt;br /&gt;
&lt;br /&gt;
= 信息检索综合实践 =&lt;br /&gt;
&lt;br /&gt;
李正华&lt;br /&gt;
&lt;br /&gt;
* 学生：计23计科1班	 	 	 &lt;br /&gt;
* 助教：吕喆、梅睿桐  &lt;br /&gt;
* QQ群: xx&lt;br /&gt;
* 时间：周四 6-9 节课 1-17 周&lt;br /&gt;
* 地点：理工楼238&lt;br /&gt;
&lt;br /&gt;
== 上课基本要求 ==&lt;br /&gt;
* 不能做的事情：打游戏、看课程无关视频、刷网页&lt;br /&gt;
* 认真读作业要求，按时交作业。csteaching&lt;br /&gt;
* 不能抄袭别人或网上的，自己做；不要把自己的作业给别人&lt;br /&gt;
&lt;br /&gt;
== 课程建议 ==&lt;br /&gt;
* 每个作业，截止时间后，把成绩发给大家，并用ppt给大家讲一下批作业发现的问题，题目分析&lt;br /&gt;
* 上课期间：请大家积极提问。遇到大家都无法理解的公共问题，我会补充讲解&lt;br /&gt;
* 非上课时间提问&lt;br /&gt;
** 建议同学们在群里提问（包括但不限于代码的bug、不理解算法、作业资源和提交等），由其他同学帮助解答；&lt;br /&gt;
** 群里的提问如果其他同学也无法回答，可以私信助教（仅限xxx，如周四晚上7点到9点，吕喆增加）；&lt;br /&gt;
&lt;br /&gt;
== 计算成绩的规则和说明（待定） ==&lt;br /&gt;
* &amp;lt;font color='red&amp;gt;核心要求：掌握最基本的概念、方法、算法&amp;lt;/font&amp;gt;&lt;br /&gt;
* 实验作业：70-80分&lt;br /&gt;
** 一系列作业，每个作业10-20分（形式检查为辅、考核为主）&lt;br /&gt;
** 必须按照规定时间，按照规定格式要求，将实验报告+源代码，提交到csteaching&lt;br /&gt;
&lt;br /&gt;
* 期末面对面小测验：10分&lt;br /&gt;
** 考察课程相关的基础知识，看看作业是否是自己做的&lt;br /&gt;
&lt;br /&gt;
* 平时成绩：10-20分&lt;br /&gt;
** 不能迟到、早退，特殊情况必须请假，并带辅导员签字的假条；&lt;br /&gt;
** 点名时，如果发现名单上没有你的名字，及时提出&lt;br /&gt;
&lt;br /&gt;
== 提交作业说明 ==&lt;br /&gt;
* 作业网址：本学期开始的实验布置、提交与批改等不再使用csteaching平台，统一改用工程认证管理系统。请各位老师通过工程认证管理系统（网址[http://42.244.43.76:8000/ http://42.244.43.76:8000/]）开展实验布置、批改等相关工作，并烦请同步通知班级学生在该系统完成实验提交。&lt;br /&gt;
* &amp;lt;font color='red&amp;gt;作业迟交了则最终成绩会按一定比例缩减&amp;lt;/font&amp;gt;&lt;br /&gt;
* 包含两部分&lt;br /&gt;
** 实验报告（pdf文件，&amp;lt;font color='red&amp;gt;请把word转为pdf&amp;lt;/font&amp;gt;）&lt;br /&gt;
*** 请按照实验模版[[:文件:ir-2022-spring-report.doc]]，认真填写个人信息、实验题目、实验内容等&lt;br /&gt;
*** 不要大段粘贴代码，最多可以粘贴核心的一小段代码，&amp;lt;font color='red&amp;gt;粘贴大段代码会扣分&amp;lt;/font&amp;gt;&lt;br /&gt;
*** 写清楚自己的解决思路，尤其是遇到的难点和如何解决&lt;br /&gt;
*** 建议可以画流程图或者写伪代码。&lt;br /&gt;
*** 解决思路的流程图中是以文字为主还是以代码为主？报告中不要直接放代码。文字为主，不在于写得长，而在于写清楚，表明你确实做了、想了。&lt;br /&gt;
*** 问：流程图可以改成自然语言描述或者是伪代码吗？答：流程图也可以画的很high-level的。大家自由发挥。也可以画到纸上然后拍照截图。模块化思维 大问题分解小问题 。&lt;br /&gt;
*** &amp;lt;font color='red&amp;gt;将程序运行结果截图，没有运行结果会扣分&amp;lt;/font&amp;gt;，中间的输出结果/文件可以截图一部分&lt;br /&gt;
** 附件（.zip压缩包）&lt;br /&gt;
*** 源代码：代码不要都团在一起，请用空行对代码进行分隔，并简单注释代码块的功能&lt;br /&gt;
*** readme.txt文件：说明如何运行你的程序，需要什么环境，如windows或linux，python版本如python3.5&lt;br /&gt;
* 提交前自我检查&lt;br /&gt;
** 是否有包含readme.txt文件解释如何编译执行你的程序。 &amp;lt;font color='red&amp;gt;如没有该文件，将减分。&amp;lt;/font&amp;gt;&lt;br /&gt;
** 是否认真完成实验报告&lt;br /&gt;
** 是否可以按照readme.txt正确编译和运行程序&lt;br /&gt;
** 是否包含别人的代码，&amp;lt;font color='red&amp;gt;抄袭和被抄袭的都是0分&amp;lt;/font&amp;gt;&lt;br /&gt;
** 期末可能会用软件做自动抄袭检查&lt;br /&gt;
** 等这学期最后几周，我们可能统一对所有的作业做自动查重，到时候也会查出一些问题。 &amp;lt;font color='red&amp;gt;请大家一定要自己做，编程能力差一点，就做得简单一点，能力强，就做得好一点。但是一定要自己做。 &amp;lt;/font&amp;gt;&lt;br /&gt;
* 提交作业命名规则&lt;br /&gt;
** 实验报告（姓名学号.pdf）&lt;br /&gt;
** 附件（姓名学号.zip）&lt;br /&gt;
&lt;br /&gt;
== 实验报告word模板 ==&lt;br /&gt;
* [[:文件:ir-2022-spring-report.doc]]&lt;br /&gt;
&lt;br /&gt;
== 具体课程（含作业） == &lt;br /&gt;
&lt;br /&gt;
{| class=&amp;quot;wikitable&amp;quot;&lt;br /&gt;
! style=&amp;quot;text-align:left;&amp;quot;| 作业&lt;br /&gt;
! 成绩比例&lt;br /&gt;
! 评分要点&lt;br /&gt;
|-&lt;br /&gt;
| 分字&lt;br /&gt;
| 5%&lt;br /&gt;
| 按字节读取并判断高位&lt;br /&gt;
|-&lt;br /&gt;
| 单词计数&lt;br /&gt;
| 5%&lt;br /&gt;
| 无&lt;br /&gt;
|-&lt;br /&gt;
| 最大匹配分词&lt;br /&gt;
| 10%&lt;br /&gt;
| 算法和评价正确实现&lt;br /&gt;
|-&lt;br /&gt;
| 网页正文抽取&lt;br /&gt;
| 10%&lt;br /&gt;
| 按要求完成两个任务&lt;br /&gt;
|-&lt;br /&gt;
| 倒排索引&lt;br /&gt;
| 10%&lt;br /&gt;
| 高效创建倒排文件&lt;br /&gt;
|-&lt;br /&gt;
| 布尔查询&lt;br /&gt;
| 10%&lt;br /&gt;
| inter和union的复杂度为O(n)，复杂查询用堆栈判断优先级&lt;br /&gt;
|-&lt;br /&gt;
| 网页相关性排序&lt;br /&gt;
| 15%&lt;br /&gt;
| 基于向量空间模型VSM、tf-idf权重&lt;br /&gt;
|-&lt;br /&gt;
| 爬虫和某机构主页检索系统&lt;br /&gt;
| 15%&lt;br /&gt;
| 实现爬虫，系统架构设计良好，说明文档详细，UI完整&lt;br /&gt;
|-&lt;br /&gt;
| &amp;lt;font color='black&amp;gt;基于深度学习的检索系统&amp;lt;/font&amp;gt;&lt;br /&gt;
| 20%【比例低一点】&lt;br /&gt;
| Contriever：重现部分实验结果；自己实现评价指标；在上一个作业中的爬虫和检索系统的基础上，自己设计、标注 10 个 query，对比向量空间模型VSM 和Contriever 的效果，给出评价结果。建议：VSM 给 100 个结果，然后 Contriever 重排序，然后人工标注，具体如何标注更合理，自己考虑好。&lt;br /&gt;
|-&lt;br /&gt;
|}&lt;br /&gt;
&lt;br /&gt;
== 信息检索课程介绍 ==&lt;br /&gt;
* [http://hlt.suda.edu.cn/~zhli/teach/ir-2019-spring/ir-introduction-v0.4.pdf PPT下载]&lt;br /&gt;
* 2022春视频和图片：&lt;br /&gt;
** 低画质：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/course-intro-low-quality.mp4 课程介绍]&lt;br /&gt;
** 高画质：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/course-intro-part-1.mp4 课程介绍-part1]、 [http://hlt.suda.edu.cn/LA/Ir-2022-Spring/course-intro-part-2.mp4 课程介绍-part2]&lt;br /&gt;
** 图片：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/course-intro.jpg 图]&lt;br /&gt;
&lt;br /&gt;
* &amp;lt;font color='red&amp;gt;和2022年课程的区别&amp;lt;/font&amp;gt;：增加了'''基于深度学习的检索'''的内容，删除'''词性标注'''相关内容&lt;br /&gt;
&lt;br /&gt;
== 信息检索系统介绍 ==&lt;br /&gt;
* 2022春视频：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/intro-to-info-retrieval.mp4 信息检索系统介绍]&lt;br /&gt;
&lt;br /&gt;
= 具体作业 =&lt;br /&gt;
&lt;br /&gt;
== 作业1：分字（C++语言） ==&lt;br /&gt;
* 2022春视频和图片：&lt;br /&gt;
** 低画质：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/split-char-low-quality.mp4 作业1]&lt;br /&gt;
** 高画质：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/split-char-part-1.mp4 作业1-part1]、 [http://hlt.suda.edu.cn/LA/Ir-2022-Spring/split-char-part-2.mp4 作业1-part2]&lt;br /&gt;
** 图片：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/split-char-figure-1.jpg 图1]、 [http://hlt.suda.edu.cn/LA/Ir-2022-Spring/split-char-figure-2.jpg 图2]&lt;br /&gt;
* UTF-8数据：[[文件:sentence.txt]]&lt;br /&gt;
* UFT-8编码规则：&lt;br /&gt;
 &amp;lt;nowiki&amp;gt;&lt;br /&gt;
1字节 0xxxxxxx&lt;br /&gt;
2字节 110xxxxx 10xxxxxx&lt;br /&gt;
3字节 1110xxxx 10xxxxxx 10xxxxxx&lt;br /&gt;
4字节 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx&lt;br /&gt;
5字节 111110xx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx&lt;br /&gt;
6字节 1111110x 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx &amp;lt;/nowiki&amp;gt;&lt;br /&gt;
&lt;br /&gt;
== 作业2：单词计数 ==&lt;br /&gt;
* 课件 [http://hlt.suda.edu.cn/~zhli/teach/ir-2019-spring/word-count.pdf PPT下载]&lt;br /&gt;
* 2022春视频：&lt;br /&gt;
** 低画质：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/word-count-low-quality.mp4 作业2]&lt;br /&gt;
** 高画质：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/word-count-2.mp4 作业2] &lt;br /&gt;
* 数据 [http://hlt.suda.edu.cn/~zhli/teach/ir-2019-spring/sample-en.txt txt下载]&lt;br /&gt;
&lt;br /&gt;
== 作业3：最大匹配分词 == &lt;br /&gt;
* 作业提交时间截止时间：第5周3.25下课之前提交&lt;br /&gt;
* 课件：前向最大匹配 PDF文件--[[文件:Word-seg-max-match.pdf]]；PPT文件--[[文件:Word-seg-max-match.zip]]&lt;br /&gt;
* 2022春视频和图片：&lt;br /&gt;
** 低画质：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/word-seg-max-match-low-quality.mp4 作业3]&lt;br /&gt;
** 高画质：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/word-seg-max-match.mp4 作业3] &lt;br /&gt;
** 图片：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/word-seg-max-match.jpg 图] &lt;br /&gt;
&lt;br /&gt;
* 数据下载：&lt;br /&gt;
** 字典：[[文件:dict.txt]] &lt;br /&gt;
** 待分词：[[文件:sentence.txt]] &lt;br /&gt;
** 正确答案（人工标注的，你的模型的预测结果要和这个文件进行对比，从而得到P/R/F值）：[[文件:answer.txt]]；&lt;br /&gt;
** 正向最大匹配分词模型的预测结果（如果你的程序写对了，那么应该和这个结果一模一样）：[[文件:out.txt]]&lt;br /&gt;
&lt;br /&gt;
 &amp;lt;nowiki&amp;gt;&lt;br /&gt;
*正确实验结果&lt;br /&gt;
**正确识别的词数：20263&lt;br /&gt;
**识别出的总体个数：20397&lt;br /&gt;
**测试集中的总体个数：20454&lt;br /&gt;
**正确率：0.99343&lt;br /&gt;
**召回率：0.99066&lt;br /&gt;
**F值：0.99204 &amp;lt;/nowiki&amp;gt;&lt;br /&gt;
&lt;br /&gt;
== 作业4：网页正文抽取 ==&lt;br /&gt;
&lt;br /&gt;
* 作业提交时间截止时间：x.x下课前提交&lt;br /&gt;
* 2022春视频： [http://hlt.suda.edu.cn/LA/Ir-2022-Spring/web-page-content-extraction.mp4 作业4]&lt;br /&gt;
* 课件（&amp;lt;font color='red'&amp;gt;请严格按照课件要求完成作业&amp;lt;/font&amp;gt;）： &lt;br /&gt;
** [[:文件:ir-2022-spring-web-page-content-extraction.ppt]]&lt;br /&gt;
** [[:文件:ir-2022-spring-web-page-content-extraction.pdf]]&lt;br /&gt;
* 数据&lt;br /&gt;
** 1.html和2.html [[:文件:ir-2022-spring-example-html.zip]]&lt;br /&gt;
** data-1k：1000个html文件 [[:文件:ir-2022-spring-all-html.zip]] （如果文件出现乱码，请到qq群里下载）&lt;br /&gt;
&lt;br /&gt;
== 作业5：倒排索引 == &lt;br /&gt;
&lt;br /&gt;
* 作业提交时间截止时间：第8周4.15下课前提交&lt;br /&gt;
* 课件： &lt;br /&gt;
** 仅供参考，与本次作业要求无关：[[:文件:ir-2022-spring-inverted-index-simplified.ppt]]&lt;br /&gt;
*  2022春视频和图片： &lt;br /&gt;
** 视频：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/inverted-index.mp4 作业5]&lt;br /&gt;
** 图片：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/inverted-index.jpg 图]&lt;br /&gt;
* 数据&lt;br /&gt;
** 停用词表：[https://github.com/goto456/stopwords github网址] [http://hlt.suda.edu.cn/LA/Ir-2022-Spring/stopwords.zip 苏大本地下载] &lt;br /&gt;
** 结巴词典：[https://github.com/fxsjy/jieba/tree/master/extra_dict github网址] [http://hlt.suda.edu.cn/LA/Ir-2022-Spring/word_dict.zip 苏大本地下载]&lt;br /&gt;
** 结巴词典文件每一行有3列，为：单词、词频、词性，只需要使用第一列的单词即可，使用small进行调试，提交作业用big&lt;br /&gt;
&lt;br /&gt;
== 作业6：布尔查询 ==&lt;br /&gt;
&lt;br /&gt;
* 作业提交时间截止时间：x.x下课前提交&lt;br /&gt;
*  2022春视频和图片： &lt;br /&gt;
** 视频：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/bool-query.mp4 作业6]&lt;br /&gt;
** 图片：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/bool-query.jpg 图]&lt;br /&gt;
* 作业提交说明：&lt;br /&gt;
** 附件中给出本次作业使用的倒排索引文件（可以在作业5的基础上进行优化），&amp;lt;font color=&amp;quot;red&amp;quot;&amp;gt;不需要提供构建倒排索引的代码，但在实验报告中给出倒排索引文件的说明，参考侯皓文同学&amp;lt;/font&amp;gt;&lt;br /&gt;
** 交集、并集操作用inter()、union()这两个函数单独封装&lt;br /&gt;
** &amp;lt;font color=&amp;quot;red&amp;quot;&amp;gt;对4个语句&amp;lt;/font&amp;gt; 'A', 'B', 'A AND B', 'A OR B' （A、B为自定义的查询词） 分别进行一次查询，每次的查询结果单独保存到一个txt文件中，以查询语句作为文件名（如 'A AND B.txt'`）&lt;br /&gt;
** 结果展示部分，文件按名字字母序排序：指字符序（用内置的sort即可），先用pinyin包转成拼音再排序也可以，不要自行改变文件名（如 阿大.txt -&amp;gt; 34.txt）&lt;br /&gt;
** 实现更复杂的查询，如：'A AND B OR C' 可以加分&lt;br /&gt;
** 查询词的加重（用#标记）不做强制要求，但做了加分&lt;br /&gt;
&lt;br /&gt;
== 作业7：基于向量空间模型（VSM）和tf-idf权重的网页相关性排序 ==&lt;br /&gt;
&lt;br /&gt;
* 作业提交时间截止时间：xx之前提交&lt;br /&gt;
** 视频：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/web-page-rank.mp4 作业7]&lt;br /&gt;
** 图片：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/web-page-rank-1.jpg 图片1]  [http://hlt.suda.edu.cn/LA/Ir-2022-Spring/web-page-rank-2.jpg 图片2]&lt;br /&gt;
* 作业要求：&lt;br /&gt;
** 如果无法理解向量空间模型，可以选择做tf-idf作业，但最多只给50分&lt;br /&gt;
** 实现基于向量空间模型的网页相关性排序&lt;br /&gt;
** 给定一个查询Q：可以是手动用空格分好词的&amp;quot;李正华 招收 学生&amp;quot;；也可以是未分词的&amp;quot;李正华招收学生&amp;quot;，之后用最大匹配分词分好词 -&amp;gt; &amp;quot;李正华 招收 学生&amp;quot;&lt;br /&gt;
** 注释：一个给定分词的查询Q实际上等价于布尔查询OR：&amp;quot;李正华 招收 学生&amp;quot; &amp;lt;=&amp;gt; &amp;quot;李正华 OR 招收 OR 学生&amp;quot;&lt;br /&gt;
* 作业提交说明：&lt;br /&gt;
** 附件中给出本任务所使用的倒排索引文件&lt;br /&gt;
** 在实验报告中说明对于余弦相似度计算中的：di[k]、q[k]、|di|、|q|是如何处理或存储的&lt;br /&gt;
** 附件中给出一个查询Q的结果，保存为文本文件&amp;quot;Q.txt&amp;quot;中，格式为：&lt;br /&gt;
&lt;br /&gt;
  文档名1（余弦相似度Sim） # Sim值可不除以|q|的值，一个例子： 阿鲁巴岛.txt(0.64)&lt;br /&gt;
  句子1&lt;br /&gt;
  句子2&lt;br /&gt;
  ...&lt;br /&gt;
  文档名2（余弦相似度Sim）&lt;br /&gt;
  句子1&lt;br /&gt;
  句子2&lt;br /&gt;
  ...&lt;br /&gt;
  ......&lt;br /&gt;
&lt;br /&gt;
== 作业8：爬虫和某机构主页检索系统（综合项目） ==&lt;br /&gt;
&lt;br /&gt;
* 作业提交时间截止时间：xx之前提交&lt;br /&gt;
** 视频：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/web-spider.mp4 作业8]&lt;br /&gt;
** PPT：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/web-spider.pptx PPT]&lt;br /&gt;
* 任务一：用&amp;lt;font color=&amp;quot;red&amp;quot;&amp;gt;爬虫模块&amp;lt;/font&amp;gt;尽量完整地爬下来一个机构对应的所有静态网页（html或htm后缀），保存到磁盘中：&lt;br /&gt;
** 苏大、苏大计算机学院（规模小一点）都可以&lt;br /&gt;
** orphan网页不用考虑&lt;br /&gt;
* 任务二：基于爬取的网页，做一个完整的检索系统（以后可以考虑不断完善、定时更新）：&lt;br /&gt;
** 1. &amp;lt;font color=&amp;quot;red&amp;quot;&amp;gt;网页正文提取模块&amp;lt;/font&amp;gt;（同作业4的实战部分一致）&lt;br /&gt;
** 2. 处理网页正文的&amp;lt;font color=&amp;quot;red&amp;quot;&amp;gt;分句、分词模块&amp;lt;/font&amp;gt;（可以用作业3的最大匹配分词，也可以用第三方的分词器，如jieba）&lt;br /&gt;
** 3. &amp;lt;font color=&amp;quot;red&amp;quot;&amp;gt;倒排索引模块&amp;lt;/font&amp;gt;：基于处理好的网页正文，建立倒排索引文件（同作业5一致）&lt;br /&gt;
** 4. &amp;lt;font color=&amp;quot;red&amp;quot;&amp;gt;网页排序模块&amp;lt;/font&amp;gt;：实现网页相关性排序（同作业7一致）&lt;br /&gt;
** 5. &amp;lt;font color=&amp;quot;red&amp;quot;&amp;gt;查询模块&amp;lt;/font&amp;gt;：提供查询接口，用户输入查询词后显示网页名（暂定为网页的title），和包含查询词的句子，查询词进行highlight处理（如#查询词#）。查询接口可以用命令行实现，提供前端UI界面（Web或Application都可以）会获得加分。&lt;br /&gt;
&lt;br /&gt;
注意：把网页源文件（html文件）保存好，避免重复爬。例如优化了网页正文提取模块、或突然想用一个更好的分词器&lt;br /&gt;
&lt;br /&gt;
* 作业提交说明：&lt;br /&gt;
** 源代码：任务一和任务二的所有代码都要提交，每个模块（共6个，在上方已用红色标出）在readme中指明在哪个python文件中实现的&lt;br /&gt;
** 处理好的网页数据（可选）：原始网页，提取出并分好句、分好词的网页正文，若网页数据特别大的话可以不要&lt;br /&gt;
** 在实验报告中将三项统计信息放到表格中：网页（文档）数、句子数、单词数&lt;br /&gt;
** 倒排索引文件（必备）&lt;br /&gt;
** 说明文档：(每个模块的)实现的功能，如何使用，接口等，内容不限&lt;br /&gt;
&lt;br /&gt;
== 作业9：深度学习方法&amp;amp;检索结果的评价 ==&lt;br /&gt;
&lt;br /&gt;
* 要求&lt;br /&gt;
** 账号环境，跑推理代码，重现完成部分实验。&lt;br /&gt;
*** 具体要跑哪些实验，请看文档最后的表格：[https://resplendent-gumdrop-ad2cd4.netlify.app/contriever-ir-course-assignment/ 具体文档] &lt;br /&gt;
** 自己实现评价指标，自己的评价指标的结果，和contriever 的结果一致。&lt;br /&gt;
** VSM和 Contriever 的对比&lt;br /&gt;
 &amp;lt;nowiki&amp;gt; 针对自己实现的“苏大计算机官网搜索引擎”，去对比VSM和Contriever的效果。&lt;br /&gt;
     自己设计10个难度不同的 query，然后 VSM 返回 50 个结果，把这 50 个结果随机打乱顺序（这一步很重要），然后人工做一个标注（给一个排序）【如果觉得 10 个 query 太多，5 个也行】&lt;br /&gt;
     Contriever对 50 个结果重排序&lt;br /&gt;
     比较两种方法的结果：NDCG@5      NDCG@10       NDCG@20等&lt;br /&gt;
     如果有能力、有时间，可以分析下：什么样的query，VSM 做得好；什么样的 query，Contriever 做得好。 &amp;lt;/nowiki&amp;gt;&lt;br /&gt;
** 实验报告体现出自己做了什么、遇到的困难及如何解决。&lt;br /&gt;
&lt;br /&gt;
* 参考资料&lt;br /&gt;
** 上面的文档&lt;br /&gt;
** 微信公众号”语析LAGroup“中 contriever 论文解读&lt;br /&gt;
** contriever 原文&lt;br /&gt;
&lt;br /&gt;
== 时间表 ==&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
 &amp;lt;nowiki&amp;gt;&lt;br /&gt;
3.5 第1周&lt;br /&gt;
3.12 第2周&lt;br /&gt;
&lt;br /&gt;
xxx&lt;br /&gt;
3.25 第5周&lt;br /&gt;
4.1 第6周&lt;br /&gt;
4.29 第10周&lt;br /&gt;
5.6 第11周&lt;br /&gt;
5.27 第14周&lt;br /&gt;
6.3 第15周&lt;br /&gt;
6.17 第17周&lt;br /&gt;
&lt;br /&gt;
1	08:00-08:45&lt;br /&gt;
2	08:50-09:35&lt;br /&gt;
3	09:55-10:40&lt;br /&gt;
4	10:45-11:30&lt;br /&gt;
5	11:35-12:20&lt;br /&gt;
6	14:00-14:45&lt;br /&gt;
7	14:50-15:35 【休息5分钟，+15分钟】&lt;br /&gt;
8	15:55-16:40 &lt;br /&gt;
9	16:45-17:30 【17:15】   &lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
考虑来2-3 次考试。&lt;br /&gt;
闭卷考试，比较正式的那种。在机房里就行。然后拍照留存？&lt;br /&gt;
&lt;br /&gt;
2次考试的方案：&lt;br /&gt;
倒排搞完 考一次&lt;br /&gt;
最后一次 &lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
3次考试的方案：&lt;br /&gt;
最大匹配分词搞完，考一次&lt;br /&gt;
布尔查询搞完 考一次&lt;br /&gt;
最后一次 &lt;br /&gt;
&lt;br /&gt;
上机课9 个作业，实验报告，主要是形式审查，占比比较低。要根据考试的成绩，然后加权得到每一次作业的成绩。&lt;br /&gt;
最后，9 个作业再按照一定比例，得到实验成绩。&lt;br /&gt;
&lt;br /&gt;
&amp;lt;/nowiki&amp;gt;&lt;/div&gt;</summary>
		<author><name>Zhli</name></author>
	</entry>
	<entry>
		<id>http://hlt.suda.edu.cn/index.php?title=Projects&amp;diff=6187</id>
		<title>Projects</title>
		<link rel="alternate" type="text/html" href="http://hlt.suda.edu.cn/index.php?title=Projects&amp;diff=6187"/>
		<updated>2026-03-09T07:39:07Z</updated>

		<summary type="html">&lt;p&gt;Zhli：/* MT(机器翻译) */&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;Suda-HLT主要项目 &lt;br /&gt;
&lt;br /&gt;
== LAGroup（语言分析小组） ==&lt;br /&gt;
&lt;br /&gt;
  作为自然语言处理基础研究，苏州大学自然语言分析技术的目标是精准分析句子的词法和句法信息，以支持各种应用需求。我们的技术主要有几个特点：1）采用目前行业领先的多种机器学习技术，包括传统的基于离散特征的方法和深度学习方法，以提高分析性能，同时兼顾效率；2）基于我们做出的面向多源异构数据融合的一系列工作，充分利用现有的各种人工标注数据，提高模型的分析能；3）采用我们提出的基于局部标注表示的统一框架，允许训练数据只包含局部标注信息，从而充分利用各种弱标注数据，也可以将先验知识转化为弱标注信息，从而对模型解码过程进行直接约束；4）我们不断针对多源网络文本，进行人工标注，不断增加高质量训练数据。&lt;br /&gt;
&lt;br /&gt;
 基于以上技术，我们搭建了一个稳定、高准确率、高效率的[http://hlt-la.suda.edu.cn/ 汉语理解平台]，从而实现技术不断积累和沉淀，目前已经向阿里、科沃斯、狗尾草等公司提供服务。同时，为了支持人工数据标注工作，我们也搭建了一个139X224X234X18/anno-sys 数据标注平台，采用局部标注、严格双人标注、专家审核等形式，我们发现可以最大限度降低数据标注管理者的工作，同时也可以在降低人力成本和提高数据质量之间获得平衡。&lt;br /&gt;
&lt;br /&gt;
* 汉语开放依存树库构建：[http://hlt.suda.edu.cn/index.php/CODT CODT]&lt;br /&gt;
* 词语关系网络构建（目前关注上下位关系）&lt;br /&gt;
&lt;br /&gt;
== KG(知识图谱) ==&lt;br /&gt;
* 情感知识构建&lt;br /&gt;
 * 中文实体情感知识库 [[SentiBridge]]&lt;br /&gt;
 * 电商情感词典[[ECSD]]&lt;br /&gt;
&lt;br /&gt;
* 知识图谱构建&lt;br /&gt;
 * 人物关系标注数据集：IPRE，下载地址=https://github.com/SUDA-HLT/IPRE&lt;br /&gt;
 * 实体关系标注数据集：NYT-H，在NYT远程监督数据基础上，人工对测试集进行标注，可实现准确评价，下载地址=https://github.com/Spico197/NYT-H&lt;br /&gt;
&lt;br /&gt;
== MT(机器翻译) ==&lt;br /&gt;
&lt;br /&gt;
* 名称 mt1.json&lt;/div&gt;</summary>
		<author><name>Zhli</name></author>
	</entry>
	<entry>
		<id>http://hlt.suda.edu.cn/index.php?title=Writing-2025-fall&amp;diff=6186</id>
		<title>Writing-2025-fall</title>
		<link rel="alternate" type="text/html" href="http://hlt.suda.edu.cn/index.php?title=Writing-2025-fall&amp;diff=6186"/>
		<updated>2026-03-09T00:29:48Z</updated>

		<summary type="html">&lt;p&gt;Zhli：/* 考试成绩 */&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;= 专业写作（学硕、博士）	李正华	=&lt;br /&gt;
&lt;br /&gt;
* 学生：2025博士2025硕士	&lt;br /&gt;
* 助教：周月驰&lt;br /&gt;
* 时间：星期三	6-8 14:00-16:40	(从第三周开始上课)  14:45休息5分钟；15:35休息20分钟（实际会休息5分钟）&lt;br /&gt;
* 地点：理工楼153&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
 &amp;lt;nowiki&amp;gt;&lt;br /&gt;
1	08:00-08:45&lt;br /&gt;
2	08:50-09:35&lt;br /&gt;
3	09:55-10:40&lt;br /&gt;
4	10:45-11:30&lt;br /&gt;
5	11:35-12:20&lt;br /&gt;
6	14:00-14:45&lt;br /&gt;
7	14:50-15:35 &lt;br /&gt;
8	15:55-16:40 【15:40第三节课，通常16:25下课】&lt;br /&gt;
9	16:45-17:30&lt;br /&gt;
&amp;lt;/nowiki&amp;gt;&lt;br /&gt;
&lt;br /&gt;
= 计划教学大纲 =&lt;br /&gt;
&lt;br /&gt;
&amp;lt;gallery&amp;gt;&lt;br /&gt;
File:Writing-2025-fall-syllabus.png|&lt;br /&gt;
&amp;lt;/gallery&amp;gt;&lt;br /&gt;
&lt;br /&gt;
= 课程考核 =&lt;br /&gt;
课程考核分为两部分，闭卷考试和课上报告。&lt;br /&gt;
== 闭卷考试 ==&lt;br /&gt;
请大家提前预留时间参与考试！&lt;br /&gt;
&lt;br /&gt;
* 考试时间：12.25 14:00~15:30&lt;br /&gt;
* 考试地点：学号前20人在理工楼635，其余同学在理工楼103&lt;br /&gt;
* 考试内容：&lt;br /&gt;
** 2～3篇论文（课上同学讲的报告）&lt;br /&gt;
** 公众号《专业写作》系列文章（翻转课堂）&lt;br /&gt;
** 课上读过的论文（Transformer，ELMo，BERT，GPT，CLIP，ViT）&lt;br /&gt;
** 约7道题，每题200～300字，用自己的话来讲。&lt;br /&gt;
&lt;br /&gt;
* 考试要求：带两张A4纸，黑笔。诚信考试！&lt;br /&gt;
&lt;br /&gt;
== 课上报告 ==&lt;br /&gt;
未当堂汇报的同学需离线录制 8-12分钟 的视频报告（推荐使用腾讯会议录屏）。&lt;br /&gt;
&lt;br /&gt;
*   报告要求：同当堂汇报。&lt;br /&gt;
*   截止时间：北京时间 2025.12.31 23:59&lt;br /&gt;
*   提交格式：请提交一个 ZIP 压缩包，压缩包需命名为学号-姓名（例如：20254027007-周月驰.zip）。压缩包内文件结构如下：&lt;br /&gt;
    20254027007-周月驰&lt;br /&gt;
    ├── xx.mp4  (视频需 &amp;lt;30MB)&lt;br /&gt;
    ├── xx.pptx (汇报PPT)&lt;br /&gt;
    └── xx.docx (补充文档)&lt;br /&gt;
    (注：不需要提交论文原文了)&lt;br /&gt;
* 提交方式：压缩后发送助教邮箱 20254027007@stu.suda.edu.cn&lt;br /&gt;
&lt;br /&gt;
== 考试成绩 ==&lt;br /&gt;
* 李正华老师 2025 秋《专业写作课》成绩，请在课程主页上查看&lt;br /&gt;
* 如果确实觉得有问题，可以在3 月 9 日 17:00 前给助教发邮件，申请复查；但是如果复查后没有问题，可能要从严批阅，导致降分（5 分）&lt;br /&gt;
* 点击图片放大查看&lt;br /&gt;
&amp;lt;gallery&amp;gt;&lt;br /&gt;
File: Writing-2025-fall-all-scores.png&lt;br /&gt;
&amp;lt;/gallery&amp;gt;&lt;br /&gt;
&lt;br /&gt;
= 上课板书 =&lt;br /&gt;
== 2025.12.16 Lesson 13 ==&lt;br /&gt;
&amp;lt;gallery&amp;gt;&lt;br /&gt;
File: Writing-2025-fall-course13-image1.jpg&lt;br /&gt;
&amp;lt;/gallery&amp;gt;&lt;br /&gt;
&lt;br /&gt;
* 探讨如何写title, abstract, and conclusion.&lt;br /&gt;
* 重读ViT的related work和方法。&lt;br /&gt;
* 舒仁义和李梦华同学讲报告。&lt;br /&gt;
&lt;br /&gt;
== 2025.12.10 Lesson 12 ==&lt;br /&gt;
&amp;lt;gallery&amp;gt;&lt;br /&gt;
File: Writing-2025-fall-course12-image1.jpg&lt;br /&gt;
&amp;lt;/gallery&amp;gt;&lt;br /&gt;
&lt;br /&gt;
* 探讨如何写related work.&lt;br /&gt;
* 重读CLIP的方法，读ViT的摘要和引言。&lt;br /&gt;
* 李传伟和姚昱同学讲报告。&lt;br /&gt;
&lt;br /&gt;
== 2025.12.03 Lesson 11 ==&lt;br /&gt;
&amp;lt;gallery&amp;gt;&lt;br /&gt;
File: Writing-2025-fall-course11-image1.jpg&lt;br /&gt;
&amp;lt;/gallery&amp;gt;&lt;br /&gt;
&lt;br /&gt;
* 探讨如何写introduction.&lt;br /&gt;
* 重读CLIP的引言，发现了很多可以改进的写作上的点。&lt;br /&gt;
* 邓皓文同学讲HS-DCell。&lt;br /&gt;
&lt;br /&gt;
== 2025.11.26 Lesson 10 ==&lt;br /&gt;
&amp;lt;gallery&amp;gt;&lt;br /&gt;
File: Writing-2025-fall-course10-image1.jpg&lt;br /&gt;
&amp;lt;/gallery&amp;gt;&lt;br /&gt;
&lt;br /&gt;
* 探讨如何写experiments部分，分享人生感悟。&lt;br /&gt;
* 带读CLIP的方法部分。&lt;br /&gt;
* 孙家扬同学讲ViT。&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
== 2025.11.19 Lesson 9 ==&lt;br /&gt;
&lt;br /&gt;
* 探讨如何写method部分&lt;br /&gt;
* 带读CLIP的intro和related work&lt;br /&gt;
* 彭基轩、刘奕辰、赵文斌、杨文瑞四位同学讲报告&lt;br /&gt;
&lt;br /&gt;
== 2025.11.12 Lesson 8 ==&lt;br /&gt;
&amp;lt;gallery&amp;gt;&lt;br /&gt;
File:Writing-2025-fall-course8-image2.jpg&lt;br /&gt;
&amp;lt;/gallery&amp;gt;&lt;br /&gt;
&lt;br /&gt;
* 探讨如何做实验&lt;br /&gt;
* 阅读CLIP的abstract和部分intro&lt;br /&gt;
* 彭基轩、刘奕辰、赵文斌三位同学讲报告&lt;br /&gt;
&lt;br /&gt;
== 2025.11.5 Lesson 7 ==&lt;br /&gt;
&amp;lt;gallery&amp;gt;&lt;br /&gt;
File:Writing-2025-fall-course7-image1.jpg&lt;br /&gt;
&amp;lt;/gallery&amp;gt;&lt;br /&gt;
&lt;br /&gt;
* 探讨如何想idea&lt;br /&gt;
* 读完BERT&lt;br /&gt;
* 余田田、梁靖松分别讲FairGNN和有关药物生成的工作&lt;br /&gt;
&lt;br /&gt;
== 2025.10.29 Lesson 6 ==&lt;br /&gt;
&amp;lt;gallery&amp;gt;&lt;br /&gt;
File:Writing-2025-fall-course6-image1.jpg&lt;br /&gt;
&amp;lt;/gallery&amp;gt;&lt;br /&gt;
&lt;br /&gt;
* 探讨如何写论文笔记&lt;br /&gt;
* 重读GPT，带读BERT摘要、引言&lt;br /&gt;
 &amp;lt;nowiki&amp;gt; &lt;br /&gt;
GPT 的 finetune，针对一个具体任务&lt;br /&gt;
只能做分类任务 sentence-level 的任务&lt;br /&gt;
对于问答这样的任务（traversal-style 方式）：question &amp;lt;sep&amp;gt; answer GPT 编码后，最后一个位置的 hidden，经过 MLP，打分。4 个候选 answer（traversal-style)，softmax，最大化正确的 answer 的概率。&lt;br /&gt;
和之后的大一统的 prompt-based 的方法相比，不是一回事。&lt;br /&gt;
&amp;lt;/nowiki&amp;gt;&lt;br /&gt;
* 余田田、陈果、ruitong分别讲FairGNN、CLIP、LLaMA&lt;br /&gt;
&lt;br /&gt;
== 2025.10.22 Lesson 5 ==&lt;br /&gt;
&amp;lt;gallery&amp;gt;&lt;br /&gt;
File:Writing-2025-fall-course5-image1.jpg&lt;br /&gt;
&amp;lt;/gallery&amp;gt;&lt;br /&gt;
&lt;br /&gt;
* 探讨如何选论文、如何读论文&lt;br /&gt;
* 带读GPT技术报告&lt;br /&gt;
* 崔青青、许欣芸、吕喆分别讲图、AdaLora、DPO&lt;br /&gt;
&lt;br /&gt;
== 2025.10.15 Lesson 4 ==&lt;br /&gt;
&amp;lt;gallery&amp;gt;&lt;br /&gt;
File:Writing-2025-fall-course4-image1.jpg&lt;br /&gt;
&amp;lt;/gallery&amp;gt;&lt;br /&gt;
&lt;br /&gt;
* 探讨什么是一个完整的科研经历&lt;br /&gt;
* 带读elmo方法部分&lt;br /&gt;
* yanhui 讲eswa有关数据集的工作，罗小城和崔青青分别讲softthinking和正则图&lt;br /&gt;
&lt;br /&gt;
== 2025.10.11 Lesson 3 ==&lt;br /&gt;
&amp;lt;gallery&amp;gt;&lt;br /&gt;
File:Writing-2025-fall-course3-image1.jpg&lt;br /&gt;
&amp;lt;/gallery&amp;gt;&lt;br /&gt;
&lt;br /&gt;
* 探讨如何做报告&lt;br /&gt;
* 带读elmo摘要、引言、相关工作&lt;br /&gt;
* shilin 和 ziheng 讲报告，分别介绍copyne和大小模型协同的csc&lt;br /&gt;
&lt;br /&gt;
== 2025.09.24 Lesson 2 ==&lt;br /&gt;
&amp;lt;gallery&amp;gt;&lt;br /&gt;
File:Writing-2025-fall-course1-image2.jpeg&lt;br /&gt;
&amp;lt;/gallery&amp;gt;&lt;br /&gt;
&lt;br /&gt;
* 探讨如何听报告&lt;br /&gt;
* 带读Attention is all you need论文的剩余部分&lt;br /&gt;
* yuechi 和 ziyan 讲报告，分别介绍kv cache和大模型句法分析&lt;br /&gt;
&lt;br /&gt;
== 2025.09.17 Lesson 1 ==&lt;br /&gt;
&amp;lt;gallery&amp;gt;&lt;br /&gt;
File:Writing-2025-fall-course1-image1 new.jpeg&lt;br /&gt;
&amp;lt;/gallery&amp;gt;&lt;br /&gt;
&lt;br /&gt;
* 课程介绍&lt;br /&gt;
* 探讨什么是科研&lt;br /&gt;
* 带读Attention is all you need论文的摘要和引言&lt;br /&gt;
* houquan：讲解CSC工作&lt;br /&gt;
&lt;br /&gt;
== 2025秋：同学们期末的课程建议 ==&lt;br /&gt;
* 本学期总结：&lt;br /&gt;
** 系列小文章特别好，平生所学。&lt;br /&gt;
** 示范性读论文很好，下学期尝试写出来。&lt;br /&gt;
** 同学作报告一般，尤其提问环节。&lt;br /&gt;
** 如何示范性写论文？&lt;/div&gt;</summary>
		<author><name>Zhli</name></author>
	</entry>
	<entry>
		<id>http://hlt.suda.edu.cn/index.php?title=Writing-2025-fall&amp;diff=6185</id>
		<title>Writing-2025-fall</title>
		<link rel="alternate" type="text/html" href="http://hlt.suda.edu.cn/index.php?title=Writing-2025-fall&amp;diff=6185"/>
		<updated>2026-03-09T00:23:19Z</updated>

		<summary type="html">&lt;p&gt;Zhli：/* 考试成绩 */&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;= 专业写作（学硕、博士）	李正华	=&lt;br /&gt;
&lt;br /&gt;
* 学生：2025博士2025硕士	&lt;br /&gt;
* 助教：周月驰&lt;br /&gt;
* 时间：星期三	6-8 14:00-16:40	(从第三周开始上课)  14:45休息5分钟；15:35休息20分钟（实际会休息5分钟）&lt;br /&gt;
* 地点：理工楼153&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
 &amp;lt;nowiki&amp;gt;&lt;br /&gt;
1	08:00-08:45&lt;br /&gt;
2	08:50-09:35&lt;br /&gt;
3	09:55-10:40&lt;br /&gt;
4	10:45-11:30&lt;br /&gt;
5	11:35-12:20&lt;br /&gt;
6	14:00-14:45&lt;br /&gt;
7	14:50-15:35 &lt;br /&gt;
8	15:55-16:40 【15:40第三节课，通常16:25下课】&lt;br /&gt;
9	16:45-17:30&lt;br /&gt;
&amp;lt;/nowiki&amp;gt;&lt;br /&gt;
&lt;br /&gt;
= 计划教学大纲 =&lt;br /&gt;
&lt;br /&gt;
&amp;lt;gallery&amp;gt;&lt;br /&gt;
File:Writing-2025-fall-syllabus.png|&lt;br /&gt;
&amp;lt;/gallery&amp;gt;&lt;br /&gt;
&lt;br /&gt;
= 课程考核 =&lt;br /&gt;
课程考核分为两部分，闭卷考试和课上报告。&lt;br /&gt;
== 闭卷考试 ==&lt;br /&gt;
请大家提前预留时间参与考试！&lt;br /&gt;
&lt;br /&gt;
* 考试时间：12.25 14:00~15:30&lt;br /&gt;
* 考试地点：学号前20人在理工楼635，其余同学在理工楼103&lt;br /&gt;
* 考试内容：&lt;br /&gt;
** 2～3篇论文（课上同学讲的报告）&lt;br /&gt;
** 公众号《专业写作》系列文章（翻转课堂）&lt;br /&gt;
** 课上读过的论文（Transformer，ELMo，BERT，GPT，CLIP，ViT）&lt;br /&gt;
** 约7道题，每题200～300字，用自己的话来讲。&lt;br /&gt;
&lt;br /&gt;
* 考试要求：带两张A4纸，黑笔。诚信考试！&lt;br /&gt;
&lt;br /&gt;
== 课上报告 ==&lt;br /&gt;
未当堂汇报的同学需离线录制 8-12分钟 的视频报告（推荐使用腾讯会议录屏）。&lt;br /&gt;
&lt;br /&gt;
*   报告要求：同当堂汇报。&lt;br /&gt;
*   截止时间：北京时间 2025.12.31 23:59&lt;br /&gt;
*   提交格式：请提交一个 ZIP 压缩包，压缩包需命名为学号-姓名（例如：20254027007-周月驰.zip）。压缩包内文件结构如下：&lt;br /&gt;
    20254027007-周月驰&lt;br /&gt;
    ├── xx.mp4  (视频需 &amp;lt;30MB)&lt;br /&gt;
    ├── xx.pptx (汇报PPT)&lt;br /&gt;
    └── xx.docx (补充文档)&lt;br /&gt;
    (注：不需要提交论文原文了)&lt;br /&gt;
* 提交方式：压缩后发送助教邮箱 20254027007@stu.suda.edu.cn&lt;br /&gt;
&lt;br /&gt;
== 考试成绩 ==&lt;br /&gt;
* 李正华老师 2025 秋《专业写作课》成绩，请在课程主页上查看&lt;br /&gt;
* 如果确实觉得有问题，可以给助教发邮件，申请复查；但是如果复查后没有问题，可能要从严批阅，导致降分（5 分）&lt;br /&gt;
* 点击图片放大查看&lt;br /&gt;
&amp;lt;gallery&amp;gt;&lt;br /&gt;
File: Writing-2025-fall-all-scores.png&lt;br /&gt;
&amp;lt;/gallery&amp;gt;&lt;br /&gt;
&lt;br /&gt;
= 上课板书 =&lt;br /&gt;
== 2025.12.16 Lesson 13 ==&lt;br /&gt;
&amp;lt;gallery&amp;gt;&lt;br /&gt;
File: Writing-2025-fall-course13-image1.jpg&lt;br /&gt;
&amp;lt;/gallery&amp;gt;&lt;br /&gt;
&lt;br /&gt;
* 探讨如何写title, abstract, and conclusion.&lt;br /&gt;
* 重读ViT的related work和方法。&lt;br /&gt;
* 舒仁义和李梦华同学讲报告。&lt;br /&gt;
&lt;br /&gt;
== 2025.12.10 Lesson 12 ==&lt;br /&gt;
&amp;lt;gallery&amp;gt;&lt;br /&gt;
File: Writing-2025-fall-course12-image1.jpg&lt;br /&gt;
&amp;lt;/gallery&amp;gt;&lt;br /&gt;
&lt;br /&gt;
* 探讨如何写related work.&lt;br /&gt;
* 重读CLIP的方法，读ViT的摘要和引言。&lt;br /&gt;
* 李传伟和姚昱同学讲报告。&lt;br /&gt;
&lt;br /&gt;
== 2025.12.03 Lesson 11 ==&lt;br /&gt;
&amp;lt;gallery&amp;gt;&lt;br /&gt;
File: Writing-2025-fall-course11-image1.jpg&lt;br /&gt;
&amp;lt;/gallery&amp;gt;&lt;br /&gt;
&lt;br /&gt;
* 探讨如何写introduction.&lt;br /&gt;
* 重读CLIP的引言，发现了很多可以改进的写作上的点。&lt;br /&gt;
* 邓皓文同学讲HS-DCell。&lt;br /&gt;
&lt;br /&gt;
== 2025.11.26 Lesson 10 ==&lt;br /&gt;
&amp;lt;gallery&amp;gt;&lt;br /&gt;
File: Writing-2025-fall-course10-image1.jpg&lt;br /&gt;
&amp;lt;/gallery&amp;gt;&lt;br /&gt;
&lt;br /&gt;
* 探讨如何写experiments部分，分享人生感悟。&lt;br /&gt;
* 带读CLIP的方法部分。&lt;br /&gt;
* 孙家扬同学讲ViT。&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
== 2025.11.19 Lesson 9 ==&lt;br /&gt;
&lt;br /&gt;
* 探讨如何写method部分&lt;br /&gt;
* 带读CLIP的intro和related work&lt;br /&gt;
* 彭基轩、刘奕辰、赵文斌、杨文瑞四位同学讲报告&lt;br /&gt;
&lt;br /&gt;
== 2025.11.12 Lesson 8 ==&lt;br /&gt;
&amp;lt;gallery&amp;gt;&lt;br /&gt;
File:Writing-2025-fall-course8-image2.jpg&lt;br /&gt;
&amp;lt;/gallery&amp;gt;&lt;br /&gt;
&lt;br /&gt;
* 探讨如何做实验&lt;br /&gt;
* 阅读CLIP的abstract和部分intro&lt;br /&gt;
* 彭基轩、刘奕辰、赵文斌三位同学讲报告&lt;br /&gt;
&lt;br /&gt;
== 2025.11.5 Lesson 7 ==&lt;br /&gt;
&amp;lt;gallery&amp;gt;&lt;br /&gt;
File:Writing-2025-fall-course7-image1.jpg&lt;br /&gt;
&amp;lt;/gallery&amp;gt;&lt;br /&gt;
&lt;br /&gt;
* 探讨如何想idea&lt;br /&gt;
* 读完BERT&lt;br /&gt;
* 余田田、梁靖松分别讲FairGNN和有关药物生成的工作&lt;br /&gt;
&lt;br /&gt;
== 2025.10.29 Lesson 6 ==&lt;br /&gt;
&amp;lt;gallery&amp;gt;&lt;br /&gt;
File:Writing-2025-fall-course6-image1.jpg&lt;br /&gt;
&amp;lt;/gallery&amp;gt;&lt;br /&gt;
&lt;br /&gt;
* 探讨如何写论文笔记&lt;br /&gt;
* 重读GPT，带读BERT摘要、引言&lt;br /&gt;
 &amp;lt;nowiki&amp;gt; &lt;br /&gt;
GPT 的 finetune，针对一个具体任务&lt;br /&gt;
只能做分类任务 sentence-level 的任务&lt;br /&gt;
对于问答这样的任务（traversal-style 方式）：question &amp;lt;sep&amp;gt; answer GPT 编码后，最后一个位置的 hidden，经过 MLP，打分。4 个候选 answer（traversal-style)，softmax，最大化正确的 answer 的概率。&lt;br /&gt;
和之后的大一统的 prompt-based 的方法相比，不是一回事。&lt;br /&gt;
&amp;lt;/nowiki&amp;gt;&lt;br /&gt;
* 余田田、陈果、ruitong分别讲FairGNN、CLIP、LLaMA&lt;br /&gt;
&lt;br /&gt;
== 2025.10.22 Lesson 5 ==&lt;br /&gt;
&amp;lt;gallery&amp;gt;&lt;br /&gt;
File:Writing-2025-fall-course5-image1.jpg&lt;br /&gt;
&amp;lt;/gallery&amp;gt;&lt;br /&gt;
&lt;br /&gt;
* 探讨如何选论文、如何读论文&lt;br /&gt;
* 带读GPT技术报告&lt;br /&gt;
* 崔青青、许欣芸、吕喆分别讲图、AdaLora、DPO&lt;br /&gt;
&lt;br /&gt;
== 2025.10.15 Lesson 4 ==&lt;br /&gt;
&amp;lt;gallery&amp;gt;&lt;br /&gt;
File:Writing-2025-fall-course4-image1.jpg&lt;br /&gt;
&amp;lt;/gallery&amp;gt;&lt;br /&gt;
&lt;br /&gt;
* 探讨什么是一个完整的科研经历&lt;br /&gt;
* 带读elmo方法部分&lt;br /&gt;
* yanhui 讲eswa有关数据集的工作，罗小城和崔青青分别讲softthinking和正则图&lt;br /&gt;
&lt;br /&gt;
== 2025.10.11 Lesson 3 ==&lt;br /&gt;
&amp;lt;gallery&amp;gt;&lt;br /&gt;
File:Writing-2025-fall-course3-image1.jpg&lt;br /&gt;
&amp;lt;/gallery&amp;gt;&lt;br /&gt;
&lt;br /&gt;
* 探讨如何做报告&lt;br /&gt;
* 带读elmo摘要、引言、相关工作&lt;br /&gt;
* shilin 和 ziheng 讲报告，分别介绍copyne和大小模型协同的csc&lt;br /&gt;
&lt;br /&gt;
== 2025.09.24 Lesson 2 ==&lt;br /&gt;
&amp;lt;gallery&amp;gt;&lt;br /&gt;
File:Writing-2025-fall-course1-image2.jpeg&lt;br /&gt;
&amp;lt;/gallery&amp;gt;&lt;br /&gt;
&lt;br /&gt;
* 探讨如何听报告&lt;br /&gt;
* 带读Attention is all you need论文的剩余部分&lt;br /&gt;
* yuechi 和 ziyan 讲报告，分别介绍kv cache和大模型句法分析&lt;br /&gt;
&lt;br /&gt;
== 2025.09.17 Lesson 1 ==&lt;br /&gt;
&amp;lt;gallery&amp;gt;&lt;br /&gt;
File:Writing-2025-fall-course1-image1 new.jpeg&lt;br /&gt;
&amp;lt;/gallery&amp;gt;&lt;br /&gt;
&lt;br /&gt;
* 课程介绍&lt;br /&gt;
* 探讨什么是科研&lt;br /&gt;
* 带读Attention is all you need论文的摘要和引言&lt;br /&gt;
* houquan：讲解CSC工作&lt;br /&gt;
&lt;br /&gt;
== 2025秋：同学们期末的课程建议 ==&lt;br /&gt;
* 本学期总结：&lt;br /&gt;
** 系列小文章特别好，平生所学。&lt;br /&gt;
** 示范性读论文很好，下学期尝试写出来。&lt;br /&gt;
** 同学作报告一般，尤其提问环节。&lt;br /&gt;
** 如何示范性写论文？&lt;/div&gt;</summary>
		<author><name>Zhli</name></author>
	</entry>
	<entry>
		<id>http://hlt.suda.edu.cn/index.php?title=Writing-2025-fall&amp;diff=6184</id>
		<title>Writing-2025-fall</title>
		<link rel="alternate" type="text/html" href="http://hlt.suda.edu.cn/index.php?title=Writing-2025-fall&amp;diff=6184"/>
		<updated>2026-03-09T00:22:43Z</updated>

		<summary type="html">&lt;p&gt;Zhli：/* 考试成绩 */&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;= 专业写作（学硕、博士）	李正华	=&lt;br /&gt;
&lt;br /&gt;
* 学生：2025博士2025硕士	&lt;br /&gt;
* 助教：周月驰&lt;br /&gt;
* 时间：星期三	6-8 14:00-16:40	(从第三周开始上课)  14:45休息5分钟；15:35休息20分钟（实际会休息5分钟）&lt;br /&gt;
* 地点：理工楼153&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
 &amp;lt;nowiki&amp;gt;&lt;br /&gt;
1	08:00-08:45&lt;br /&gt;
2	08:50-09:35&lt;br /&gt;
3	09:55-10:40&lt;br /&gt;
4	10:45-11:30&lt;br /&gt;
5	11:35-12:20&lt;br /&gt;
6	14:00-14:45&lt;br /&gt;
7	14:50-15:35 &lt;br /&gt;
8	15:55-16:40 【15:40第三节课，通常16:25下课】&lt;br /&gt;
9	16:45-17:30&lt;br /&gt;
&amp;lt;/nowiki&amp;gt;&lt;br /&gt;
&lt;br /&gt;
= 计划教学大纲 =&lt;br /&gt;
&lt;br /&gt;
&amp;lt;gallery&amp;gt;&lt;br /&gt;
File:Writing-2025-fall-syllabus.png|&lt;br /&gt;
&amp;lt;/gallery&amp;gt;&lt;br /&gt;
&lt;br /&gt;
= 课程考核 =&lt;br /&gt;
课程考核分为两部分，闭卷考试和课上报告。&lt;br /&gt;
== 闭卷考试 ==&lt;br /&gt;
请大家提前预留时间参与考试！&lt;br /&gt;
&lt;br /&gt;
* 考试时间：12.25 14:00~15:30&lt;br /&gt;
* 考试地点：学号前20人在理工楼635，其余同学在理工楼103&lt;br /&gt;
* 考试内容：&lt;br /&gt;
** 2～3篇论文（课上同学讲的报告）&lt;br /&gt;
** 公众号《专业写作》系列文章（翻转课堂）&lt;br /&gt;
** 课上读过的论文（Transformer，ELMo，BERT，GPT，CLIP，ViT）&lt;br /&gt;
** 约7道题，每题200～300字，用自己的话来讲。&lt;br /&gt;
&lt;br /&gt;
* 考试要求：带两张A4纸，黑笔。诚信考试！&lt;br /&gt;
&lt;br /&gt;
== 课上报告 ==&lt;br /&gt;
未当堂汇报的同学需离线录制 8-12分钟 的视频报告（推荐使用腾讯会议录屏）。&lt;br /&gt;
&lt;br /&gt;
*   报告要求：同当堂汇报。&lt;br /&gt;
*   截止时间：北京时间 2025.12.31 23:59&lt;br /&gt;
*   提交格式：请提交一个 ZIP 压缩包，压缩包需命名为学号-姓名（例如：20254027007-周月驰.zip）。压缩包内文件结构如下：&lt;br /&gt;
    20254027007-周月驰&lt;br /&gt;
    ├── xx.mp4  (视频需 &amp;lt;30MB)&lt;br /&gt;
    ├── xx.pptx (汇报PPT)&lt;br /&gt;
    └── xx.docx (补充文档)&lt;br /&gt;
    (注：不需要提交论文原文了)&lt;br /&gt;
* 提交方式：压缩后发送助教邮箱 20254027007@stu.suda.edu.cn&lt;br /&gt;
&lt;br /&gt;
== 考试成绩 ==&lt;br /&gt;
* 点击图片放大查看&lt;br /&gt;
* 李正华老师 2025 秋《专业写作课》成绩公示&lt;br /&gt;
* 如果确实觉得有问题，可以给助教发邮件，申请复查；但是如果复查后没有问题，可能要从严批阅，导致降分（5 分）&lt;br /&gt;
&lt;br /&gt;
&amp;lt;gallery&amp;gt;&lt;br /&gt;
File: Writing-2025-fall-all-scores.png&lt;br /&gt;
&amp;lt;/gallery&amp;gt;&lt;br /&gt;
&lt;br /&gt;
= 上课板书 =&lt;br /&gt;
== 2025.12.16 Lesson 13 ==&lt;br /&gt;
&amp;lt;gallery&amp;gt;&lt;br /&gt;
File: Writing-2025-fall-course13-image1.jpg&lt;br /&gt;
&amp;lt;/gallery&amp;gt;&lt;br /&gt;
&lt;br /&gt;
* 探讨如何写title, abstract, and conclusion.&lt;br /&gt;
* 重读ViT的related work和方法。&lt;br /&gt;
* 舒仁义和李梦华同学讲报告。&lt;br /&gt;
&lt;br /&gt;
== 2025.12.10 Lesson 12 ==&lt;br /&gt;
&amp;lt;gallery&amp;gt;&lt;br /&gt;
File: Writing-2025-fall-course12-image1.jpg&lt;br /&gt;
&amp;lt;/gallery&amp;gt;&lt;br /&gt;
&lt;br /&gt;
* 探讨如何写related work.&lt;br /&gt;
* 重读CLIP的方法，读ViT的摘要和引言。&lt;br /&gt;
* 李传伟和姚昱同学讲报告。&lt;br /&gt;
&lt;br /&gt;
== 2025.12.03 Lesson 11 ==&lt;br /&gt;
&amp;lt;gallery&amp;gt;&lt;br /&gt;
File: Writing-2025-fall-course11-image1.jpg&lt;br /&gt;
&amp;lt;/gallery&amp;gt;&lt;br /&gt;
&lt;br /&gt;
* 探讨如何写introduction.&lt;br /&gt;
* 重读CLIP的引言，发现了很多可以改进的写作上的点。&lt;br /&gt;
* 邓皓文同学讲HS-DCell。&lt;br /&gt;
&lt;br /&gt;
== 2025.11.26 Lesson 10 ==&lt;br /&gt;
&amp;lt;gallery&amp;gt;&lt;br /&gt;
File: Writing-2025-fall-course10-image1.jpg&lt;br /&gt;
&amp;lt;/gallery&amp;gt;&lt;br /&gt;
&lt;br /&gt;
* 探讨如何写experiments部分，分享人生感悟。&lt;br /&gt;
* 带读CLIP的方法部分。&lt;br /&gt;
* 孙家扬同学讲ViT。&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
== 2025.11.19 Lesson 9 ==&lt;br /&gt;
&lt;br /&gt;
* 探讨如何写method部分&lt;br /&gt;
* 带读CLIP的intro和related work&lt;br /&gt;
* 彭基轩、刘奕辰、赵文斌、杨文瑞四位同学讲报告&lt;br /&gt;
&lt;br /&gt;
== 2025.11.12 Lesson 8 ==&lt;br /&gt;
&amp;lt;gallery&amp;gt;&lt;br /&gt;
File:Writing-2025-fall-course8-image2.jpg&lt;br /&gt;
&amp;lt;/gallery&amp;gt;&lt;br /&gt;
&lt;br /&gt;
* 探讨如何做实验&lt;br /&gt;
* 阅读CLIP的abstract和部分intro&lt;br /&gt;
* 彭基轩、刘奕辰、赵文斌三位同学讲报告&lt;br /&gt;
&lt;br /&gt;
== 2025.11.5 Lesson 7 ==&lt;br /&gt;
&amp;lt;gallery&amp;gt;&lt;br /&gt;
File:Writing-2025-fall-course7-image1.jpg&lt;br /&gt;
&amp;lt;/gallery&amp;gt;&lt;br /&gt;
&lt;br /&gt;
* 探讨如何想idea&lt;br /&gt;
* 读完BERT&lt;br /&gt;
* 余田田、梁靖松分别讲FairGNN和有关药物生成的工作&lt;br /&gt;
&lt;br /&gt;
== 2025.10.29 Lesson 6 ==&lt;br /&gt;
&amp;lt;gallery&amp;gt;&lt;br /&gt;
File:Writing-2025-fall-course6-image1.jpg&lt;br /&gt;
&amp;lt;/gallery&amp;gt;&lt;br /&gt;
&lt;br /&gt;
* 探讨如何写论文笔记&lt;br /&gt;
* 重读GPT，带读BERT摘要、引言&lt;br /&gt;
 &amp;lt;nowiki&amp;gt; &lt;br /&gt;
GPT 的 finetune，针对一个具体任务&lt;br /&gt;
只能做分类任务 sentence-level 的任务&lt;br /&gt;
对于问答这样的任务（traversal-style 方式）：question &amp;lt;sep&amp;gt; answer GPT 编码后，最后一个位置的 hidden，经过 MLP，打分。4 个候选 answer（traversal-style)，softmax，最大化正确的 answer 的概率。&lt;br /&gt;
和之后的大一统的 prompt-based 的方法相比，不是一回事。&lt;br /&gt;
&amp;lt;/nowiki&amp;gt;&lt;br /&gt;
* 余田田、陈果、ruitong分别讲FairGNN、CLIP、LLaMA&lt;br /&gt;
&lt;br /&gt;
== 2025.10.22 Lesson 5 ==&lt;br /&gt;
&amp;lt;gallery&amp;gt;&lt;br /&gt;
File:Writing-2025-fall-course5-image1.jpg&lt;br /&gt;
&amp;lt;/gallery&amp;gt;&lt;br /&gt;
&lt;br /&gt;
* 探讨如何选论文、如何读论文&lt;br /&gt;
* 带读GPT技术报告&lt;br /&gt;
* 崔青青、许欣芸、吕喆分别讲图、AdaLora、DPO&lt;br /&gt;
&lt;br /&gt;
== 2025.10.15 Lesson 4 ==&lt;br /&gt;
&amp;lt;gallery&amp;gt;&lt;br /&gt;
File:Writing-2025-fall-course4-image1.jpg&lt;br /&gt;
&amp;lt;/gallery&amp;gt;&lt;br /&gt;
&lt;br /&gt;
* 探讨什么是一个完整的科研经历&lt;br /&gt;
* 带读elmo方法部分&lt;br /&gt;
* yanhui 讲eswa有关数据集的工作，罗小城和崔青青分别讲softthinking和正则图&lt;br /&gt;
&lt;br /&gt;
== 2025.10.11 Lesson 3 ==&lt;br /&gt;
&amp;lt;gallery&amp;gt;&lt;br /&gt;
File:Writing-2025-fall-course3-image1.jpg&lt;br /&gt;
&amp;lt;/gallery&amp;gt;&lt;br /&gt;
&lt;br /&gt;
* 探讨如何做报告&lt;br /&gt;
* 带读elmo摘要、引言、相关工作&lt;br /&gt;
* shilin 和 ziheng 讲报告，分别介绍copyne和大小模型协同的csc&lt;br /&gt;
&lt;br /&gt;
== 2025.09.24 Lesson 2 ==&lt;br /&gt;
&amp;lt;gallery&amp;gt;&lt;br /&gt;
File:Writing-2025-fall-course1-image2.jpeg&lt;br /&gt;
&amp;lt;/gallery&amp;gt;&lt;br /&gt;
&lt;br /&gt;
* 探讨如何听报告&lt;br /&gt;
* 带读Attention is all you need论文的剩余部分&lt;br /&gt;
* yuechi 和 ziyan 讲报告，分别介绍kv cache和大模型句法分析&lt;br /&gt;
&lt;br /&gt;
== 2025.09.17 Lesson 1 ==&lt;br /&gt;
&amp;lt;gallery&amp;gt;&lt;br /&gt;
File:Writing-2025-fall-course1-image1 new.jpeg&lt;br /&gt;
&amp;lt;/gallery&amp;gt;&lt;br /&gt;
&lt;br /&gt;
* 课程介绍&lt;br /&gt;
* 探讨什么是科研&lt;br /&gt;
* 带读Attention is all you need论文的摘要和引言&lt;br /&gt;
* houquan：讲解CSC工作&lt;br /&gt;
&lt;br /&gt;
== 2025秋：同学们期末的课程建议 ==&lt;br /&gt;
* 本学期总结：&lt;br /&gt;
** 系列小文章特别好，平生所学。&lt;br /&gt;
** 示范性读论文很好，下学期尝试写出来。&lt;br /&gt;
** 同学作报告一般，尤其提问环节。&lt;br /&gt;
** 如何示范性写论文？&lt;/div&gt;</summary>
		<author><name>Zhli</name></author>
	</entry>
	<entry>
		<id>http://hlt.suda.edu.cn/index.php?title=Ir-2026-spring&amp;diff=6179</id>
		<title>Ir-2026-spring</title>
		<link rel="alternate" type="text/html" href="http://hlt.suda.edu.cn/index.php?title=Ir-2026-spring&amp;diff=6179"/>
		<updated>2026-03-06T01:06:38Z</updated>

		<summary type="html">&lt;p&gt;Zhli：/* 信息检索综合实践 */&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;&lt;br /&gt;
&lt;br /&gt;
= 信息检索综合实践 =&lt;br /&gt;
&lt;br /&gt;
李正华&lt;br /&gt;
&lt;br /&gt;
* 学生：计23计科1班	 	 	 &lt;br /&gt;
* 助教：吕喆、梅睿桐  &lt;br /&gt;
* QQ群: xx&lt;br /&gt;
* 时间：周四 6-9 节课 1-17 周&lt;br /&gt;
* 地点：理工楼238&lt;br /&gt;
&lt;br /&gt;
== 上课基本要求 ==&lt;br /&gt;
* 不能做的事情：打游戏、看课程无关视频、刷网页&lt;br /&gt;
* 认真读作业要求，按时交作业。csteaching&lt;br /&gt;
* 不能抄袭别人或网上的，自己做；不要把自己的作业给别人&lt;br /&gt;
&lt;br /&gt;
== 课程建议 ==&lt;br /&gt;
* 每个作业，截止时间后，把成绩发给大家，并用ppt给大家讲一下批作业发现的问题，题目分析&lt;br /&gt;
* 上课期间：请大家积极提问。遇到大家都无法理解的公共问题，我会补充讲解&lt;br /&gt;
* 非上课时间提问&lt;br /&gt;
** 建议同学们在群里提问（包括但不限于代码的bug、不理解算法、作业资源和提交等），由其他同学帮助解答；&lt;br /&gt;
** 群里的提问如果其他同学也无法回答，可以私信助教（仅限xxx，如周四晚上7点到9点，吕喆增加）；&lt;br /&gt;
&lt;br /&gt;
== 计算成绩的规则和说明（待定） ==&lt;br /&gt;
* &amp;lt;font color='red&amp;gt;核心要求：掌握最基本的概念、方法、算法&amp;lt;/font&amp;gt;&lt;br /&gt;
* 实验作业：70-80分&lt;br /&gt;
** 一系列作业，每个作业10-20分（形式检查为辅、考核为主）&lt;br /&gt;
** 必须按照规定时间，按照规定格式要求，将实验报告+源代码，提交到csteaching&lt;br /&gt;
&lt;br /&gt;
* 期末面对面小测验：10分&lt;br /&gt;
** 考察课程相关的基础知识，看看作业是否是自己做的&lt;br /&gt;
&lt;br /&gt;
* 平时成绩：10-20分&lt;br /&gt;
** 不能迟到、早退，特殊情况必须请假，并带辅导员签字的假条；&lt;br /&gt;
** 点名时，如果发现名单上没有你的名字，及时提出&lt;br /&gt;
&lt;br /&gt;
== 提交作业说明 ==&lt;br /&gt;
* 网址：[http://csteaching.suda.edu.cn csteaching]&lt;br /&gt;
* &amp;lt;font color='red&amp;gt;作业迟交了则最终成绩会按一定比例缩减&amp;lt;/font&amp;gt;&lt;br /&gt;
* 包含两部分&lt;br /&gt;
** 实验报告（pdf文件，&amp;lt;font color='red&amp;gt;请把word转为pdf&amp;lt;/font&amp;gt;）&lt;br /&gt;
*** 请按照实验模版[[:文件:ir-2022-spring-report.doc]]，认真填写个人信息、实验题目、实验内容等&lt;br /&gt;
*** 不要大段粘贴代码，最多可以粘贴核心的一小段代码，&amp;lt;font color='red&amp;gt;粘贴大段代码会扣分&amp;lt;/font&amp;gt;&lt;br /&gt;
*** 写清楚自己的解决思路，尤其是遇到的难点和如何解决&lt;br /&gt;
*** 建议可以画流程图或者写伪代码。&lt;br /&gt;
*** 解决思路的流程图中是以文字为主还是以代码为主？报告中不要直接放代码。文字为主，不在于写得长，而在于写清楚，表明你确实做了、想了。&lt;br /&gt;
*** 问：流程图可以改成自然语言描述或者是伪代码吗？答：流程图也可以画的很high-level的。大家自由发挥。也可以画到纸上然后拍照截图。模块化思维 大问题分解小问题 。&lt;br /&gt;
*** &amp;lt;font color='red&amp;gt;将程序运行结果截图，没有运行结果会扣分&amp;lt;/font&amp;gt;，中间的输出结果/文件可以截图一部分&lt;br /&gt;
** 附件（.zip压缩包）&lt;br /&gt;
*** 源代码：代码不要都团在一起，请用空行对代码进行分隔，并简单注释代码块的功能&lt;br /&gt;
*** readme.txt文件：说明如何运行你的程序，需要什么环境，如windows或linux，python版本如python3.5&lt;br /&gt;
* 提交前自我检查&lt;br /&gt;
** 是否有包含readme.txt文件解释如何编译执行你的程序。 &amp;lt;font color='red&amp;gt;如没有该文件，将减分。&amp;lt;/font&amp;gt;&lt;br /&gt;
** 是否认真完成实验报告&lt;br /&gt;
** 是否可以按照readme.txt正确编译和运行程序&lt;br /&gt;
** 是否包含别人的代码，&amp;lt;font color='red&amp;gt;抄袭和被抄袭的都是0分&amp;lt;/font&amp;gt;&lt;br /&gt;
** 期末可能会用软件做自动抄袭检查&lt;br /&gt;
** 等这学期最后几周，我们可能统一对所有的作业做自动查重，到时候也会查出一些问题。 &amp;lt;font color='red&amp;gt;请大家一定要自己做，编程能力差一点，就做得简单一点，能力强，就做得好一点。但是一定要自己做。 &amp;lt;/font&amp;gt;&lt;br /&gt;
* 提交作业命名规则&lt;br /&gt;
** 实验报告（姓名学号.pdf）&lt;br /&gt;
** 附件（姓名学号.zip）&lt;br /&gt;
&lt;br /&gt;
== 实验报告word模板 ==&lt;br /&gt;
* [[:文件:ir-2022-spring-report.doc]]&lt;br /&gt;
&lt;br /&gt;
== 具体课程（含作业） == &lt;br /&gt;
&lt;br /&gt;
{| class=&amp;quot;wikitable&amp;quot;&lt;br /&gt;
! style=&amp;quot;text-align:left;&amp;quot;| 作业&lt;br /&gt;
! 成绩比例&lt;br /&gt;
! 评分要点&lt;br /&gt;
|-&lt;br /&gt;
| 分字&lt;br /&gt;
| 5%&lt;br /&gt;
| 按字节读取并判断高位&lt;br /&gt;
|-&lt;br /&gt;
| 单词计数&lt;br /&gt;
| 5%&lt;br /&gt;
| 无&lt;br /&gt;
|-&lt;br /&gt;
| 最大匹配分词&lt;br /&gt;
| 10%&lt;br /&gt;
| 算法和评价正确实现&lt;br /&gt;
|-&lt;br /&gt;
| 网页正文抽取&lt;br /&gt;
| 10%&lt;br /&gt;
| 按要求完成两个任务&lt;br /&gt;
|-&lt;br /&gt;
| 倒排索引&lt;br /&gt;
| 10%&lt;br /&gt;
| 高效创建倒排文件&lt;br /&gt;
|-&lt;br /&gt;
| 布尔查询&lt;br /&gt;
| 10%&lt;br /&gt;
| inter和union的复杂度为O(n)，复杂查询用堆栈判断优先级&lt;br /&gt;
|-&lt;br /&gt;
| 网页相关性排序&lt;br /&gt;
| 15%&lt;br /&gt;
| 基于向量空间模型VSM、tf-idf权重&lt;br /&gt;
|-&lt;br /&gt;
| 爬虫和某机构主页检索系统&lt;br /&gt;
| 15%&lt;br /&gt;
| 实现爬虫，系统架构设计良好，说明文档详细，UI完整&lt;br /&gt;
|-&lt;br /&gt;
| &amp;lt;font color='black&amp;gt;基于深度学习的检索系统&amp;lt;/font&amp;gt;&lt;br /&gt;
| 20%【比例低一点】&lt;br /&gt;
| Contriever：重现部分实验结果；自己实现评价指标；在上一个作业中的爬虫和检索系统的基础上，自己设计、标注 10 个 query，对比向量空间模型VSM 和Contriever 的效果，给出评价结果。建议：VSM 给 100 个结果，然后 Contriever 重排序，然后人工标注，具体如何标注更合理，自己考虑好。&lt;br /&gt;
|-&lt;br /&gt;
|}&lt;br /&gt;
&lt;br /&gt;
== 信息检索课程介绍 ==&lt;br /&gt;
* [http://hlt.suda.edu.cn/~zhli/teach/ir-2019-spring/ir-introduction-v0.4.pdf PPT下载]&lt;br /&gt;
* 2022春视频和图片：&lt;br /&gt;
** 低画质：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/course-intro-low-quality.mp4 课程介绍]&lt;br /&gt;
** 高画质：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/course-intro-part-1.mp4 课程介绍-part1]、 [http://hlt.suda.edu.cn/LA/Ir-2022-Spring/course-intro-part-2.mp4 课程介绍-part2]&lt;br /&gt;
** 图片：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/course-intro.jpg 图]&lt;br /&gt;
&lt;br /&gt;
* &amp;lt;font color='red&amp;gt;和2022年课程的区别&amp;lt;/font&amp;gt;：增加了'''基于深度学习的检索'''的内容，删除'''词性标注'''相关内容&lt;br /&gt;
&lt;br /&gt;
== 信息检索系统介绍 ==&lt;br /&gt;
* 2022春视频：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/intro-to-info-retrieval.mp4 信息检索系统介绍]&lt;br /&gt;
&lt;br /&gt;
= 具体作业 =&lt;br /&gt;
&lt;br /&gt;
== 作业1：分字（C++语言） ==&lt;br /&gt;
* 2022春视频和图片：&lt;br /&gt;
** 低画质：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/split-char-low-quality.mp4 作业1]&lt;br /&gt;
** 高画质：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/split-char-part-1.mp4 作业1-part1]、 [http://hlt.suda.edu.cn/LA/Ir-2022-Spring/split-char-part-2.mp4 作业1-part2]&lt;br /&gt;
** 图片：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/split-char-figure-1.jpg 图1]、 [http://hlt.suda.edu.cn/LA/Ir-2022-Spring/split-char-figure-2.jpg 图2]&lt;br /&gt;
* UTF-8数据：[[文件:sentence.txt]]&lt;br /&gt;
* UFT-8编码规则：&lt;br /&gt;
 &amp;lt;nowiki&amp;gt;&lt;br /&gt;
1字节 0xxxxxxx&lt;br /&gt;
2字节 110xxxxx 10xxxxxx&lt;br /&gt;
3字节 1110xxxx 10xxxxxx 10xxxxxx&lt;br /&gt;
4字节 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx&lt;br /&gt;
5字节 111110xx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx&lt;br /&gt;
6字节 1111110x 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx &amp;lt;/nowiki&amp;gt;&lt;br /&gt;
&lt;br /&gt;
== 作业2：单词计数 ==&lt;br /&gt;
* 课件 [http://hlt.suda.edu.cn/~zhli/teach/ir-2019-spring/word-count.pdf PPT下载]&lt;br /&gt;
* 2022春视频：&lt;br /&gt;
** 低画质：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/word-count-low-quality.mp4 作业2]&lt;br /&gt;
** 高画质：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/word-count-2.mp4 作业2] &lt;br /&gt;
* 数据 [http://hlt.suda.edu.cn/~zhli/teach/ir-2019-spring/sample-en.txt txt下载]&lt;br /&gt;
&lt;br /&gt;
== 作业3：最大匹配分词 == &lt;br /&gt;
* 作业提交时间截止时间：第5周3.25下课之前提交&lt;br /&gt;
* 课件：前向最大匹配 PDF文件--[[文件:Word-seg-max-match.pdf]]；PPT文件--[[文件:Word-seg-max-match.zip]]&lt;br /&gt;
* 2022春视频和图片：&lt;br /&gt;
** 低画质：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/word-seg-max-match-low-quality.mp4 作业3]&lt;br /&gt;
** 高画质：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/word-seg-max-match.mp4 作业3] &lt;br /&gt;
** 图片：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/word-seg-max-match.jpg 图] &lt;br /&gt;
&lt;br /&gt;
* 数据下载：&lt;br /&gt;
** 字典：[[文件:dict.txt]] &lt;br /&gt;
** 待分词：[[文件:sentence.txt]] &lt;br /&gt;
** 正确答案（人工标注的，你的模型的预测结果要和这个文件进行对比，从而得到P/R/F值）：[[文件:answer.txt]]；&lt;br /&gt;
** 正向最大匹配分词模型的预测结果（如果你的程序写对了，那么应该和这个结果一模一样）：[[文件:out.txt]]&lt;br /&gt;
&lt;br /&gt;
 &amp;lt;nowiki&amp;gt;&lt;br /&gt;
*正确实验结果&lt;br /&gt;
**正确识别的词数：20263&lt;br /&gt;
**识别出的总体个数：20397&lt;br /&gt;
**测试集中的总体个数：20454&lt;br /&gt;
**正确率：0.99343&lt;br /&gt;
**召回率：0.99066&lt;br /&gt;
**F值：0.99204 &amp;lt;/nowiki&amp;gt;&lt;br /&gt;
&lt;br /&gt;
== 作业4：网页正文抽取 ==&lt;br /&gt;
&lt;br /&gt;
* 作业提交时间截止时间：x.x下课前提交&lt;br /&gt;
* 2022春视频： [http://hlt.suda.edu.cn/LA/Ir-2022-Spring/web-page-content-extraction.mp4 作业4]&lt;br /&gt;
* 课件（&amp;lt;font color='red'&amp;gt;请严格按照课件要求完成作业&amp;lt;/font&amp;gt;）： &lt;br /&gt;
** [[:文件:ir-2022-spring-web-page-content-extraction.ppt]]&lt;br /&gt;
** [[:文件:ir-2022-spring-web-page-content-extraction.pdf]]&lt;br /&gt;
* 数据&lt;br /&gt;
** 1.html和2.html [[:文件:ir-2022-spring-example-html.zip]]&lt;br /&gt;
** data-1k：1000个html文件 [[:文件:ir-2022-spring-all-html.zip]] （如果文件出现乱码，请到qq群里下载）&lt;br /&gt;
&lt;br /&gt;
== 作业5：倒排索引 == &lt;br /&gt;
&lt;br /&gt;
* 作业提交时间截止时间：第8周4.15下课前提交&lt;br /&gt;
* 课件： &lt;br /&gt;
** 仅供参考，与本次作业要求无关：[[:文件:ir-2022-spring-inverted-index-simplified.ppt]]&lt;br /&gt;
*  2022春视频和图片： &lt;br /&gt;
** 视频：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/inverted-index.mp4 作业5]&lt;br /&gt;
** 图片：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/inverted-index.jpg 图]&lt;br /&gt;
* 数据&lt;br /&gt;
** 停用词表：[https://github.com/goto456/stopwords github网址] [http://hlt.suda.edu.cn/LA/Ir-2022-Spring/stopwords.zip 苏大本地下载] &lt;br /&gt;
** 结巴词典：[https://github.com/fxsjy/jieba/tree/master/extra_dict github网址] [http://hlt.suda.edu.cn/LA/Ir-2022-Spring/word_dict.zip 苏大本地下载]&lt;br /&gt;
** 结巴词典文件每一行有3列，为：单词、词频、词性，只需要使用第一列的单词即可，使用small进行调试，提交作业用big&lt;br /&gt;
&lt;br /&gt;
== 作业6：布尔查询 ==&lt;br /&gt;
&lt;br /&gt;
* 作业提交时间截止时间：x.x下课前提交&lt;br /&gt;
*  2022春视频和图片： &lt;br /&gt;
** 视频：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/bool-query.mp4 作业6]&lt;br /&gt;
** 图片：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/bool-query.jpg 图]&lt;br /&gt;
* 作业提交说明：&lt;br /&gt;
** 附件中给出本次作业使用的倒排索引文件（可以在作业5的基础上进行优化），&amp;lt;font color=&amp;quot;red&amp;quot;&amp;gt;不需要提供构建倒排索引的代码，但在实验报告中给出倒排索引文件的说明，参考侯皓文同学&amp;lt;/font&amp;gt;&lt;br /&gt;
** 交集、并集操作用inter()、union()这两个函数单独封装&lt;br /&gt;
** &amp;lt;font color=&amp;quot;red&amp;quot;&amp;gt;对4个语句&amp;lt;/font&amp;gt; 'A', 'B', 'A AND B', 'A OR B' （A、B为自定义的查询词） 分别进行一次查询，每次的查询结果单独保存到一个txt文件中，以查询语句作为文件名（如 'A AND B.txt'`）&lt;br /&gt;
** 结果展示部分，文件按名字字母序排序：指字符序（用内置的sort即可），先用pinyin包转成拼音再排序也可以，不要自行改变文件名（如 阿大.txt -&amp;gt; 34.txt）&lt;br /&gt;
** 实现更复杂的查询，如：'A AND B OR C' 可以加分&lt;br /&gt;
** 查询词的加重（用#标记）不做强制要求，但做了加分&lt;br /&gt;
&lt;br /&gt;
== 作业7：基于向量空间模型（VSM）和tf-idf权重的网页相关性排序 ==&lt;br /&gt;
&lt;br /&gt;
* 作业提交时间截止时间：xx之前提交&lt;br /&gt;
** 视频：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/web-page-rank.mp4 作业7]&lt;br /&gt;
** 图片：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/web-page-rank-1.jpg 图片1]  [http://hlt.suda.edu.cn/LA/Ir-2022-Spring/web-page-rank-2.jpg 图片2]&lt;br /&gt;
* 作业要求：&lt;br /&gt;
** 如果无法理解向量空间模型，可以选择做tf-idf作业，但最多只给50分&lt;br /&gt;
** 实现基于向量空间模型的网页相关性排序&lt;br /&gt;
** 给定一个查询Q：可以是手动用空格分好词的&amp;quot;李正华 招收 学生&amp;quot;；也可以是未分词的&amp;quot;李正华招收学生&amp;quot;，之后用最大匹配分词分好词 -&amp;gt; &amp;quot;李正华 招收 学生&amp;quot;&lt;br /&gt;
** 注释：一个给定分词的查询Q实际上等价于布尔查询OR：&amp;quot;李正华 招收 学生&amp;quot; &amp;lt;=&amp;gt; &amp;quot;李正华 OR 招收 OR 学生&amp;quot;&lt;br /&gt;
* 作业提交说明：&lt;br /&gt;
** 附件中给出本任务所使用的倒排索引文件&lt;br /&gt;
** 在实验报告中说明对于余弦相似度计算中的：di[k]、q[k]、|di|、|q|是如何处理或存储的&lt;br /&gt;
** 附件中给出一个查询Q的结果，保存为文本文件&amp;quot;Q.txt&amp;quot;中，格式为：&lt;br /&gt;
&lt;br /&gt;
  文档名1（余弦相似度Sim） # Sim值可不除以|q|的值，一个例子： 阿鲁巴岛.txt(0.64)&lt;br /&gt;
  句子1&lt;br /&gt;
  句子2&lt;br /&gt;
  ...&lt;br /&gt;
  文档名2（余弦相似度Sim）&lt;br /&gt;
  句子1&lt;br /&gt;
  句子2&lt;br /&gt;
  ...&lt;br /&gt;
  ......&lt;br /&gt;
&lt;br /&gt;
== 作业8：爬虫和某机构主页检索系统（综合项目） ==&lt;br /&gt;
&lt;br /&gt;
* 作业提交时间截止时间：xx之前提交&lt;br /&gt;
** 视频：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/web-spider.mp4 作业8]&lt;br /&gt;
** PPT：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/web-spider.pptx PPT]&lt;br /&gt;
* 任务一：用&amp;lt;font color=&amp;quot;red&amp;quot;&amp;gt;爬虫模块&amp;lt;/font&amp;gt;尽量完整地爬下来一个机构对应的所有静态网页（html或htm后缀），保存到磁盘中：&lt;br /&gt;
** 苏大、苏大计算机学院（规模小一点）都可以&lt;br /&gt;
** orphan网页不用考虑&lt;br /&gt;
* 任务二：基于爬取的网页，做一个完整的检索系统（以后可以考虑不断完善、定时更新）：&lt;br /&gt;
** 1. &amp;lt;font color=&amp;quot;red&amp;quot;&amp;gt;网页正文提取模块&amp;lt;/font&amp;gt;（同作业4的实战部分一致）&lt;br /&gt;
** 2. 处理网页正文的&amp;lt;font color=&amp;quot;red&amp;quot;&amp;gt;分句、分词模块&amp;lt;/font&amp;gt;（可以用作业3的最大匹配分词，也可以用第三方的分词器，如jieba）&lt;br /&gt;
** 3. &amp;lt;font color=&amp;quot;red&amp;quot;&amp;gt;倒排索引模块&amp;lt;/font&amp;gt;：基于处理好的网页正文，建立倒排索引文件（同作业5一致）&lt;br /&gt;
** 4. &amp;lt;font color=&amp;quot;red&amp;quot;&amp;gt;网页排序模块&amp;lt;/font&amp;gt;：实现网页相关性排序（同作业7一致）&lt;br /&gt;
** 5. &amp;lt;font color=&amp;quot;red&amp;quot;&amp;gt;查询模块&amp;lt;/font&amp;gt;：提供查询接口，用户输入查询词后显示网页名（暂定为网页的title），和包含查询词的句子，查询词进行highlight处理（如#查询词#）。查询接口可以用命令行实现，提供前端UI界面（Web或Application都可以）会获得加分。&lt;br /&gt;
&lt;br /&gt;
注意：把网页源文件（html文件）保存好，避免重复爬。例如优化了网页正文提取模块、或突然想用一个更好的分词器&lt;br /&gt;
&lt;br /&gt;
* 作业提交说明：&lt;br /&gt;
** 源代码：任务一和任务二的所有代码都要提交，每个模块（共6个，在上方已用红色标出）在readme中指明在哪个python文件中实现的&lt;br /&gt;
** 处理好的网页数据（可选）：原始网页，提取出并分好句、分好词的网页正文，若网页数据特别大的话可以不要&lt;br /&gt;
** 在实验报告中将三项统计信息放到表格中：网页（文档）数、句子数、单词数&lt;br /&gt;
** 倒排索引文件（必备）&lt;br /&gt;
** 说明文档：(每个模块的)实现的功能，如何使用，接口等，内容不限&lt;br /&gt;
&lt;br /&gt;
== 作业9：深度学习方法&amp;amp;检索结果的评价 ==&lt;br /&gt;
&lt;br /&gt;
* 要求&lt;br /&gt;
** 账号环境，跑推理代码，重现完成部分实验。&lt;br /&gt;
*** 具体要跑哪些实验，请看文档最后的表格：[https://resplendent-gumdrop-ad2cd4.netlify.app/contriever-ir-course-assignment/ 具体文档] &lt;br /&gt;
** 自己实现评价指标，自己的评价指标的结果，和contriever 的结果一致。&lt;br /&gt;
** VSM和 Contriever 的对比&lt;br /&gt;
 &amp;lt;nowiki&amp;gt; 针对自己实现的“苏大计算机官网搜索引擎”，去对比VSM和Contriever的效果。&lt;br /&gt;
     自己设计10个难度不同的 query，然后 VSM 返回 50 个结果，把这 50 个结果随机打乱顺序（这一步很重要），然后人工做一个标注（给一个排序）【如果觉得 10 个 query 太多，5 个也行】&lt;br /&gt;
     Contriever对 50 个结果重排序&lt;br /&gt;
     比较两种方法的结果：NDCG@5      NDCG@10       NDCG@20等&lt;br /&gt;
     如果有能力、有时间，可以分析下：什么样的query，VSM 做得好；什么样的 query，Contriever 做得好。 &amp;lt;/nowiki&amp;gt;&lt;br /&gt;
** 实验报告体现出自己做了什么、遇到的困难及如何解决。&lt;br /&gt;
&lt;br /&gt;
* 参考资料&lt;br /&gt;
** 上面的文档&lt;br /&gt;
** 微信公众号”语析LAGroup“中 contriever 论文解读&lt;br /&gt;
** contriever 原文&lt;br /&gt;
&lt;br /&gt;
== 时间表 ==&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
 &amp;lt;nowiki&amp;gt;&lt;br /&gt;
3.5 第1周&lt;br /&gt;
3.12 第2周&lt;br /&gt;
&lt;br /&gt;
xxx&lt;br /&gt;
3.25 第5周&lt;br /&gt;
4.1 第6周&lt;br /&gt;
4.29 第10周&lt;br /&gt;
5.6 第11周&lt;br /&gt;
5.27 第14周&lt;br /&gt;
6.3 第15周&lt;br /&gt;
6.17 第17周&lt;br /&gt;
&lt;br /&gt;
1	08:00-08:45&lt;br /&gt;
2	08:50-09:35&lt;br /&gt;
3	09:55-10:40&lt;br /&gt;
4	10:45-11:30&lt;br /&gt;
5	11:35-12:20&lt;br /&gt;
6	14:00-14:45&lt;br /&gt;
7	14:50-15:35 【休息5分钟，+15分钟】&lt;br /&gt;
8	15:55-16:40 &lt;br /&gt;
9	16:45-17:30 【17:15】   &lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
考虑来2-3 次考试。&lt;br /&gt;
闭卷考试，比较正式的那种。在机房里就行。然后拍照留存？&lt;br /&gt;
&lt;br /&gt;
2次考试的方案：&lt;br /&gt;
倒排搞完 考一次&lt;br /&gt;
最后一次 &lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
3次考试的方案：&lt;br /&gt;
最大匹配分词搞完，考一次&lt;br /&gt;
布尔查询搞完 考一次&lt;br /&gt;
最后一次 &lt;br /&gt;
&lt;br /&gt;
上机课9 个作业，实验报告，主要是形式审查，占比比较低。要根据考试的成绩，然后加权得到每一次作业的成绩。&lt;br /&gt;
最后，9 个作业再按照一定比例，得到实验成绩。&lt;br /&gt;
&lt;br /&gt;
&amp;lt;/nowiki&amp;gt;&lt;/div&gt;</summary>
		<author><name>Zhli</name></author>
	</entry>
	<entry>
		<id>http://hlt.suda.edu.cn/index.php?title=Ir-2026-spring&amp;diff=6178</id>
		<title>Ir-2026-spring</title>
		<link rel="alternate" type="text/html" href="http://hlt.suda.edu.cn/index.php?title=Ir-2026-spring&amp;diff=6178"/>
		<updated>2026-03-06T01:06:22Z</updated>

		<summary type="html">&lt;p&gt;Zhli：/* 信息检索综合实践 */&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;&lt;br /&gt;
&lt;br /&gt;
= 信息检索综合实践 =&lt;br /&gt;
&lt;br /&gt;
李正华&lt;br /&gt;
&lt;br /&gt;
* 学生：计23计科1班	 	 	 &lt;br /&gt;
* 助教：吕喆、梅睿桐  &lt;br /&gt;
* QQ: xx&lt;br /&gt;
* 时间：周四 6-9 节课 1-17 周&lt;br /&gt;
* 地点：理工楼238&lt;br /&gt;
&lt;br /&gt;
== 上课基本要求 ==&lt;br /&gt;
* 不能做的事情：打游戏、看课程无关视频、刷网页&lt;br /&gt;
* 认真读作业要求，按时交作业。csteaching&lt;br /&gt;
* 不能抄袭别人或网上的，自己做；不要把自己的作业给别人&lt;br /&gt;
&lt;br /&gt;
== 课程建议 ==&lt;br /&gt;
* 每个作业，截止时间后，把成绩发给大家，并用ppt给大家讲一下批作业发现的问题，题目分析&lt;br /&gt;
* 上课期间：请大家积极提问。遇到大家都无法理解的公共问题，我会补充讲解&lt;br /&gt;
* 非上课时间提问&lt;br /&gt;
** 建议同学们在群里提问（包括但不限于代码的bug、不理解算法、作业资源和提交等），由其他同学帮助解答；&lt;br /&gt;
** 群里的提问如果其他同学也无法回答，可以私信助教（仅限xxx，如周四晚上7点到9点，吕喆增加）；&lt;br /&gt;
&lt;br /&gt;
== 计算成绩的规则和说明（待定） ==&lt;br /&gt;
* &amp;lt;font color='red&amp;gt;核心要求：掌握最基本的概念、方法、算法&amp;lt;/font&amp;gt;&lt;br /&gt;
* 实验作业：70-80分&lt;br /&gt;
** 一系列作业，每个作业10-20分（形式检查为辅、考核为主）&lt;br /&gt;
** 必须按照规定时间，按照规定格式要求，将实验报告+源代码，提交到csteaching&lt;br /&gt;
&lt;br /&gt;
* 期末面对面小测验：10分&lt;br /&gt;
** 考察课程相关的基础知识，看看作业是否是自己做的&lt;br /&gt;
&lt;br /&gt;
* 平时成绩：10-20分&lt;br /&gt;
** 不能迟到、早退，特殊情况必须请假，并带辅导员签字的假条；&lt;br /&gt;
** 点名时，如果发现名单上没有你的名字，及时提出&lt;br /&gt;
&lt;br /&gt;
== 提交作业说明 ==&lt;br /&gt;
* 网址：[http://csteaching.suda.edu.cn csteaching]&lt;br /&gt;
* &amp;lt;font color='red&amp;gt;作业迟交了则最终成绩会按一定比例缩减&amp;lt;/font&amp;gt;&lt;br /&gt;
* 包含两部分&lt;br /&gt;
** 实验报告（pdf文件，&amp;lt;font color='red&amp;gt;请把word转为pdf&amp;lt;/font&amp;gt;）&lt;br /&gt;
*** 请按照实验模版[[:文件:ir-2022-spring-report.doc]]，认真填写个人信息、实验题目、实验内容等&lt;br /&gt;
*** 不要大段粘贴代码，最多可以粘贴核心的一小段代码，&amp;lt;font color='red&amp;gt;粘贴大段代码会扣分&amp;lt;/font&amp;gt;&lt;br /&gt;
*** 写清楚自己的解决思路，尤其是遇到的难点和如何解决&lt;br /&gt;
*** 建议可以画流程图或者写伪代码。&lt;br /&gt;
*** 解决思路的流程图中是以文字为主还是以代码为主？报告中不要直接放代码。文字为主，不在于写得长，而在于写清楚，表明你确实做了、想了。&lt;br /&gt;
*** 问：流程图可以改成自然语言描述或者是伪代码吗？答：流程图也可以画的很high-level的。大家自由发挥。也可以画到纸上然后拍照截图。模块化思维 大问题分解小问题 。&lt;br /&gt;
*** &amp;lt;font color='red&amp;gt;将程序运行结果截图，没有运行结果会扣分&amp;lt;/font&amp;gt;，中间的输出结果/文件可以截图一部分&lt;br /&gt;
** 附件（.zip压缩包）&lt;br /&gt;
*** 源代码：代码不要都团在一起，请用空行对代码进行分隔，并简单注释代码块的功能&lt;br /&gt;
*** readme.txt文件：说明如何运行你的程序，需要什么环境，如windows或linux，python版本如python3.5&lt;br /&gt;
* 提交前自我检查&lt;br /&gt;
** 是否有包含readme.txt文件解释如何编译执行你的程序。 &amp;lt;font color='red&amp;gt;如没有该文件，将减分。&amp;lt;/font&amp;gt;&lt;br /&gt;
** 是否认真完成实验报告&lt;br /&gt;
** 是否可以按照readme.txt正确编译和运行程序&lt;br /&gt;
** 是否包含别人的代码，&amp;lt;font color='red&amp;gt;抄袭和被抄袭的都是0分&amp;lt;/font&amp;gt;&lt;br /&gt;
** 期末可能会用软件做自动抄袭检查&lt;br /&gt;
** 等这学期最后几周，我们可能统一对所有的作业做自动查重，到时候也会查出一些问题。 &amp;lt;font color='red&amp;gt;请大家一定要自己做，编程能力差一点，就做得简单一点，能力强，就做得好一点。但是一定要自己做。 &amp;lt;/font&amp;gt;&lt;br /&gt;
* 提交作业命名规则&lt;br /&gt;
** 实验报告（姓名学号.pdf）&lt;br /&gt;
** 附件（姓名学号.zip）&lt;br /&gt;
&lt;br /&gt;
== 实验报告word模板 ==&lt;br /&gt;
* [[:文件:ir-2022-spring-report.doc]]&lt;br /&gt;
&lt;br /&gt;
== 具体课程（含作业） == &lt;br /&gt;
&lt;br /&gt;
{| class=&amp;quot;wikitable&amp;quot;&lt;br /&gt;
! style=&amp;quot;text-align:left;&amp;quot;| 作业&lt;br /&gt;
! 成绩比例&lt;br /&gt;
! 评分要点&lt;br /&gt;
|-&lt;br /&gt;
| 分字&lt;br /&gt;
| 5%&lt;br /&gt;
| 按字节读取并判断高位&lt;br /&gt;
|-&lt;br /&gt;
| 单词计数&lt;br /&gt;
| 5%&lt;br /&gt;
| 无&lt;br /&gt;
|-&lt;br /&gt;
| 最大匹配分词&lt;br /&gt;
| 10%&lt;br /&gt;
| 算法和评价正确实现&lt;br /&gt;
|-&lt;br /&gt;
| 网页正文抽取&lt;br /&gt;
| 10%&lt;br /&gt;
| 按要求完成两个任务&lt;br /&gt;
|-&lt;br /&gt;
| 倒排索引&lt;br /&gt;
| 10%&lt;br /&gt;
| 高效创建倒排文件&lt;br /&gt;
|-&lt;br /&gt;
| 布尔查询&lt;br /&gt;
| 10%&lt;br /&gt;
| inter和union的复杂度为O(n)，复杂查询用堆栈判断优先级&lt;br /&gt;
|-&lt;br /&gt;
| 网页相关性排序&lt;br /&gt;
| 15%&lt;br /&gt;
| 基于向量空间模型VSM、tf-idf权重&lt;br /&gt;
|-&lt;br /&gt;
| 爬虫和某机构主页检索系统&lt;br /&gt;
| 15%&lt;br /&gt;
| 实现爬虫，系统架构设计良好，说明文档详细，UI完整&lt;br /&gt;
|-&lt;br /&gt;
| &amp;lt;font color='black&amp;gt;基于深度学习的检索系统&amp;lt;/font&amp;gt;&lt;br /&gt;
| 20%【比例低一点】&lt;br /&gt;
| Contriever：重现部分实验结果；自己实现评价指标；在上一个作业中的爬虫和检索系统的基础上，自己设计、标注 10 个 query，对比向量空间模型VSM 和Contriever 的效果，给出评价结果。建议：VSM 给 100 个结果，然后 Contriever 重排序，然后人工标注，具体如何标注更合理，自己考虑好。&lt;br /&gt;
|-&lt;br /&gt;
|}&lt;br /&gt;
&lt;br /&gt;
== 信息检索课程介绍 ==&lt;br /&gt;
* [http://hlt.suda.edu.cn/~zhli/teach/ir-2019-spring/ir-introduction-v0.4.pdf PPT下载]&lt;br /&gt;
* 2022春视频和图片：&lt;br /&gt;
** 低画质：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/course-intro-low-quality.mp4 课程介绍]&lt;br /&gt;
** 高画质：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/course-intro-part-1.mp4 课程介绍-part1]、 [http://hlt.suda.edu.cn/LA/Ir-2022-Spring/course-intro-part-2.mp4 课程介绍-part2]&lt;br /&gt;
** 图片：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/course-intro.jpg 图]&lt;br /&gt;
&lt;br /&gt;
* &amp;lt;font color='red&amp;gt;和2022年课程的区别&amp;lt;/font&amp;gt;：增加了'''基于深度学习的检索'''的内容，删除'''词性标注'''相关内容&lt;br /&gt;
&lt;br /&gt;
== 信息检索系统介绍 ==&lt;br /&gt;
* 2022春视频：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/intro-to-info-retrieval.mp4 信息检索系统介绍]&lt;br /&gt;
&lt;br /&gt;
= 具体作业 =&lt;br /&gt;
&lt;br /&gt;
== 作业1：分字（C++语言） ==&lt;br /&gt;
* 2022春视频和图片：&lt;br /&gt;
** 低画质：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/split-char-low-quality.mp4 作业1]&lt;br /&gt;
** 高画质：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/split-char-part-1.mp4 作业1-part1]、 [http://hlt.suda.edu.cn/LA/Ir-2022-Spring/split-char-part-2.mp4 作业1-part2]&lt;br /&gt;
** 图片：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/split-char-figure-1.jpg 图1]、 [http://hlt.suda.edu.cn/LA/Ir-2022-Spring/split-char-figure-2.jpg 图2]&lt;br /&gt;
* UTF-8数据：[[文件:sentence.txt]]&lt;br /&gt;
* UFT-8编码规则：&lt;br /&gt;
 &amp;lt;nowiki&amp;gt;&lt;br /&gt;
1字节 0xxxxxxx&lt;br /&gt;
2字节 110xxxxx 10xxxxxx&lt;br /&gt;
3字节 1110xxxx 10xxxxxx 10xxxxxx&lt;br /&gt;
4字节 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx&lt;br /&gt;
5字节 111110xx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx&lt;br /&gt;
6字节 1111110x 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx &amp;lt;/nowiki&amp;gt;&lt;br /&gt;
&lt;br /&gt;
== 作业2：单词计数 ==&lt;br /&gt;
* 课件 [http://hlt.suda.edu.cn/~zhli/teach/ir-2019-spring/word-count.pdf PPT下载]&lt;br /&gt;
* 2022春视频：&lt;br /&gt;
** 低画质：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/word-count-low-quality.mp4 作业2]&lt;br /&gt;
** 高画质：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/word-count-2.mp4 作业2] &lt;br /&gt;
* 数据 [http://hlt.suda.edu.cn/~zhli/teach/ir-2019-spring/sample-en.txt txt下载]&lt;br /&gt;
&lt;br /&gt;
== 作业3：最大匹配分词 == &lt;br /&gt;
* 作业提交时间截止时间：第5周3.25下课之前提交&lt;br /&gt;
* 课件：前向最大匹配 PDF文件--[[文件:Word-seg-max-match.pdf]]；PPT文件--[[文件:Word-seg-max-match.zip]]&lt;br /&gt;
* 2022春视频和图片：&lt;br /&gt;
** 低画质：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/word-seg-max-match-low-quality.mp4 作业3]&lt;br /&gt;
** 高画质：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/word-seg-max-match.mp4 作业3] &lt;br /&gt;
** 图片：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/word-seg-max-match.jpg 图] &lt;br /&gt;
&lt;br /&gt;
* 数据下载：&lt;br /&gt;
** 字典：[[文件:dict.txt]] &lt;br /&gt;
** 待分词：[[文件:sentence.txt]] &lt;br /&gt;
** 正确答案（人工标注的，你的模型的预测结果要和这个文件进行对比，从而得到P/R/F值）：[[文件:answer.txt]]；&lt;br /&gt;
** 正向最大匹配分词模型的预测结果（如果你的程序写对了，那么应该和这个结果一模一样）：[[文件:out.txt]]&lt;br /&gt;
&lt;br /&gt;
 &amp;lt;nowiki&amp;gt;&lt;br /&gt;
*正确实验结果&lt;br /&gt;
**正确识别的词数：20263&lt;br /&gt;
**识别出的总体个数：20397&lt;br /&gt;
**测试集中的总体个数：20454&lt;br /&gt;
**正确率：0.99343&lt;br /&gt;
**召回率：0.99066&lt;br /&gt;
**F值：0.99204 &amp;lt;/nowiki&amp;gt;&lt;br /&gt;
&lt;br /&gt;
== 作业4：网页正文抽取 ==&lt;br /&gt;
&lt;br /&gt;
* 作业提交时间截止时间：x.x下课前提交&lt;br /&gt;
* 2022春视频： [http://hlt.suda.edu.cn/LA/Ir-2022-Spring/web-page-content-extraction.mp4 作业4]&lt;br /&gt;
* 课件（&amp;lt;font color='red'&amp;gt;请严格按照课件要求完成作业&amp;lt;/font&amp;gt;）： &lt;br /&gt;
** [[:文件:ir-2022-spring-web-page-content-extraction.ppt]]&lt;br /&gt;
** [[:文件:ir-2022-spring-web-page-content-extraction.pdf]]&lt;br /&gt;
* 数据&lt;br /&gt;
** 1.html和2.html [[:文件:ir-2022-spring-example-html.zip]]&lt;br /&gt;
** data-1k：1000个html文件 [[:文件:ir-2022-spring-all-html.zip]] （如果文件出现乱码，请到qq群里下载）&lt;br /&gt;
&lt;br /&gt;
== 作业5：倒排索引 == &lt;br /&gt;
&lt;br /&gt;
* 作业提交时间截止时间：第8周4.15下课前提交&lt;br /&gt;
* 课件： &lt;br /&gt;
** 仅供参考，与本次作业要求无关：[[:文件:ir-2022-spring-inverted-index-simplified.ppt]]&lt;br /&gt;
*  2022春视频和图片： &lt;br /&gt;
** 视频：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/inverted-index.mp4 作业5]&lt;br /&gt;
** 图片：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/inverted-index.jpg 图]&lt;br /&gt;
* 数据&lt;br /&gt;
** 停用词表：[https://github.com/goto456/stopwords github网址] [http://hlt.suda.edu.cn/LA/Ir-2022-Spring/stopwords.zip 苏大本地下载] &lt;br /&gt;
** 结巴词典：[https://github.com/fxsjy/jieba/tree/master/extra_dict github网址] [http://hlt.suda.edu.cn/LA/Ir-2022-Spring/word_dict.zip 苏大本地下载]&lt;br /&gt;
** 结巴词典文件每一行有3列，为：单词、词频、词性，只需要使用第一列的单词即可，使用small进行调试，提交作业用big&lt;br /&gt;
&lt;br /&gt;
== 作业6：布尔查询 ==&lt;br /&gt;
&lt;br /&gt;
* 作业提交时间截止时间：x.x下课前提交&lt;br /&gt;
*  2022春视频和图片： &lt;br /&gt;
** 视频：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/bool-query.mp4 作业6]&lt;br /&gt;
** 图片：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/bool-query.jpg 图]&lt;br /&gt;
* 作业提交说明：&lt;br /&gt;
** 附件中给出本次作业使用的倒排索引文件（可以在作业5的基础上进行优化），&amp;lt;font color=&amp;quot;red&amp;quot;&amp;gt;不需要提供构建倒排索引的代码，但在实验报告中给出倒排索引文件的说明，参考侯皓文同学&amp;lt;/font&amp;gt;&lt;br /&gt;
** 交集、并集操作用inter()、union()这两个函数单独封装&lt;br /&gt;
** &amp;lt;font color=&amp;quot;red&amp;quot;&amp;gt;对4个语句&amp;lt;/font&amp;gt; 'A', 'B', 'A AND B', 'A OR B' （A、B为自定义的查询词） 分别进行一次查询，每次的查询结果单独保存到一个txt文件中，以查询语句作为文件名（如 'A AND B.txt'`）&lt;br /&gt;
** 结果展示部分，文件按名字字母序排序：指字符序（用内置的sort即可），先用pinyin包转成拼音再排序也可以，不要自行改变文件名（如 阿大.txt -&amp;gt; 34.txt）&lt;br /&gt;
** 实现更复杂的查询，如：'A AND B OR C' 可以加分&lt;br /&gt;
** 查询词的加重（用#标记）不做强制要求，但做了加分&lt;br /&gt;
&lt;br /&gt;
== 作业7：基于向量空间模型（VSM）和tf-idf权重的网页相关性排序 ==&lt;br /&gt;
&lt;br /&gt;
* 作业提交时间截止时间：xx之前提交&lt;br /&gt;
** 视频：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/web-page-rank.mp4 作业7]&lt;br /&gt;
** 图片：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/web-page-rank-1.jpg 图片1]  [http://hlt.suda.edu.cn/LA/Ir-2022-Spring/web-page-rank-2.jpg 图片2]&lt;br /&gt;
* 作业要求：&lt;br /&gt;
** 如果无法理解向量空间模型，可以选择做tf-idf作业，但最多只给50分&lt;br /&gt;
** 实现基于向量空间模型的网页相关性排序&lt;br /&gt;
** 给定一个查询Q：可以是手动用空格分好词的&amp;quot;李正华 招收 学生&amp;quot;；也可以是未分词的&amp;quot;李正华招收学生&amp;quot;，之后用最大匹配分词分好词 -&amp;gt; &amp;quot;李正华 招收 学生&amp;quot;&lt;br /&gt;
** 注释：一个给定分词的查询Q实际上等价于布尔查询OR：&amp;quot;李正华 招收 学生&amp;quot; &amp;lt;=&amp;gt; &amp;quot;李正华 OR 招收 OR 学生&amp;quot;&lt;br /&gt;
* 作业提交说明：&lt;br /&gt;
** 附件中给出本任务所使用的倒排索引文件&lt;br /&gt;
** 在实验报告中说明对于余弦相似度计算中的：di[k]、q[k]、|di|、|q|是如何处理或存储的&lt;br /&gt;
** 附件中给出一个查询Q的结果，保存为文本文件&amp;quot;Q.txt&amp;quot;中，格式为：&lt;br /&gt;
&lt;br /&gt;
  文档名1（余弦相似度Sim） # Sim值可不除以|q|的值，一个例子： 阿鲁巴岛.txt(0.64)&lt;br /&gt;
  句子1&lt;br /&gt;
  句子2&lt;br /&gt;
  ...&lt;br /&gt;
  文档名2（余弦相似度Sim）&lt;br /&gt;
  句子1&lt;br /&gt;
  句子2&lt;br /&gt;
  ...&lt;br /&gt;
  ......&lt;br /&gt;
&lt;br /&gt;
== 作业8：爬虫和某机构主页检索系统（综合项目） ==&lt;br /&gt;
&lt;br /&gt;
* 作业提交时间截止时间：xx之前提交&lt;br /&gt;
** 视频：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/web-spider.mp4 作业8]&lt;br /&gt;
** PPT：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/web-spider.pptx PPT]&lt;br /&gt;
* 任务一：用&amp;lt;font color=&amp;quot;red&amp;quot;&amp;gt;爬虫模块&amp;lt;/font&amp;gt;尽量完整地爬下来一个机构对应的所有静态网页（html或htm后缀），保存到磁盘中：&lt;br /&gt;
** 苏大、苏大计算机学院（规模小一点）都可以&lt;br /&gt;
** orphan网页不用考虑&lt;br /&gt;
* 任务二：基于爬取的网页，做一个完整的检索系统（以后可以考虑不断完善、定时更新）：&lt;br /&gt;
** 1. &amp;lt;font color=&amp;quot;red&amp;quot;&amp;gt;网页正文提取模块&amp;lt;/font&amp;gt;（同作业4的实战部分一致）&lt;br /&gt;
** 2. 处理网页正文的&amp;lt;font color=&amp;quot;red&amp;quot;&amp;gt;分句、分词模块&amp;lt;/font&amp;gt;（可以用作业3的最大匹配分词，也可以用第三方的分词器，如jieba）&lt;br /&gt;
** 3. &amp;lt;font color=&amp;quot;red&amp;quot;&amp;gt;倒排索引模块&amp;lt;/font&amp;gt;：基于处理好的网页正文，建立倒排索引文件（同作业5一致）&lt;br /&gt;
** 4. &amp;lt;font color=&amp;quot;red&amp;quot;&amp;gt;网页排序模块&amp;lt;/font&amp;gt;：实现网页相关性排序（同作业7一致）&lt;br /&gt;
** 5. &amp;lt;font color=&amp;quot;red&amp;quot;&amp;gt;查询模块&amp;lt;/font&amp;gt;：提供查询接口，用户输入查询词后显示网页名（暂定为网页的title），和包含查询词的句子，查询词进行highlight处理（如#查询词#）。查询接口可以用命令行实现，提供前端UI界面（Web或Application都可以）会获得加分。&lt;br /&gt;
&lt;br /&gt;
注意：把网页源文件（html文件）保存好，避免重复爬。例如优化了网页正文提取模块、或突然想用一个更好的分词器&lt;br /&gt;
&lt;br /&gt;
* 作业提交说明：&lt;br /&gt;
** 源代码：任务一和任务二的所有代码都要提交，每个模块（共6个，在上方已用红色标出）在readme中指明在哪个python文件中实现的&lt;br /&gt;
** 处理好的网页数据（可选）：原始网页，提取出并分好句、分好词的网页正文，若网页数据特别大的话可以不要&lt;br /&gt;
** 在实验报告中将三项统计信息放到表格中：网页（文档）数、句子数、单词数&lt;br /&gt;
** 倒排索引文件（必备）&lt;br /&gt;
** 说明文档：(每个模块的)实现的功能，如何使用，接口等，内容不限&lt;br /&gt;
&lt;br /&gt;
== 作业9：深度学习方法&amp;amp;检索结果的评价 ==&lt;br /&gt;
&lt;br /&gt;
* 要求&lt;br /&gt;
** 账号环境，跑推理代码，重现完成部分实验。&lt;br /&gt;
*** 具体要跑哪些实验，请看文档最后的表格：[https://resplendent-gumdrop-ad2cd4.netlify.app/contriever-ir-course-assignment/ 具体文档] &lt;br /&gt;
** 自己实现评价指标，自己的评价指标的结果，和contriever 的结果一致。&lt;br /&gt;
** VSM和 Contriever 的对比&lt;br /&gt;
 &amp;lt;nowiki&amp;gt; 针对自己实现的“苏大计算机官网搜索引擎”，去对比VSM和Contriever的效果。&lt;br /&gt;
     自己设计10个难度不同的 query，然后 VSM 返回 50 个结果，把这 50 个结果随机打乱顺序（这一步很重要），然后人工做一个标注（给一个排序）【如果觉得 10 个 query 太多，5 个也行】&lt;br /&gt;
     Contriever对 50 个结果重排序&lt;br /&gt;
     比较两种方法的结果：NDCG@5      NDCG@10       NDCG@20等&lt;br /&gt;
     如果有能力、有时间，可以分析下：什么样的query，VSM 做得好；什么样的 query，Contriever 做得好。 &amp;lt;/nowiki&amp;gt;&lt;br /&gt;
** 实验报告体现出自己做了什么、遇到的困难及如何解决。&lt;br /&gt;
&lt;br /&gt;
* 参考资料&lt;br /&gt;
** 上面的文档&lt;br /&gt;
** 微信公众号”语析LAGroup“中 contriever 论文解读&lt;br /&gt;
** contriever 原文&lt;br /&gt;
&lt;br /&gt;
== 时间表 ==&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
 &amp;lt;nowiki&amp;gt;&lt;br /&gt;
3.5 第1周&lt;br /&gt;
3.12 第2周&lt;br /&gt;
&lt;br /&gt;
xxx&lt;br /&gt;
3.25 第5周&lt;br /&gt;
4.1 第6周&lt;br /&gt;
4.29 第10周&lt;br /&gt;
5.6 第11周&lt;br /&gt;
5.27 第14周&lt;br /&gt;
6.3 第15周&lt;br /&gt;
6.17 第17周&lt;br /&gt;
&lt;br /&gt;
1	08:00-08:45&lt;br /&gt;
2	08:50-09:35&lt;br /&gt;
3	09:55-10:40&lt;br /&gt;
4	10:45-11:30&lt;br /&gt;
5	11:35-12:20&lt;br /&gt;
6	14:00-14:45&lt;br /&gt;
7	14:50-15:35 【休息5分钟，+15分钟】&lt;br /&gt;
8	15:55-16:40 &lt;br /&gt;
9	16:45-17:30 【17:15】   &lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
考虑来2-3 次考试。&lt;br /&gt;
闭卷考试，比较正式的那种。在机房里就行。然后拍照留存？&lt;br /&gt;
&lt;br /&gt;
2次考试的方案：&lt;br /&gt;
倒排搞完 考一次&lt;br /&gt;
最后一次 &lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
3次考试的方案：&lt;br /&gt;
最大匹配分词搞完，考一次&lt;br /&gt;
布尔查询搞完 考一次&lt;br /&gt;
最后一次 &lt;br /&gt;
&lt;br /&gt;
上机课9 个作业，实验报告，主要是形式审查，占比比较低。要根据考试的成绩，然后加权得到每一次作业的成绩。&lt;br /&gt;
最后，9 个作业再按照一定比例，得到实验成绩。&lt;br /&gt;
&lt;br /&gt;
&amp;lt;/nowiki&amp;gt;&lt;/div&gt;</summary>
		<author><name>Zhli</name></author>
	</entry>
	<entry>
		<id>http://hlt.suda.edu.cn/index.php?title=Ir-2026-spring&amp;diff=6177</id>
		<title>Ir-2026-spring</title>
		<link rel="alternate" type="text/html" href="http://hlt.suda.edu.cn/index.php?title=Ir-2026-spring&amp;diff=6177"/>
		<updated>2026-03-05T06:10:46Z</updated>

		<summary type="html">&lt;p&gt;Zhli：/* 信息检索综合实践 */&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;&lt;br /&gt;
&lt;br /&gt;
= 信息检索综合实践 =&lt;br /&gt;
&lt;br /&gt;
李正华&lt;br /&gt;
&lt;br /&gt;
* 学生：计23计科1班	 	 	 &lt;br /&gt;
* 助教：吕喆、梅睿桐  &lt;br /&gt;
* QQ: 1079869983&lt;br /&gt;
* 时间：周四 6-9 节课 1-17 周&lt;br /&gt;
* 地点：理工楼238&lt;br /&gt;
&lt;br /&gt;
== 上课基本要求 ==&lt;br /&gt;
* 不能做的事情：打游戏、看课程无关视频、刷网页&lt;br /&gt;
* 认真读作业要求，按时交作业。csteaching&lt;br /&gt;
* 不能抄袭别人或网上的，自己做；不要把自己的作业给别人&lt;br /&gt;
&lt;br /&gt;
== 课程建议 ==&lt;br /&gt;
* 每个作业，截止时间后，把成绩发给大家，并用ppt给大家讲一下批作业发现的问题，题目分析&lt;br /&gt;
* 上课期间：请大家积极提问。遇到大家都无法理解的公共问题，我会补充讲解&lt;br /&gt;
* 非上课时间提问&lt;br /&gt;
** 建议同学们在群里提问（包括但不限于代码的bug、不理解算法、作业资源和提交等），由其他同学帮助解答；&lt;br /&gt;
** 群里的提问如果其他同学也无法回答，可以私信助教（仅限xxx，如周四晚上7点到9点，吕喆增加）；&lt;br /&gt;
&lt;br /&gt;
== 计算成绩的规则和说明（待定） ==&lt;br /&gt;
* &amp;lt;font color='red&amp;gt;核心要求：掌握最基本的概念、方法、算法&amp;lt;/font&amp;gt;&lt;br /&gt;
* 实验作业：70-80分&lt;br /&gt;
** 一系列作业，每个作业10-20分（形式检查为辅、考核为主）&lt;br /&gt;
** 必须按照规定时间，按照规定格式要求，将实验报告+源代码，提交到csteaching&lt;br /&gt;
&lt;br /&gt;
* 期末面对面小测验：10分&lt;br /&gt;
** 考察课程相关的基础知识，看看作业是否是自己做的&lt;br /&gt;
&lt;br /&gt;
* 平时成绩：10-20分&lt;br /&gt;
** 不能迟到、早退，特殊情况必须请假，并带辅导员签字的假条；&lt;br /&gt;
** 点名时，如果发现名单上没有你的名字，及时提出&lt;br /&gt;
&lt;br /&gt;
== 提交作业说明 ==&lt;br /&gt;
* 网址：[http://csteaching.suda.edu.cn csteaching]&lt;br /&gt;
* &amp;lt;font color='red&amp;gt;作业迟交了则最终成绩会按一定比例缩减&amp;lt;/font&amp;gt;&lt;br /&gt;
* 包含两部分&lt;br /&gt;
** 实验报告（pdf文件，&amp;lt;font color='red&amp;gt;请把word转为pdf&amp;lt;/font&amp;gt;）&lt;br /&gt;
*** 请按照实验模版[[:文件:ir-2022-spring-report.doc]]，认真填写个人信息、实验题目、实验内容等&lt;br /&gt;
*** 不要大段粘贴代码，最多可以粘贴核心的一小段代码，&amp;lt;font color='red&amp;gt;粘贴大段代码会扣分&amp;lt;/font&amp;gt;&lt;br /&gt;
*** 写清楚自己的解决思路，尤其是遇到的难点和如何解决&lt;br /&gt;
*** 建议可以画流程图或者写伪代码。&lt;br /&gt;
*** 解决思路的流程图中是以文字为主还是以代码为主？报告中不要直接放代码。文字为主，不在于写得长，而在于写清楚，表明你确实做了、想了。&lt;br /&gt;
*** 问：流程图可以改成自然语言描述或者是伪代码吗？答：流程图也可以画的很high-level的。大家自由发挥。也可以画到纸上然后拍照截图。模块化思维 大问题分解小问题 。&lt;br /&gt;
*** &amp;lt;font color='red&amp;gt;将程序运行结果截图，没有运行结果会扣分&amp;lt;/font&amp;gt;，中间的输出结果/文件可以截图一部分&lt;br /&gt;
** 附件（.zip压缩包）&lt;br /&gt;
*** 源代码：代码不要都团在一起，请用空行对代码进行分隔，并简单注释代码块的功能&lt;br /&gt;
*** readme.txt文件：说明如何运行你的程序，需要什么环境，如windows或linux，python版本如python3.5&lt;br /&gt;
* 提交前自我检查&lt;br /&gt;
** 是否有包含readme.txt文件解释如何编译执行你的程序。 &amp;lt;font color='red&amp;gt;如没有该文件，将减分。&amp;lt;/font&amp;gt;&lt;br /&gt;
** 是否认真完成实验报告&lt;br /&gt;
** 是否可以按照readme.txt正确编译和运行程序&lt;br /&gt;
** 是否包含别人的代码，&amp;lt;font color='red&amp;gt;抄袭和被抄袭的都是0分&amp;lt;/font&amp;gt;&lt;br /&gt;
** 期末可能会用软件做自动抄袭检查&lt;br /&gt;
** 等这学期最后几周，我们可能统一对所有的作业做自动查重，到时候也会查出一些问题。 &amp;lt;font color='red&amp;gt;请大家一定要自己做，编程能力差一点，就做得简单一点，能力强，就做得好一点。但是一定要自己做。 &amp;lt;/font&amp;gt;&lt;br /&gt;
* 提交作业命名规则&lt;br /&gt;
** 实验报告（姓名学号.pdf）&lt;br /&gt;
** 附件（姓名学号.zip）&lt;br /&gt;
&lt;br /&gt;
== 实验报告word模板 ==&lt;br /&gt;
* [[:文件:ir-2022-spring-report.doc]]&lt;br /&gt;
&lt;br /&gt;
== 具体课程（含作业） == &lt;br /&gt;
&lt;br /&gt;
{| class=&amp;quot;wikitable&amp;quot;&lt;br /&gt;
! style=&amp;quot;text-align:left;&amp;quot;| 作业&lt;br /&gt;
! 成绩比例&lt;br /&gt;
! 评分要点&lt;br /&gt;
|-&lt;br /&gt;
| 分字&lt;br /&gt;
| 5%&lt;br /&gt;
| 按字节读取并判断高位&lt;br /&gt;
|-&lt;br /&gt;
| 单词计数&lt;br /&gt;
| 5%&lt;br /&gt;
| 无&lt;br /&gt;
|-&lt;br /&gt;
| 最大匹配分词&lt;br /&gt;
| 10%&lt;br /&gt;
| 算法和评价正确实现&lt;br /&gt;
|-&lt;br /&gt;
| 网页正文抽取&lt;br /&gt;
| 10%&lt;br /&gt;
| 按要求完成两个任务&lt;br /&gt;
|-&lt;br /&gt;
| 倒排索引&lt;br /&gt;
| 10%&lt;br /&gt;
| 高效创建倒排文件&lt;br /&gt;
|-&lt;br /&gt;
| 布尔查询&lt;br /&gt;
| 10%&lt;br /&gt;
| inter和union的复杂度为O(n)，复杂查询用堆栈判断优先级&lt;br /&gt;
|-&lt;br /&gt;
| 网页相关性排序&lt;br /&gt;
| 15%&lt;br /&gt;
| 基于向量空间模型VSM、tf-idf权重&lt;br /&gt;
|-&lt;br /&gt;
| 爬虫和某机构主页检索系统&lt;br /&gt;
| 15%&lt;br /&gt;
| 实现爬虫，系统架构设计良好，说明文档详细，UI完整&lt;br /&gt;
|-&lt;br /&gt;
| &amp;lt;font color='black&amp;gt;基于深度学习的检索系统&amp;lt;/font&amp;gt;&lt;br /&gt;
| 20%【比例低一点】&lt;br /&gt;
| Contriever：重现部分实验结果；自己实现评价指标；在上一个作业中的爬虫和检索系统的基础上，自己设计、标注 10 个 query，对比向量空间模型VSM 和Contriever 的效果，给出评价结果。建议：VSM 给 100 个结果，然后 Contriever 重排序，然后人工标注，具体如何标注更合理，自己考虑好。&lt;br /&gt;
|-&lt;br /&gt;
|}&lt;br /&gt;
&lt;br /&gt;
== 信息检索课程介绍 ==&lt;br /&gt;
* [http://hlt.suda.edu.cn/~zhli/teach/ir-2019-spring/ir-introduction-v0.4.pdf PPT下载]&lt;br /&gt;
* 2022春视频和图片：&lt;br /&gt;
** 低画质：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/course-intro-low-quality.mp4 课程介绍]&lt;br /&gt;
** 高画质：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/course-intro-part-1.mp4 课程介绍-part1]、 [http://hlt.suda.edu.cn/LA/Ir-2022-Spring/course-intro-part-2.mp4 课程介绍-part2]&lt;br /&gt;
** 图片：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/course-intro.jpg 图]&lt;br /&gt;
&lt;br /&gt;
* &amp;lt;font color='red&amp;gt;和2022年课程的区别&amp;lt;/font&amp;gt;：增加了'''基于深度学习的检索'''的内容，删除'''词性标注'''相关内容&lt;br /&gt;
&lt;br /&gt;
== 信息检索系统介绍 ==&lt;br /&gt;
* 2022春视频：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/intro-to-info-retrieval.mp4 信息检索系统介绍]&lt;br /&gt;
&lt;br /&gt;
= 具体作业 =&lt;br /&gt;
&lt;br /&gt;
== 作业1：分字（C++语言） ==&lt;br /&gt;
* 2022春视频和图片：&lt;br /&gt;
** 低画质：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/split-char-low-quality.mp4 作业1]&lt;br /&gt;
** 高画质：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/split-char-part-1.mp4 作业1-part1]、 [http://hlt.suda.edu.cn/LA/Ir-2022-Spring/split-char-part-2.mp4 作业1-part2]&lt;br /&gt;
** 图片：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/split-char-figure-1.jpg 图1]、 [http://hlt.suda.edu.cn/LA/Ir-2022-Spring/split-char-figure-2.jpg 图2]&lt;br /&gt;
* UTF-8数据：[[文件:sentence.txt]]&lt;br /&gt;
* UFT-8编码规则：&lt;br /&gt;
 &amp;lt;nowiki&amp;gt;&lt;br /&gt;
1字节 0xxxxxxx&lt;br /&gt;
2字节 110xxxxx 10xxxxxx&lt;br /&gt;
3字节 1110xxxx 10xxxxxx 10xxxxxx&lt;br /&gt;
4字节 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx&lt;br /&gt;
5字节 111110xx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx&lt;br /&gt;
6字节 1111110x 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx &amp;lt;/nowiki&amp;gt;&lt;br /&gt;
&lt;br /&gt;
== 作业2：单词计数 ==&lt;br /&gt;
* 课件 [http://hlt.suda.edu.cn/~zhli/teach/ir-2019-spring/word-count.pdf PPT下载]&lt;br /&gt;
* 2022春视频：&lt;br /&gt;
** 低画质：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/word-count-low-quality.mp4 作业2]&lt;br /&gt;
** 高画质：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/word-count-2.mp4 作业2] &lt;br /&gt;
* 数据 [http://hlt.suda.edu.cn/~zhli/teach/ir-2019-spring/sample-en.txt txt下载]&lt;br /&gt;
&lt;br /&gt;
== 作业3：最大匹配分词 == &lt;br /&gt;
* 作业提交时间截止时间：第5周3.25下课之前提交&lt;br /&gt;
* 课件：前向最大匹配 PDF文件--[[文件:Word-seg-max-match.pdf]]；PPT文件--[[文件:Word-seg-max-match.zip]]&lt;br /&gt;
* 2022春视频和图片：&lt;br /&gt;
** 低画质：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/word-seg-max-match-low-quality.mp4 作业3]&lt;br /&gt;
** 高画质：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/word-seg-max-match.mp4 作业3] &lt;br /&gt;
** 图片：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/word-seg-max-match.jpg 图] &lt;br /&gt;
&lt;br /&gt;
* 数据下载：&lt;br /&gt;
** 字典：[[文件:dict.txt]] &lt;br /&gt;
** 待分词：[[文件:sentence.txt]] &lt;br /&gt;
** 正确答案（人工标注的，你的模型的预测结果要和这个文件进行对比，从而得到P/R/F值）：[[文件:answer.txt]]；&lt;br /&gt;
** 正向最大匹配分词模型的预测结果（如果你的程序写对了，那么应该和这个结果一模一样）：[[文件:out.txt]]&lt;br /&gt;
&lt;br /&gt;
 &amp;lt;nowiki&amp;gt;&lt;br /&gt;
*正确实验结果&lt;br /&gt;
**正确识别的词数：20263&lt;br /&gt;
**识别出的总体个数：20397&lt;br /&gt;
**测试集中的总体个数：20454&lt;br /&gt;
**正确率：0.99343&lt;br /&gt;
**召回率：0.99066&lt;br /&gt;
**F值：0.99204 &amp;lt;/nowiki&amp;gt;&lt;br /&gt;
&lt;br /&gt;
== 作业4：网页正文抽取 ==&lt;br /&gt;
&lt;br /&gt;
* 作业提交时间截止时间：x.x下课前提交&lt;br /&gt;
* 2022春视频： [http://hlt.suda.edu.cn/LA/Ir-2022-Spring/web-page-content-extraction.mp4 作业4]&lt;br /&gt;
* 课件（&amp;lt;font color='red'&amp;gt;请严格按照课件要求完成作业&amp;lt;/font&amp;gt;）： &lt;br /&gt;
** [[:文件:ir-2022-spring-web-page-content-extraction.ppt]]&lt;br /&gt;
** [[:文件:ir-2022-spring-web-page-content-extraction.pdf]]&lt;br /&gt;
* 数据&lt;br /&gt;
** 1.html和2.html [[:文件:ir-2022-spring-example-html.zip]]&lt;br /&gt;
** data-1k：1000个html文件 [[:文件:ir-2022-spring-all-html.zip]] （如果文件出现乱码，请到qq群里下载）&lt;br /&gt;
&lt;br /&gt;
== 作业5：倒排索引 == &lt;br /&gt;
&lt;br /&gt;
* 作业提交时间截止时间：第8周4.15下课前提交&lt;br /&gt;
* 课件： &lt;br /&gt;
** 仅供参考，与本次作业要求无关：[[:文件:ir-2022-spring-inverted-index-simplified.ppt]]&lt;br /&gt;
*  2022春视频和图片： &lt;br /&gt;
** 视频：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/inverted-index.mp4 作业5]&lt;br /&gt;
** 图片：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/inverted-index.jpg 图]&lt;br /&gt;
* 数据&lt;br /&gt;
** 停用词表：[https://github.com/goto456/stopwords github网址] [http://hlt.suda.edu.cn/LA/Ir-2022-Spring/stopwords.zip 苏大本地下载] &lt;br /&gt;
** 结巴词典：[https://github.com/fxsjy/jieba/tree/master/extra_dict github网址] [http://hlt.suda.edu.cn/LA/Ir-2022-Spring/word_dict.zip 苏大本地下载]&lt;br /&gt;
** 结巴词典文件每一行有3列，为：单词、词频、词性，只需要使用第一列的单词即可，使用small进行调试，提交作业用big&lt;br /&gt;
&lt;br /&gt;
== 作业6：布尔查询 ==&lt;br /&gt;
&lt;br /&gt;
* 作业提交时间截止时间：x.x下课前提交&lt;br /&gt;
*  2022春视频和图片： &lt;br /&gt;
** 视频：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/bool-query.mp4 作业6]&lt;br /&gt;
** 图片：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/bool-query.jpg 图]&lt;br /&gt;
* 作业提交说明：&lt;br /&gt;
** 附件中给出本次作业使用的倒排索引文件（可以在作业5的基础上进行优化），&amp;lt;font color=&amp;quot;red&amp;quot;&amp;gt;不需要提供构建倒排索引的代码，但在实验报告中给出倒排索引文件的说明，参考侯皓文同学&amp;lt;/font&amp;gt;&lt;br /&gt;
** 交集、并集操作用inter()、union()这两个函数单独封装&lt;br /&gt;
** &amp;lt;font color=&amp;quot;red&amp;quot;&amp;gt;对4个语句&amp;lt;/font&amp;gt; 'A', 'B', 'A AND B', 'A OR B' （A、B为自定义的查询词） 分别进行一次查询，每次的查询结果单独保存到一个txt文件中，以查询语句作为文件名（如 'A AND B.txt'`）&lt;br /&gt;
** 结果展示部分，文件按名字字母序排序：指字符序（用内置的sort即可），先用pinyin包转成拼音再排序也可以，不要自行改变文件名（如 阿大.txt -&amp;gt; 34.txt）&lt;br /&gt;
** 实现更复杂的查询，如：'A AND B OR C' 可以加分&lt;br /&gt;
** 查询词的加重（用#标记）不做强制要求，但做了加分&lt;br /&gt;
&lt;br /&gt;
== 作业7：基于向量空间模型（VSM）和tf-idf权重的网页相关性排序 ==&lt;br /&gt;
&lt;br /&gt;
* 作业提交时间截止时间：xx之前提交&lt;br /&gt;
** 视频：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/web-page-rank.mp4 作业7]&lt;br /&gt;
** 图片：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/web-page-rank-1.jpg 图片1]  [http://hlt.suda.edu.cn/LA/Ir-2022-Spring/web-page-rank-2.jpg 图片2]&lt;br /&gt;
* 作业要求：&lt;br /&gt;
** 如果无法理解向量空间模型，可以选择做tf-idf作业，但最多只给50分&lt;br /&gt;
** 实现基于向量空间模型的网页相关性排序&lt;br /&gt;
** 给定一个查询Q：可以是手动用空格分好词的&amp;quot;李正华 招收 学生&amp;quot;；也可以是未分词的&amp;quot;李正华招收学生&amp;quot;，之后用最大匹配分词分好词 -&amp;gt; &amp;quot;李正华 招收 学生&amp;quot;&lt;br /&gt;
** 注释：一个给定分词的查询Q实际上等价于布尔查询OR：&amp;quot;李正华 招收 学生&amp;quot; &amp;lt;=&amp;gt; &amp;quot;李正华 OR 招收 OR 学生&amp;quot;&lt;br /&gt;
* 作业提交说明：&lt;br /&gt;
** 附件中给出本任务所使用的倒排索引文件&lt;br /&gt;
** 在实验报告中说明对于余弦相似度计算中的：di[k]、q[k]、|di|、|q|是如何处理或存储的&lt;br /&gt;
** 附件中给出一个查询Q的结果，保存为文本文件&amp;quot;Q.txt&amp;quot;中，格式为：&lt;br /&gt;
&lt;br /&gt;
  文档名1（余弦相似度Sim） # Sim值可不除以|q|的值，一个例子： 阿鲁巴岛.txt(0.64)&lt;br /&gt;
  句子1&lt;br /&gt;
  句子2&lt;br /&gt;
  ...&lt;br /&gt;
  文档名2（余弦相似度Sim）&lt;br /&gt;
  句子1&lt;br /&gt;
  句子2&lt;br /&gt;
  ...&lt;br /&gt;
  ......&lt;br /&gt;
&lt;br /&gt;
== 作业8：爬虫和某机构主页检索系统（综合项目） ==&lt;br /&gt;
&lt;br /&gt;
* 作业提交时间截止时间：xx之前提交&lt;br /&gt;
** 视频：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/web-spider.mp4 作业8]&lt;br /&gt;
** PPT：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/web-spider.pptx PPT]&lt;br /&gt;
* 任务一：用&amp;lt;font color=&amp;quot;red&amp;quot;&amp;gt;爬虫模块&amp;lt;/font&amp;gt;尽量完整地爬下来一个机构对应的所有静态网页（html或htm后缀），保存到磁盘中：&lt;br /&gt;
** 苏大、苏大计算机学院（规模小一点）都可以&lt;br /&gt;
** orphan网页不用考虑&lt;br /&gt;
* 任务二：基于爬取的网页，做一个完整的检索系统（以后可以考虑不断完善、定时更新）：&lt;br /&gt;
** 1. &amp;lt;font color=&amp;quot;red&amp;quot;&amp;gt;网页正文提取模块&amp;lt;/font&amp;gt;（同作业4的实战部分一致）&lt;br /&gt;
** 2. 处理网页正文的&amp;lt;font color=&amp;quot;red&amp;quot;&amp;gt;分句、分词模块&amp;lt;/font&amp;gt;（可以用作业3的最大匹配分词，也可以用第三方的分词器，如jieba）&lt;br /&gt;
** 3. &amp;lt;font color=&amp;quot;red&amp;quot;&amp;gt;倒排索引模块&amp;lt;/font&amp;gt;：基于处理好的网页正文，建立倒排索引文件（同作业5一致）&lt;br /&gt;
** 4. &amp;lt;font color=&amp;quot;red&amp;quot;&amp;gt;网页排序模块&amp;lt;/font&amp;gt;：实现网页相关性排序（同作业7一致）&lt;br /&gt;
** 5. &amp;lt;font color=&amp;quot;red&amp;quot;&amp;gt;查询模块&amp;lt;/font&amp;gt;：提供查询接口，用户输入查询词后显示网页名（暂定为网页的title），和包含查询词的句子，查询词进行highlight处理（如#查询词#）。查询接口可以用命令行实现，提供前端UI界面（Web或Application都可以）会获得加分。&lt;br /&gt;
&lt;br /&gt;
注意：把网页源文件（html文件）保存好，避免重复爬。例如优化了网页正文提取模块、或突然想用一个更好的分词器&lt;br /&gt;
&lt;br /&gt;
* 作业提交说明：&lt;br /&gt;
** 源代码：任务一和任务二的所有代码都要提交，每个模块（共6个，在上方已用红色标出）在readme中指明在哪个python文件中实现的&lt;br /&gt;
** 处理好的网页数据（可选）：原始网页，提取出并分好句、分好词的网页正文，若网页数据特别大的话可以不要&lt;br /&gt;
** 在实验报告中将三项统计信息放到表格中：网页（文档）数、句子数、单词数&lt;br /&gt;
** 倒排索引文件（必备）&lt;br /&gt;
** 说明文档：(每个模块的)实现的功能，如何使用，接口等，内容不限&lt;br /&gt;
&lt;br /&gt;
== 作业9：深度学习方法&amp;amp;检索结果的评价 ==&lt;br /&gt;
&lt;br /&gt;
* 要求&lt;br /&gt;
** 账号环境，跑推理代码，重现完成部分实验。&lt;br /&gt;
*** 具体要跑哪些实验，请看文档最后的表格：[https://resplendent-gumdrop-ad2cd4.netlify.app/contriever-ir-course-assignment/ 具体文档] &lt;br /&gt;
** 自己实现评价指标，自己的评价指标的结果，和contriever 的结果一致。&lt;br /&gt;
** VSM和 Contriever 的对比&lt;br /&gt;
 &amp;lt;nowiki&amp;gt; 针对自己实现的“苏大计算机官网搜索引擎”，去对比VSM和Contriever的效果。&lt;br /&gt;
     自己设计10个难度不同的 query，然后 VSM 返回 50 个结果，把这 50 个结果随机打乱顺序（这一步很重要），然后人工做一个标注（给一个排序）【如果觉得 10 个 query 太多，5 个也行】&lt;br /&gt;
     Contriever对 50 个结果重排序&lt;br /&gt;
     比较两种方法的结果：NDCG@5      NDCG@10       NDCG@20等&lt;br /&gt;
     如果有能力、有时间，可以分析下：什么样的query，VSM 做得好；什么样的 query，Contriever 做得好。 &amp;lt;/nowiki&amp;gt;&lt;br /&gt;
** 实验报告体现出自己做了什么、遇到的困难及如何解决。&lt;br /&gt;
&lt;br /&gt;
* 参考资料&lt;br /&gt;
** 上面的文档&lt;br /&gt;
** 微信公众号”语析LAGroup“中 contriever 论文解读&lt;br /&gt;
** contriever 原文&lt;br /&gt;
&lt;br /&gt;
== 时间表 ==&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
 &amp;lt;nowiki&amp;gt;&lt;br /&gt;
3.5 第1周&lt;br /&gt;
3.12 第2周&lt;br /&gt;
&lt;br /&gt;
xxx&lt;br /&gt;
3.25 第5周&lt;br /&gt;
4.1 第6周&lt;br /&gt;
4.29 第10周&lt;br /&gt;
5.6 第11周&lt;br /&gt;
5.27 第14周&lt;br /&gt;
6.3 第15周&lt;br /&gt;
6.17 第17周&lt;br /&gt;
&lt;br /&gt;
1	08:00-08:45&lt;br /&gt;
2	08:50-09:35&lt;br /&gt;
3	09:55-10:40&lt;br /&gt;
4	10:45-11:30&lt;br /&gt;
5	11:35-12:20&lt;br /&gt;
6	14:00-14:45&lt;br /&gt;
7	14:50-15:35 【休息5分钟，+15分钟】&lt;br /&gt;
8	15:55-16:40 &lt;br /&gt;
9	16:45-17:30 【17:15】   &lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
考虑来2-3 次考试。&lt;br /&gt;
闭卷考试，比较正式的那种。在机房里就行。然后拍照留存？&lt;br /&gt;
&lt;br /&gt;
2次考试的方案：&lt;br /&gt;
倒排搞完 考一次&lt;br /&gt;
最后一次 &lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
3次考试的方案：&lt;br /&gt;
最大匹配分词搞完，考一次&lt;br /&gt;
布尔查询搞完 考一次&lt;br /&gt;
最后一次 &lt;br /&gt;
&lt;br /&gt;
上机课9 个作业，实验报告，主要是形式审查，占比比较低。要根据考试的成绩，然后加权得到每一次作业的成绩。&lt;br /&gt;
最后，9 个作业再按照一定比例，得到实验成绩。&lt;br /&gt;
&lt;br /&gt;
&amp;lt;/nowiki&amp;gt;&lt;/div&gt;</summary>
		<author><name>Zhli</name></author>
	</entry>
	<entry>
		<id>http://hlt.suda.edu.cn/index.php?title=Ir-2026-spring&amp;diff=6176</id>
		<title>Ir-2026-spring</title>
		<link rel="alternate" type="text/html" href="http://hlt.suda.edu.cn/index.php?title=Ir-2026-spring&amp;diff=6176"/>
		<updated>2026-03-05T05:59:23Z</updated>

		<summary type="html">&lt;p&gt;Zhli：&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;&lt;br /&gt;
&lt;br /&gt;
= 信息检索综合实践 =&lt;br /&gt;
&lt;br /&gt;
李正华&lt;br /&gt;
&lt;br /&gt;
* 学生：计23计科1班	 	 	 &lt;br /&gt;
* 助教：吕喆、梅睿桐  &lt;br /&gt;
* QQ: 1029471123&lt;br /&gt;
* 时间：周四 6-9 节课 1-17 周&lt;br /&gt;
* 地点：理工楼238&lt;br /&gt;
&lt;br /&gt;
== 上课基本要求 ==&lt;br /&gt;
* 不能做的事情：打游戏、看课程无关视频、刷网页&lt;br /&gt;
* 认真读作业要求，按时交作业。csteaching&lt;br /&gt;
* 不能抄袭别人或网上的，自己做；不要把自己的作业给别人&lt;br /&gt;
&lt;br /&gt;
== 课程建议 ==&lt;br /&gt;
* 每个作业，截止时间后，把成绩发给大家，并用ppt给大家讲一下批作业发现的问题，题目分析&lt;br /&gt;
* 上课期间：请大家积极提问。遇到大家都无法理解的公共问题，我会补充讲解&lt;br /&gt;
* 非上课时间提问&lt;br /&gt;
** 建议同学们在群里提问（包括但不限于代码的bug、不理解算法、作业资源和提交等），由其他同学帮助解答；&lt;br /&gt;
** 群里的提问如果其他同学也无法回答，可以私信助教（仅限xxx，如周四晚上7点到9点，吕喆增加）；&lt;br /&gt;
&lt;br /&gt;
== 计算成绩的规则和说明（待定） ==&lt;br /&gt;
* &amp;lt;font color='red&amp;gt;核心要求：掌握最基本的概念、方法、算法&amp;lt;/font&amp;gt;&lt;br /&gt;
* 实验作业：70-80分&lt;br /&gt;
** 一系列作业，每个作业10-20分（形式检查为辅、考核为主）&lt;br /&gt;
** 必须按照规定时间，按照规定格式要求，将实验报告+源代码，提交到csteaching&lt;br /&gt;
&lt;br /&gt;
* 期末面对面小测验：10分&lt;br /&gt;
** 考察课程相关的基础知识，看看作业是否是自己做的&lt;br /&gt;
&lt;br /&gt;
* 平时成绩：10-20分&lt;br /&gt;
** 不能迟到、早退，特殊情况必须请假，并带辅导员签字的假条；&lt;br /&gt;
** 点名时，如果发现名单上没有你的名字，及时提出&lt;br /&gt;
&lt;br /&gt;
== 提交作业说明 ==&lt;br /&gt;
* 网址：[http://csteaching.suda.edu.cn csteaching]&lt;br /&gt;
* &amp;lt;font color='red&amp;gt;作业迟交了则最终成绩会按一定比例缩减&amp;lt;/font&amp;gt;&lt;br /&gt;
* 包含两部分&lt;br /&gt;
** 实验报告（pdf文件，&amp;lt;font color='red&amp;gt;请把word转为pdf&amp;lt;/font&amp;gt;）&lt;br /&gt;
*** 请按照实验模版[[:文件:ir-2022-spring-report.doc]]，认真填写个人信息、实验题目、实验内容等&lt;br /&gt;
*** 不要大段粘贴代码，最多可以粘贴核心的一小段代码，&amp;lt;font color='red&amp;gt;粘贴大段代码会扣分&amp;lt;/font&amp;gt;&lt;br /&gt;
*** 写清楚自己的解决思路，尤其是遇到的难点和如何解决&lt;br /&gt;
*** 建议可以画流程图或者写伪代码。&lt;br /&gt;
*** 解决思路的流程图中是以文字为主还是以代码为主？报告中不要直接放代码。文字为主，不在于写得长，而在于写清楚，表明你确实做了、想了。&lt;br /&gt;
*** 问：流程图可以改成自然语言描述或者是伪代码吗？答：流程图也可以画的很high-level的。大家自由发挥。也可以画到纸上然后拍照截图。模块化思维 大问题分解小问题 。&lt;br /&gt;
*** &amp;lt;font color='red&amp;gt;将程序运行结果截图，没有运行结果会扣分&amp;lt;/font&amp;gt;，中间的输出结果/文件可以截图一部分&lt;br /&gt;
** 附件（.zip压缩包）&lt;br /&gt;
*** 源代码：代码不要都团在一起，请用空行对代码进行分隔，并简单注释代码块的功能&lt;br /&gt;
*** readme.txt文件：说明如何运行你的程序，需要什么环境，如windows或linux，python版本如python3.5&lt;br /&gt;
* 提交前自我检查&lt;br /&gt;
** 是否有包含readme.txt文件解释如何编译执行你的程序。 &amp;lt;font color='red&amp;gt;如没有该文件，将减分。&amp;lt;/font&amp;gt;&lt;br /&gt;
** 是否认真完成实验报告&lt;br /&gt;
** 是否可以按照readme.txt正确编译和运行程序&lt;br /&gt;
** 是否包含别人的代码，&amp;lt;font color='red&amp;gt;抄袭和被抄袭的都是0分&amp;lt;/font&amp;gt;&lt;br /&gt;
** 期末可能会用软件做自动抄袭检查&lt;br /&gt;
** 等这学期最后几周，我们可能统一对所有的作业做自动查重，到时候也会查出一些问题。 &amp;lt;font color='red&amp;gt;请大家一定要自己做，编程能力差一点，就做得简单一点，能力强，就做得好一点。但是一定要自己做。 &amp;lt;/font&amp;gt;&lt;br /&gt;
* 提交作业命名规则&lt;br /&gt;
** 实验报告（姓名学号.pdf）&lt;br /&gt;
** 附件（姓名学号.zip）&lt;br /&gt;
&lt;br /&gt;
== 实验报告word模板 ==&lt;br /&gt;
* [[:文件:ir-2022-spring-report.doc]]&lt;br /&gt;
&lt;br /&gt;
== 具体课程（含作业） == &lt;br /&gt;
&lt;br /&gt;
{| class=&amp;quot;wikitable&amp;quot;&lt;br /&gt;
! style=&amp;quot;text-align:left;&amp;quot;| 作业&lt;br /&gt;
! 成绩比例&lt;br /&gt;
! 评分要点&lt;br /&gt;
|-&lt;br /&gt;
| 分字&lt;br /&gt;
| 5%&lt;br /&gt;
| 按字节读取并判断高位&lt;br /&gt;
|-&lt;br /&gt;
| 单词计数&lt;br /&gt;
| 5%&lt;br /&gt;
| 无&lt;br /&gt;
|-&lt;br /&gt;
| 最大匹配分词&lt;br /&gt;
| 10%&lt;br /&gt;
| 算法和评价正确实现&lt;br /&gt;
|-&lt;br /&gt;
| 网页正文抽取&lt;br /&gt;
| 10%&lt;br /&gt;
| 按要求完成两个任务&lt;br /&gt;
|-&lt;br /&gt;
| 倒排索引&lt;br /&gt;
| 10%&lt;br /&gt;
| 高效创建倒排文件&lt;br /&gt;
|-&lt;br /&gt;
| 布尔查询&lt;br /&gt;
| 10%&lt;br /&gt;
| inter和union的复杂度为O(n)，复杂查询用堆栈判断优先级&lt;br /&gt;
|-&lt;br /&gt;
| 网页相关性排序&lt;br /&gt;
| 15%&lt;br /&gt;
| 基于向量空间模型VSM、tf-idf权重&lt;br /&gt;
|-&lt;br /&gt;
| 爬虫和某机构主页检索系统&lt;br /&gt;
| 15%&lt;br /&gt;
| 实现爬虫，系统架构设计良好，说明文档详细，UI完整&lt;br /&gt;
|-&lt;br /&gt;
| &amp;lt;font color='black&amp;gt;基于深度学习的检索系统&amp;lt;/font&amp;gt;&lt;br /&gt;
| 20%【比例低一点】&lt;br /&gt;
| Contriever：重现部分实验结果；自己实现评价指标；在上一个作业中的爬虫和检索系统的基础上，自己设计、标注 10 个 query，对比向量空间模型VSM 和Contriever 的效果，给出评价结果。建议：VSM 给 100 个结果，然后 Contriever 重排序，然后人工标注，具体如何标注更合理，自己考虑好。&lt;br /&gt;
|-&lt;br /&gt;
|}&lt;br /&gt;
&lt;br /&gt;
== 信息检索课程介绍 ==&lt;br /&gt;
* [http://hlt.suda.edu.cn/~zhli/teach/ir-2019-spring/ir-introduction-v0.4.pdf PPT下载]&lt;br /&gt;
* 2022春视频和图片：&lt;br /&gt;
** 低画质：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/course-intro-low-quality.mp4 课程介绍]&lt;br /&gt;
** 高画质：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/course-intro-part-1.mp4 课程介绍-part1]、 [http://hlt.suda.edu.cn/LA/Ir-2022-Spring/course-intro-part-2.mp4 课程介绍-part2]&lt;br /&gt;
** 图片：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/course-intro.jpg 图]&lt;br /&gt;
&lt;br /&gt;
* &amp;lt;font color='red&amp;gt;和2022年课程的区别&amp;lt;/font&amp;gt;：增加了'''基于深度学习的检索'''的内容，删除'''词性标注'''相关内容&lt;br /&gt;
&lt;br /&gt;
== 信息检索系统介绍 ==&lt;br /&gt;
* 2022春视频：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/intro-to-info-retrieval.mp4 信息检索系统介绍]&lt;br /&gt;
= 具体作业 =&lt;br /&gt;
&lt;br /&gt;
== 作业1：分字（C++语言） ==&lt;br /&gt;
* 2022春视频和图片：&lt;br /&gt;
** 低画质：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/split-char-low-quality.mp4 作业1]&lt;br /&gt;
** 高画质：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/split-char-part-1.mp4 作业1-part1]、 [http://hlt.suda.edu.cn/LA/Ir-2022-Spring/split-char-part-2.mp4 作业1-part2]&lt;br /&gt;
** 图片：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/split-char-figure-1.jpg 图1]、 [http://hlt.suda.edu.cn/LA/Ir-2022-Spring/split-char-figure-2.jpg 图2]&lt;br /&gt;
* UTF-8数据：[[文件:sentence.txt]]&lt;br /&gt;
* UFT-8编码规则：&lt;br /&gt;
 &amp;lt;nowiki&amp;gt;&lt;br /&gt;
1字节 0xxxxxxx&lt;br /&gt;
2字节 110xxxxx 10xxxxxx&lt;br /&gt;
3字节 1110xxxx 10xxxxxx 10xxxxxx&lt;br /&gt;
4字节 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx&lt;br /&gt;
5字节 111110xx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx&lt;br /&gt;
6字节 1111110x 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx &amp;lt;/nowiki&amp;gt;&lt;br /&gt;
&lt;br /&gt;
== 作业2：单词计数 ==&lt;br /&gt;
* 课件 [http://hlt.suda.edu.cn/~zhli/teach/ir-2019-spring/word-count.pdf PPT下载]&lt;br /&gt;
* 2022春视频：&lt;br /&gt;
** 低画质：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/word-count-low-quality.mp4 作业2]&lt;br /&gt;
** 高画质：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/word-count-2.mp4 作业2] &lt;br /&gt;
* 数据 [http://hlt.suda.edu.cn/~zhli/teach/ir-2019-spring/sample-en.txt txt下载]&lt;br /&gt;
&lt;br /&gt;
== 作业3：最大匹配分词 == &lt;br /&gt;
* 作业提交时间截止时间：第5周3.25下课之前提交&lt;br /&gt;
* 课件：前向最大匹配 PDF文件--[[文件:Word-seg-max-match.pdf]]；PPT文件--[[文件:Word-seg-max-match.zip]]&lt;br /&gt;
* 2022春视频和图片：&lt;br /&gt;
** 低画质：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/word-seg-max-match-low-quality.mp4 作业3]&lt;br /&gt;
** 高画质：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/word-seg-max-match.mp4 作业3] &lt;br /&gt;
** 图片：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/word-seg-max-match.jpg 图] &lt;br /&gt;
&lt;br /&gt;
* 数据下载：&lt;br /&gt;
** 字典：[[文件:dict.txt]] &lt;br /&gt;
** 待分词：[[文件:sentence.txt]] &lt;br /&gt;
** 正确答案（人工标注的，你的模型的预测结果要和这个文件进行对比，从而得到P/R/F值）：[[文件:answer.txt]]；&lt;br /&gt;
** 正向最大匹配分词模型的预测结果（如果你的程序写对了，那么应该和这个结果一模一样）：[[文件:out.txt]]&lt;br /&gt;
&lt;br /&gt;
 &amp;lt;nowiki&amp;gt;&lt;br /&gt;
*正确实验结果&lt;br /&gt;
**正确识别的词数：20263&lt;br /&gt;
**识别出的总体个数：20397&lt;br /&gt;
**测试集中的总体个数：20454&lt;br /&gt;
**正确率：0.99343&lt;br /&gt;
**召回率：0.99066&lt;br /&gt;
**F值：0.99204 &amp;lt;/nowiki&amp;gt;&lt;br /&gt;
&lt;br /&gt;
== 作业4：网页正文抽取 ==&lt;br /&gt;
&lt;br /&gt;
* 作业提交时间截止时间：x.x下课前提交&lt;br /&gt;
* 2022春视频： [http://hlt.suda.edu.cn/LA/Ir-2022-Spring/web-page-content-extraction.mp4 作业4]&lt;br /&gt;
* 课件（&amp;lt;font color='red'&amp;gt;请严格按照课件要求完成作业&amp;lt;/font&amp;gt;）： &lt;br /&gt;
** [[:文件:ir-2022-spring-web-page-content-extraction.ppt]]&lt;br /&gt;
** [[:文件:ir-2022-spring-web-page-content-extraction.pdf]]&lt;br /&gt;
* 数据&lt;br /&gt;
** 1.html和2.html [[:文件:ir-2022-spring-example-html.zip]]&lt;br /&gt;
** data-1k：1000个html文件 [[:文件:ir-2022-spring-all-html.zip]] （如果文件出现乱码，请到qq群里下载）&lt;br /&gt;
&lt;br /&gt;
== 作业5：倒排索引 == &lt;br /&gt;
&lt;br /&gt;
* 作业提交时间截止时间：第8周4.15下课前提交&lt;br /&gt;
* 课件： &lt;br /&gt;
** 仅供参考，与本次作业要求无关：[[:文件:ir-2022-spring-inverted-index-simplified.ppt]]&lt;br /&gt;
*  2022春视频和图片： &lt;br /&gt;
** 视频：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/inverted-index.mp4 作业5]&lt;br /&gt;
** 图片：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/inverted-index.jpg 图]&lt;br /&gt;
* 数据&lt;br /&gt;
** 停用词表：[https://github.com/goto456/stopwords github网址] [http://hlt.suda.edu.cn/LA/Ir-2022-Spring/stopwords.zip 苏大本地下载] &lt;br /&gt;
** 结巴词典：[https://github.com/fxsjy/jieba/tree/master/extra_dict github网址] [http://hlt.suda.edu.cn/LA/Ir-2022-Spring/word_dict.zip 苏大本地下载]&lt;br /&gt;
** 结巴词典文件每一行有3列，为：单词、词频、词性，只需要使用第一列的单词即可，使用small进行调试，提交作业用big&lt;br /&gt;
&lt;br /&gt;
== 作业6：布尔查询 ==&lt;br /&gt;
&lt;br /&gt;
* 作业提交时间截止时间：x.x下课前提交&lt;br /&gt;
*  2022春视频和图片： &lt;br /&gt;
** 视频：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/bool-query.mp4 作业6]&lt;br /&gt;
** 图片：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/bool-query.jpg 图]&lt;br /&gt;
* 作业提交说明：&lt;br /&gt;
** 附件中给出本次作业使用的倒排索引文件（可以在作业5的基础上进行优化），&amp;lt;font color=&amp;quot;red&amp;quot;&amp;gt;不需要提供构建倒排索引的代码，但在实验报告中给出倒排索引文件的说明，参考侯皓文同学&amp;lt;/font&amp;gt;&lt;br /&gt;
** 交集、并集操作用inter()、union()这两个函数单独封装&lt;br /&gt;
** &amp;lt;font color=&amp;quot;red&amp;quot;&amp;gt;对4个语句&amp;lt;/font&amp;gt; 'A', 'B', 'A AND B', 'A OR B' （A、B为自定义的查询词） 分别进行一次查询，每次的查询结果单独保存到一个txt文件中，以查询语句作为文件名（如 'A AND B.txt'`）&lt;br /&gt;
** 结果展示部分，文件按名字字母序排序：指字符序（用内置的sort即可），先用pinyin包转成拼音再排序也可以，不要自行改变文件名（如 阿大.txt -&amp;gt; 34.txt）&lt;br /&gt;
** 实现更复杂的查询，如：'A AND B OR C' 可以加分&lt;br /&gt;
** 查询词的加重（用#标记）不做强制要求，但做了加分&lt;br /&gt;
&lt;br /&gt;
== 作业7：基于向量空间模型（VSM）和tf-idf权重的网页相关性排序 ==&lt;br /&gt;
&lt;br /&gt;
* 作业提交时间截止时间：xx之前提交&lt;br /&gt;
** 视频：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/web-page-rank.mp4 作业7]&lt;br /&gt;
** 图片：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/web-page-rank-1.jpg 图片1]  [http://hlt.suda.edu.cn/LA/Ir-2022-Spring/web-page-rank-2.jpg 图片2]&lt;br /&gt;
* 作业要求：&lt;br /&gt;
** 如果无法理解向量空间模型，可以选择做tf-idf作业，但最多只给50分&lt;br /&gt;
** 实现基于向量空间模型的网页相关性排序&lt;br /&gt;
** 给定一个查询Q：可以是手动用空格分好词的&amp;quot;李正华 招收 学生&amp;quot;；也可以是未分词的&amp;quot;李正华招收学生&amp;quot;，之后用最大匹配分词分好词 -&amp;gt; &amp;quot;李正华 招收 学生&amp;quot;&lt;br /&gt;
** 注释：一个给定分词的查询Q实际上等价于布尔查询OR：&amp;quot;李正华 招收 学生&amp;quot; &amp;lt;=&amp;gt; &amp;quot;李正华 OR 招收 OR 学生&amp;quot;&lt;br /&gt;
* 作业提交说明：&lt;br /&gt;
** 附件中给出本任务所使用的倒排索引文件&lt;br /&gt;
** 在实验报告中说明对于余弦相似度计算中的：di[k]、q[k]、|di|、|q|是如何处理或存储的&lt;br /&gt;
** 附件中给出一个查询Q的结果，保存为文本文件&amp;quot;Q.txt&amp;quot;中，格式为：&lt;br /&gt;
&lt;br /&gt;
  文档名1（余弦相似度Sim） # Sim值可不除以|q|的值，一个例子： 阿鲁巴岛.txt(0.64)&lt;br /&gt;
  句子1&lt;br /&gt;
  句子2&lt;br /&gt;
  ...&lt;br /&gt;
  文档名2（余弦相似度Sim）&lt;br /&gt;
  句子1&lt;br /&gt;
  句子2&lt;br /&gt;
  ...&lt;br /&gt;
  ......&lt;br /&gt;
&lt;br /&gt;
== 作业8：爬虫和某机构主页检索系统（综合项目） ==&lt;br /&gt;
&lt;br /&gt;
* 作业提交时间截止时间：xx之前提交&lt;br /&gt;
** 视频：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/web-spider.mp4 作业8]&lt;br /&gt;
** PPT：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/web-spider.pptx PPT]&lt;br /&gt;
* 任务一：用&amp;lt;font color=&amp;quot;red&amp;quot;&amp;gt;爬虫模块&amp;lt;/font&amp;gt;尽量完整地爬下来一个机构对应的所有静态网页（html或htm后缀），保存到磁盘中：&lt;br /&gt;
** 苏大、苏大计算机学院（规模小一点）都可以&lt;br /&gt;
** orphan网页不用考虑&lt;br /&gt;
* 任务二：基于爬取的网页，做一个完整的检索系统（以后可以考虑不断完善、定时更新）：&lt;br /&gt;
** 1. &amp;lt;font color=&amp;quot;red&amp;quot;&amp;gt;网页正文提取模块&amp;lt;/font&amp;gt;（同作业4的实战部分一致）&lt;br /&gt;
** 2. 处理网页正文的&amp;lt;font color=&amp;quot;red&amp;quot;&amp;gt;分句、分词模块&amp;lt;/font&amp;gt;（可以用作业3的最大匹配分词，也可以用第三方的分词器，如jieba）&lt;br /&gt;
** 3. &amp;lt;font color=&amp;quot;red&amp;quot;&amp;gt;倒排索引模块&amp;lt;/font&amp;gt;：基于处理好的网页正文，建立倒排索引文件（同作业5一致）&lt;br /&gt;
** 4. &amp;lt;font color=&amp;quot;red&amp;quot;&amp;gt;网页排序模块&amp;lt;/font&amp;gt;：实现网页相关性排序（同作业7一致）&lt;br /&gt;
** 5. &amp;lt;font color=&amp;quot;red&amp;quot;&amp;gt;查询模块&amp;lt;/font&amp;gt;：提供查询接口，用户输入查询词后显示网页名（暂定为网页的title），和包含查询词的句子，查询词进行highlight处理（如#查询词#）。查询接口可以用命令行实现，提供前端UI界面（Web或Application都可以）会获得加分。&lt;br /&gt;
&lt;br /&gt;
注意：把网页源文件（html文件）保存好，避免重复爬。例如优化了网页正文提取模块、或突然想用一个更好的分词器&lt;br /&gt;
&lt;br /&gt;
* 作业提交说明：&lt;br /&gt;
** 源代码：任务一和任务二的所有代码都要提交，每个模块（共6个，在上方已用红色标出）在readme中指明在哪个python文件中实现的&lt;br /&gt;
** 处理好的网页数据（可选）：原始网页，提取出并分好句、分好词的网页正文，若网页数据特别大的话可以不要&lt;br /&gt;
** 在实验报告中将三项统计信息放到表格中：网页（文档）数、句子数、单词数&lt;br /&gt;
** 倒排索引文件（必备）&lt;br /&gt;
** 说明文档：(每个模块的)实现的功能，如何使用，接口等，内容不限&lt;br /&gt;
&lt;br /&gt;
== 作业9：深度学习方法&amp;amp;检索结果的评价 ==&lt;br /&gt;
&lt;br /&gt;
* 要求&lt;br /&gt;
** 账号环境，跑推理代码，重现完成部分实验。&lt;br /&gt;
*** 具体要跑哪些实验，请看文档最后的表格：[https://resplendent-gumdrop-ad2cd4.netlify.app/contriever-ir-course-assignment/ 具体文档] &lt;br /&gt;
** 自己实现评价指标，自己的评价指标的结果，和contriever 的结果一致。&lt;br /&gt;
** VSM和 Contriever 的对比&lt;br /&gt;
 &amp;lt;nowiki&amp;gt; 针对自己实现的“苏大计算机官网搜索引擎”，去对比VSM和Contriever的效果。&lt;br /&gt;
     自己设计10个难度不同的 query，然后 VSM 返回 50 个结果，把这 50 个结果随机打乱顺序（这一步很重要），然后人工做一个标注（给一个排序）【如果觉得 10 个 query 太多，5 个也行】&lt;br /&gt;
     Contriever对 50 个结果重排序&lt;br /&gt;
     比较两种方法的结果：NDCG@5      NDCG@10       NDCG@20等&lt;br /&gt;
     如果有能力、有时间，可以分析下：什么样的query，VSM 做得好；什么样的 query，Contriever 做得好。 &amp;lt;/nowiki&amp;gt;&lt;br /&gt;
** 实验报告体现出自己做了什么、遇到的困难及如何解决。&lt;br /&gt;
&lt;br /&gt;
* 参考资料&lt;br /&gt;
** 上面的文档&lt;br /&gt;
** 微信公众号”语析LAGroup“中 contriever 论文解读&lt;br /&gt;
** contriever 原文&lt;br /&gt;
&lt;br /&gt;
== 时间表 ==&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
 &amp;lt;nowiki&amp;gt;&lt;br /&gt;
3.5 第1周&lt;br /&gt;
3.12 第2周&lt;br /&gt;
&lt;br /&gt;
xxx&lt;br /&gt;
3.25 第5周&lt;br /&gt;
4.1 第6周&lt;br /&gt;
4.29 第10周&lt;br /&gt;
5.6 第11周&lt;br /&gt;
5.27 第14周&lt;br /&gt;
6.3 第15周&lt;br /&gt;
6.17 第17周&lt;br /&gt;
&lt;br /&gt;
1	08:00-08:45&lt;br /&gt;
2	08:50-09:35&lt;br /&gt;
3	09:55-10:40&lt;br /&gt;
4	10:45-11:30&lt;br /&gt;
5	11:35-12:20&lt;br /&gt;
6	14:00-14:45&lt;br /&gt;
7	14:50-15:35 【休息5分钟，+15分钟】&lt;br /&gt;
8	15:55-16:40 &lt;br /&gt;
9	16:45-17:30 【17:15】   &lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
考虑来2-3 次考试。&lt;br /&gt;
闭卷考试，比较正式的那种。在机房里就行。然后拍照留存？&lt;br /&gt;
&lt;br /&gt;
2次考试的方案：&lt;br /&gt;
倒排搞完 考一次&lt;br /&gt;
最后一次 &lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
3次考试的方案：&lt;br /&gt;
最大匹配分词搞完，考一次&lt;br /&gt;
布尔查询搞完 考一次&lt;br /&gt;
最后一次 &lt;br /&gt;
&lt;br /&gt;
上机课9 个作业，实验报告，主要是形式审查，占比比较低。要根据考试的成绩，然后加权得到每一次作业的成绩。&lt;br /&gt;
最后，9 个作业再按照一定比例，得到实验成绩。&lt;br /&gt;
&lt;br /&gt;
&amp;lt;/nowiki&amp;gt;&lt;/div&gt;</summary>
		<author><name>Zhli</name></author>
	</entry>
	<entry>
		<id>http://hlt.suda.edu.cn/index.php?title=Ir-2026-spring&amp;diff=6175</id>
		<title>Ir-2026-spring</title>
		<link rel="alternate" type="text/html" href="http://hlt.suda.edu.cn/index.php?title=Ir-2026-spring&amp;diff=6175"/>
		<updated>2026-03-05T05:05:48Z</updated>

		<summary type="html">&lt;p&gt;Zhli：/* 计算成绩的规则和说明（待定） */&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;&lt;br /&gt;
&lt;br /&gt;
= 信息检索综合实践 =&lt;br /&gt;
&lt;br /&gt;
李正华&lt;br /&gt;
&lt;br /&gt;
* 学生：计23计科1班	 	 	 &lt;br /&gt;
* 助教：吕喆、梅睿桐&lt;br /&gt;
* 时间：周四 6-9 节课 1-17 周&lt;br /&gt;
* 地点：理工楼238&lt;br /&gt;
&lt;br /&gt;
== 上课基本要求 ==&lt;br /&gt;
* 不能做的事情：打游戏、看课程无关视频、刷网页&lt;br /&gt;
* 认真读作业要求，按时交作业。csteaching&lt;br /&gt;
* 不能抄袭别人或网上的，自己做；不要把自己的作业给别人&lt;br /&gt;
&lt;br /&gt;
== 课程建议 ==&lt;br /&gt;
* 每个作业，截止时间后，把成绩发给大家，并用ppt给大家讲一下批作业发现的问题，题目分析&lt;br /&gt;
* 上课期间：请大家积极提问。遇到大家都无法理解的公共问题，我会补充讲解&lt;br /&gt;
* 非上课时间提问&lt;br /&gt;
** 建议同学们在群里提问（包括但不限于代码的bug、不理解算法、作业资源和提交等），由其他同学帮助解答；&lt;br /&gt;
** 群里的提问如果其他同学也无法回答，可以私信助教（仅限xxx，如周四晚上7点到9点，吕喆增加）；&lt;br /&gt;
&lt;br /&gt;
== 计算成绩的规则和说明（待定） ==&lt;br /&gt;
* &amp;lt;font color='red&amp;gt;核心要求：掌握最基本的概念、方法、算法&amp;lt;/font&amp;gt;&lt;br /&gt;
* 实验作业：70-80分&lt;br /&gt;
** 一系列作业，每个作业10-20分（形式检查为辅、考核为主）&lt;br /&gt;
** 必须按照规定时间，按照规定格式要求，将实验报告+源代码，提交到csteaching&lt;br /&gt;
&lt;br /&gt;
* 期末面对面小测验：10分&lt;br /&gt;
** 考察课程相关的基础知识，看看作业是否是自己做的&lt;br /&gt;
&lt;br /&gt;
* 平时成绩：10-20分&lt;br /&gt;
** 不能迟到、早退，特殊情况必须请假，并带辅导员签字的假条；&lt;br /&gt;
** 点名时，如果发现名单上没有你的名字，及时提出&lt;br /&gt;
&lt;br /&gt;
== 提交作业说明 ==&lt;br /&gt;
* 网址：[http://csteaching.suda.edu.cn csteaching]&lt;br /&gt;
* &amp;lt;font color='red&amp;gt;作业迟交了则最终成绩会按一定比例缩减&amp;lt;/font&amp;gt;&lt;br /&gt;
* 包含两部分&lt;br /&gt;
** 实验报告（pdf文件，&amp;lt;font color='red&amp;gt;请把word转为pdf&amp;lt;/font&amp;gt;）&lt;br /&gt;
*** 请按照实验模版[[:文件:ir-2022-spring-report.doc]]，认真填写个人信息、实验题目、实验内容等&lt;br /&gt;
*** 不要大段粘贴代码，最多可以粘贴核心的一小段代码，&amp;lt;font color='red&amp;gt;粘贴大段代码会扣分&amp;lt;/font&amp;gt;&lt;br /&gt;
*** 写清楚自己的解决思路，尤其是遇到的难点和如何解决&lt;br /&gt;
*** 建议可以画流程图或者写伪代码。&lt;br /&gt;
*** 解决思路的流程图中是以文字为主还是以代码为主？报告中不要直接放代码。文字为主，不在于写得长，而在于写清楚，表明你确实做了、想了。&lt;br /&gt;
*** 问：流程图可以改成自然语言描述或者是伪代码吗？答：流程图也可以画的很high-level的。大家自由发挥。也可以画到纸上然后拍照截图。模块化思维 大问题分解小问题 。&lt;br /&gt;
*** &amp;lt;font color='red&amp;gt;将程序运行结果截图，没有运行结果会扣分&amp;lt;/font&amp;gt;，中间的输出结果/文件可以截图一部分&lt;br /&gt;
** 附件（.zip压缩包）&lt;br /&gt;
*** 源代码：代码不要都团在一起，请用空行对代码进行分隔，并简单注释代码块的功能&lt;br /&gt;
*** readme.txt文件：说明如何运行你的程序，需要什么环境，如windows或linux，python版本如python3.5&lt;br /&gt;
* 提交前自我检查&lt;br /&gt;
** 是否有包含readme.txt文件解释如何编译执行你的程序。 &amp;lt;font color='red&amp;gt;如没有该文件，将减分。&amp;lt;/font&amp;gt;&lt;br /&gt;
** 是否认真完成实验报告&lt;br /&gt;
** 是否可以按照readme.txt正确编译和运行程序&lt;br /&gt;
** 是否包含别人的代码，&amp;lt;font color='red&amp;gt;抄袭和被抄袭的都是0分&amp;lt;/font&amp;gt;&lt;br /&gt;
** 期末可能会用软件做自动抄袭检查&lt;br /&gt;
** 等这学期最后几周，我们可能统一对所有的作业做自动查重，到时候也会查出一些问题。 &amp;lt;font color='red&amp;gt;请大家一定要自己做，编程能力差一点，就做得简单一点，能力强，就做得好一点。但是一定要自己做。 &amp;lt;/font&amp;gt;&lt;br /&gt;
* 提交作业命名规则&lt;br /&gt;
** 实验报告（姓名学号.pdf）&lt;br /&gt;
** 附件（姓名学号.zip）&lt;br /&gt;
&lt;br /&gt;
== 实验报告word模板 ==&lt;br /&gt;
* [[:文件:ir-2022-spring-report.doc]]&lt;br /&gt;
&lt;br /&gt;
== 具体课程（含作业） == &lt;br /&gt;
&lt;br /&gt;
{| class=&amp;quot;wikitable&amp;quot;&lt;br /&gt;
! style=&amp;quot;text-align:left;&amp;quot;| 作业&lt;br /&gt;
! 成绩比例&lt;br /&gt;
! 评分要点&lt;br /&gt;
|-&lt;br /&gt;
| 分字&lt;br /&gt;
| 5%&lt;br /&gt;
| 按字节读取并判断高位&lt;br /&gt;
|-&lt;br /&gt;
| 单词计数&lt;br /&gt;
| 5%&lt;br /&gt;
| 无&lt;br /&gt;
|-&lt;br /&gt;
| 最大匹配分词&lt;br /&gt;
| 10%&lt;br /&gt;
| 算法和评价正确实现&lt;br /&gt;
|-&lt;br /&gt;
| 网页正文抽取&lt;br /&gt;
| 10%&lt;br /&gt;
| 按要求完成两个任务&lt;br /&gt;
|-&lt;br /&gt;
| 倒排索引&lt;br /&gt;
| 10%&lt;br /&gt;
| 高效创建倒排文件&lt;br /&gt;
|-&lt;br /&gt;
| 布尔查询&lt;br /&gt;
| 10%&lt;br /&gt;
| inter和union的复杂度为O(n)，复杂查询用堆栈判断优先级&lt;br /&gt;
|-&lt;br /&gt;
| 网页相关性排序&lt;br /&gt;
| 15%&lt;br /&gt;
| 基于向量空间模型VSM、tf-idf权重&lt;br /&gt;
|-&lt;br /&gt;
| 爬虫和某机构主页检索系统&lt;br /&gt;
| 15%&lt;br /&gt;
| 实现爬虫，系统架构设计良好，说明文档详细，UI完整&lt;br /&gt;
|-&lt;br /&gt;
| &amp;lt;font color='black&amp;gt;基于深度学习的检索系统&amp;lt;/font&amp;gt;&lt;br /&gt;
| 20%【比例低一点】&lt;br /&gt;
| Contriever：重现部分实验结果；自己实现评价指标；在上一个作业中的爬虫和检索系统的基础上，自己设计、标注 10 个 query，对比向量空间模型VSM 和Contriever 的效果，给出评价结果。建议：VSM 给 100 个结果，然后 Contriever 重排序，然后人工标注，具体如何标注更合理，自己考虑好。&lt;br /&gt;
|-&lt;br /&gt;
|}&lt;br /&gt;
&lt;br /&gt;
== 信息检索课程介绍 ==&lt;br /&gt;
* [http://hlt.suda.edu.cn/~zhli/teach/ir-2019-spring/ir-introduction-v0.4.pdf PPT下载]&lt;br /&gt;
* 2022春视频和图片：&lt;br /&gt;
** 低画质：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/course-intro-low-quality.mp4 课程介绍]&lt;br /&gt;
** 高画质：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/course-intro-part-1.mp4 课程介绍-part1]、 [http://hlt.suda.edu.cn/LA/Ir-2022-Spring/course-intro-part-2.mp4 课程介绍-part2]&lt;br /&gt;
** 图片：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/course-intro.jpg 图]&lt;br /&gt;
&lt;br /&gt;
* &amp;lt;font color='red&amp;gt;和2022年课程的区别&amp;lt;/font&amp;gt;：增加了'''基于深度学习的检索'''的内容，删除'''词性标注'''相关内容&lt;br /&gt;
&lt;br /&gt;
== 信息检索系统介绍 ==&lt;br /&gt;
* 2022春视频：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/intro-to-info-retrieval.mp4 信息检索系统介绍]&lt;br /&gt;
= 具体作业 =&lt;br /&gt;
&lt;br /&gt;
== 作业1：分字（C++语言） ==&lt;br /&gt;
* 2022春视频和图片：&lt;br /&gt;
** 低画质：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/split-char-low-quality.mp4 作业1]&lt;br /&gt;
** 高画质：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/split-char-part-1.mp4 作业1-part1]、 [http://hlt.suda.edu.cn/LA/Ir-2022-Spring/split-char-part-2.mp4 作业1-part2]&lt;br /&gt;
** 图片：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/split-char-figure-1.jpg 图1]、 [http://hlt.suda.edu.cn/LA/Ir-2022-Spring/split-char-figure-2.jpg 图2]&lt;br /&gt;
* UTF-8数据：[[文件:sentence.txt]]&lt;br /&gt;
* UFT-8编码规则：&lt;br /&gt;
 &amp;lt;nowiki&amp;gt;&lt;br /&gt;
1字节 0xxxxxxx&lt;br /&gt;
2字节 110xxxxx 10xxxxxx&lt;br /&gt;
3字节 1110xxxx 10xxxxxx 10xxxxxx&lt;br /&gt;
4字节 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx&lt;br /&gt;
5字节 111110xx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx&lt;br /&gt;
6字节 1111110x 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx &amp;lt;/nowiki&amp;gt;&lt;br /&gt;
&lt;br /&gt;
== 作业2：单词计数 ==&lt;br /&gt;
* 课件 [http://hlt.suda.edu.cn/~zhli/teach/ir-2019-spring/word-count.pdf PPT下载]&lt;br /&gt;
* 2022春视频：&lt;br /&gt;
** 低画质：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/word-count-low-quality.mp4 作业2]&lt;br /&gt;
** 高画质：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/word-count-2.mp4 作业2] &lt;br /&gt;
* 数据 [http://hlt.suda.edu.cn/~zhli/teach/ir-2019-spring/sample-en.txt txt下载]&lt;br /&gt;
&lt;br /&gt;
== 作业3：最大匹配分词 == &lt;br /&gt;
* 作业提交时间截止时间：第5周3.25下课之前提交&lt;br /&gt;
* 课件：前向最大匹配 PDF文件--[[文件:Word-seg-max-match.pdf]]；PPT文件--[[文件:Word-seg-max-match.zip]]&lt;br /&gt;
* 2022春视频和图片：&lt;br /&gt;
** 低画质：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/word-seg-max-match-low-quality.mp4 作业3]&lt;br /&gt;
** 高画质：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/word-seg-max-match.mp4 作业3] &lt;br /&gt;
** 图片：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/word-seg-max-match.jpg 图] &lt;br /&gt;
&lt;br /&gt;
* 数据下载：&lt;br /&gt;
** 字典：[[文件:dict.txt]] &lt;br /&gt;
** 待分词：[[文件:sentence.txt]] &lt;br /&gt;
** 正确答案（人工标注的，你的模型的预测结果要和这个文件进行对比，从而得到P/R/F值）：[[文件:answer.txt]]；&lt;br /&gt;
** 正向最大匹配分词模型的预测结果（如果你的程序写对了，那么应该和这个结果一模一样）：[[文件:out.txt]]&lt;br /&gt;
&lt;br /&gt;
 &amp;lt;nowiki&amp;gt;&lt;br /&gt;
*正确实验结果&lt;br /&gt;
**正确识别的词数：20263&lt;br /&gt;
**识别出的总体个数：20397&lt;br /&gt;
**测试集中的总体个数：20454&lt;br /&gt;
**正确率：0.99343&lt;br /&gt;
**召回率：0.99066&lt;br /&gt;
**F值：0.99204 &amp;lt;/nowiki&amp;gt;&lt;br /&gt;
&lt;br /&gt;
== 作业4：网页正文抽取 ==&lt;br /&gt;
&lt;br /&gt;
* 作业提交时间截止时间：x.x下课前提交&lt;br /&gt;
* 2022春视频： [http://hlt.suda.edu.cn/LA/Ir-2022-Spring/web-page-content-extraction.mp4 作业4]&lt;br /&gt;
* 课件（&amp;lt;font color='red'&amp;gt;请严格按照课件要求完成作业&amp;lt;/font&amp;gt;）： &lt;br /&gt;
** [[:文件:ir-2022-spring-web-page-content-extraction.ppt]]&lt;br /&gt;
** [[:文件:ir-2022-spring-web-page-content-extraction.pdf]]&lt;br /&gt;
* 数据&lt;br /&gt;
** 1.html和2.html [[:文件:ir-2022-spring-example-html.zip]]&lt;br /&gt;
** data-1k：1000个html文件 [[:文件:ir-2022-spring-all-html.zip]] （如果文件出现乱码，请到qq群里下载）&lt;br /&gt;
&lt;br /&gt;
== 作业5：倒排索引 == &lt;br /&gt;
&lt;br /&gt;
* 作业提交时间截止时间：第8周4.15下课前提交&lt;br /&gt;
* 课件： &lt;br /&gt;
** 仅供参考，与本次作业要求无关：[[:文件:ir-2022-spring-inverted-index-simplified.ppt]]&lt;br /&gt;
*  2022春视频和图片： &lt;br /&gt;
** 视频：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/inverted-index.mp4 作业5]&lt;br /&gt;
** 图片：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/inverted-index.jpg 图]&lt;br /&gt;
* 数据&lt;br /&gt;
** 停用词表：[https://github.com/goto456/stopwords github网址] [http://hlt.suda.edu.cn/LA/Ir-2022-Spring/stopwords.zip 苏大本地下载] &lt;br /&gt;
** 结巴词典：[https://github.com/fxsjy/jieba/tree/master/extra_dict github网址] [http://hlt.suda.edu.cn/LA/Ir-2022-Spring/word_dict.zip 苏大本地下载]&lt;br /&gt;
** 结巴词典文件每一行有3列，为：单词、词频、词性，只需要使用第一列的单词即可，使用small进行调试，提交作业用big&lt;br /&gt;
&lt;br /&gt;
== 作业6：布尔查询 ==&lt;br /&gt;
&lt;br /&gt;
* 作业提交时间截止时间：x.x下课前提交&lt;br /&gt;
*  2022春视频和图片： &lt;br /&gt;
** 视频：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/bool-query.mp4 作业6]&lt;br /&gt;
** 图片：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/bool-query.jpg 图]&lt;br /&gt;
* 作业提交说明：&lt;br /&gt;
** 附件中给出本次作业使用的倒排索引文件（可以在作业5的基础上进行优化），&amp;lt;font color=&amp;quot;red&amp;quot;&amp;gt;不需要提供构建倒排索引的代码，但在实验报告中给出倒排索引文件的说明，参考侯皓文同学&amp;lt;/font&amp;gt;&lt;br /&gt;
** 交集、并集操作用inter()、union()这两个函数单独封装&lt;br /&gt;
** &amp;lt;font color=&amp;quot;red&amp;quot;&amp;gt;对4个语句&amp;lt;/font&amp;gt; 'A', 'B', 'A AND B', 'A OR B' （A、B为自定义的查询词） 分别进行一次查询，每次的查询结果单独保存到一个txt文件中，以查询语句作为文件名（如 'A AND B.txt'`）&lt;br /&gt;
** 结果展示部分，文件按名字字母序排序：指字符序（用内置的sort即可），先用pinyin包转成拼音再排序也可以，不要自行改变文件名（如 阿大.txt -&amp;gt; 34.txt）&lt;br /&gt;
** 实现更复杂的查询，如：'A AND B OR C' 可以加分&lt;br /&gt;
** 查询词的加重（用#标记）不做强制要求，但做了加分&lt;br /&gt;
&lt;br /&gt;
== 作业7：基于向量空间模型（VSM）和tf-idf权重的网页相关性排序 ==&lt;br /&gt;
&lt;br /&gt;
* 作业提交时间截止时间：xx之前提交&lt;br /&gt;
** 视频：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/web-page-rank.mp4 作业7]&lt;br /&gt;
** 图片：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/web-page-rank-1.jpg 图片1]  [http://hlt.suda.edu.cn/LA/Ir-2022-Spring/web-page-rank-2.jpg 图片2]&lt;br /&gt;
* 作业要求：&lt;br /&gt;
** 如果无法理解向量空间模型，可以选择做tf-idf作业，但最多只给50分&lt;br /&gt;
** 实现基于向量空间模型的网页相关性排序&lt;br /&gt;
** 给定一个查询Q：可以是手动用空格分好词的&amp;quot;李正华 招收 学生&amp;quot;；也可以是未分词的&amp;quot;李正华招收学生&amp;quot;，之后用最大匹配分词分好词 -&amp;gt; &amp;quot;李正华 招收 学生&amp;quot;&lt;br /&gt;
** 注释：一个给定分词的查询Q实际上等价于布尔查询OR：&amp;quot;李正华 招收 学生&amp;quot; &amp;lt;=&amp;gt; &amp;quot;李正华 OR 招收 OR 学生&amp;quot;&lt;br /&gt;
* 作业提交说明：&lt;br /&gt;
** 附件中给出本任务所使用的倒排索引文件&lt;br /&gt;
** 在实验报告中说明对于余弦相似度计算中的：di[k]、q[k]、|di|、|q|是如何处理或存储的&lt;br /&gt;
** 附件中给出一个查询Q的结果，保存为文本文件&amp;quot;Q.txt&amp;quot;中，格式为：&lt;br /&gt;
&lt;br /&gt;
  文档名1（余弦相似度Sim） # Sim值可不除以|q|的值，一个例子： 阿鲁巴岛.txt(0.64)&lt;br /&gt;
  句子1&lt;br /&gt;
  句子2&lt;br /&gt;
  ...&lt;br /&gt;
  文档名2（余弦相似度Sim）&lt;br /&gt;
  句子1&lt;br /&gt;
  句子2&lt;br /&gt;
  ...&lt;br /&gt;
  ......&lt;br /&gt;
&lt;br /&gt;
== 作业8：爬虫和某机构主页检索系统（综合项目） ==&lt;br /&gt;
&lt;br /&gt;
* 作业提交时间截止时间：xx之前提交&lt;br /&gt;
** 视频：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/web-spider.mp4 作业8]&lt;br /&gt;
** PPT：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/web-spider.pptx PPT]&lt;br /&gt;
* 任务一：用&amp;lt;font color=&amp;quot;red&amp;quot;&amp;gt;爬虫模块&amp;lt;/font&amp;gt;尽量完整地爬下来一个机构对应的所有静态网页（html或htm后缀），保存到磁盘中：&lt;br /&gt;
** 苏大、苏大计算机学院（规模小一点）都可以&lt;br /&gt;
** orphan网页不用考虑&lt;br /&gt;
* 任务二：基于爬取的网页，做一个完整的检索系统（以后可以考虑不断完善、定时更新）：&lt;br /&gt;
** 1. &amp;lt;font color=&amp;quot;red&amp;quot;&amp;gt;网页正文提取模块&amp;lt;/font&amp;gt;（同作业4的实战部分一致）&lt;br /&gt;
** 2. 处理网页正文的&amp;lt;font color=&amp;quot;red&amp;quot;&amp;gt;分句、分词模块&amp;lt;/font&amp;gt;（可以用作业3的最大匹配分词，也可以用第三方的分词器，如jieba）&lt;br /&gt;
** 3. &amp;lt;font color=&amp;quot;red&amp;quot;&amp;gt;倒排索引模块&amp;lt;/font&amp;gt;：基于处理好的网页正文，建立倒排索引文件（同作业5一致）&lt;br /&gt;
** 4. &amp;lt;font color=&amp;quot;red&amp;quot;&amp;gt;网页排序模块&amp;lt;/font&amp;gt;：实现网页相关性排序（同作业7一致）&lt;br /&gt;
** 5. &amp;lt;font color=&amp;quot;red&amp;quot;&amp;gt;查询模块&amp;lt;/font&amp;gt;：提供查询接口，用户输入查询词后显示网页名（暂定为网页的title），和包含查询词的句子，查询词进行highlight处理（如#查询词#）。查询接口可以用命令行实现，提供前端UI界面（Web或Application都可以）会获得加分。&lt;br /&gt;
&lt;br /&gt;
注意：把网页源文件（html文件）保存好，避免重复爬。例如优化了网页正文提取模块、或突然想用一个更好的分词器&lt;br /&gt;
&lt;br /&gt;
* 作业提交说明：&lt;br /&gt;
** 源代码：任务一和任务二的所有代码都要提交，每个模块（共6个，在上方已用红色标出）在readme中指明在哪个python文件中实现的&lt;br /&gt;
** 处理好的网页数据（可选）：原始网页，提取出并分好句、分好词的网页正文，若网页数据特别大的话可以不要&lt;br /&gt;
** 在实验报告中将三项统计信息放到表格中：网页（文档）数、句子数、单词数&lt;br /&gt;
** 倒排索引文件（必备）&lt;br /&gt;
** 说明文档：(每个模块的)实现的功能，如何使用，接口等，内容不限&lt;br /&gt;
&lt;br /&gt;
== 作业9：深度学习方法&amp;amp;检索结果的评价 ==&lt;br /&gt;
&lt;br /&gt;
* 要求&lt;br /&gt;
** 账号环境，跑推理代码，重现完成部分实验。&lt;br /&gt;
*** 具体要跑哪些实验，请看文档最后的表格：[https://resplendent-gumdrop-ad2cd4.netlify.app/contriever-ir-course-assignment/ 具体文档] &lt;br /&gt;
** 自己实现评价指标，自己的评价指标的结果，和contriever 的结果一致。&lt;br /&gt;
** VSM和 Contriever 的对比&lt;br /&gt;
 &amp;lt;nowiki&amp;gt; 针对自己实现的“苏大计算机官网搜索引擎”，去对比VSM和Contriever的效果。&lt;br /&gt;
     自己设计10个难度不同的 query，然后 VSM 返回 50 个结果，把这 50 个结果随机打乱顺序（这一步很重要），然后人工做一个标注（给一个排序）【如果觉得 10 个 query 太多，5 个也行】&lt;br /&gt;
     Contriever对 50 个结果重排序&lt;br /&gt;
     比较两种方法的结果：NDCG@5      NDCG@10       NDCG@20等&lt;br /&gt;
     如果有能力、有时间，可以分析下：什么样的query，VSM 做得好；什么样的 query，Contriever 做得好。 &amp;lt;/nowiki&amp;gt;&lt;br /&gt;
** 实验报告体现出自己做了什么、遇到的困难及如何解决。&lt;br /&gt;
&lt;br /&gt;
* 参考资料&lt;br /&gt;
** 上面的文档&lt;br /&gt;
** 微信公众号”语析LAGroup“中 contriever 论文解读&lt;br /&gt;
** contriever 原文&lt;br /&gt;
&lt;br /&gt;
== 时间表 ==&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
 &amp;lt;nowiki&amp;gt;&lt;br /&gt;
3.5 第1周&lt;br /&gt;
3.12 第2周&lt;br /&gt;
&lt;br /&gt;
xxx&lt;br /&gt;
3.25 第5周&lt;br /&gt;
4.1 第6周&lt;br /&gt;
4.29 第10周&lt;br /&gt;
5.6 第11周&lt;br /&gt;
5.27 第14周&lt;br /&gt;
6.3 第15周&lt;br /&gt;
6.17 第17周&lt;br /&gt;
&lt;br /&gt;
1	08:00-08:45&lt;br /&gt;
2	08:50-09:35&lt;br /&gt;
3	09:55-10:40&lt;br /&gt;
4	10:45-11:30&lt;br /&gt;
5	11:35-12:20&lt;br /&gt;
6	14:00-14:45&lt;br /&gt;
7	14:50-15:35 【休息5分钟，+15分钟】&lt;br /&gt;
8	15:55-16:40 &lt;br /&gt;
9	16:45-17:30 【17:15】   &lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
考虑来2-3 次考试。&lt;br /&gt;
闭卷考试，比较正式的那种。在机房里就行。然后拍照留存？&lt;br /&gt;
&lt;br /&gt;
2次考试的方案：&lt;br /&gt;
倒排搞完 考一次&lt;br /&gt;
最后一次 &lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
3次考试的方案：&lt;br /&gt;
最大匹配分词搞完，考一次&lt;br /&gt;
布尔查询搞完 考一次&lt;br /&gt;
最后一次 &lt;br /&gt;
&lt;br /&gt;
上机课9 个作业，实验报告，主要是形式审查，占比比较低。要根据考试的成绩，然后加权得到每一次作业的成绩。&lt;br /&gt;
最后，9 个作业再按照一定比例，得到实验成绩。&lt;br /&gt;
&lt;br /&gt;
&amp;lt;/nowiki&amp;gt;&lt;/div&gt;</summary>
		<author><name>Zhli</name></author>
	</entry>
	<entry>
		<id>http://hlt.suda.edu.cn/index.php?title=Ir-2026-spring&amp;diff=6174</id>
		<title>Ir-2026-spring</title>
		<link rel="alternate" type="text/html" href="http://hlt.suda.edu.cn/index.php?title=Ir-2026-spring&amp;diff=6174"/>
		<updated>2026-03-05T05:04:19Z</updated>

		<summary type="html">&lt;p&gt;Zhli：/* 课程建议 */&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;&lt;br /&gt;
&lt;br /&gt;
= 信息检索综合实践 =&lt;br /&gt;
&lt;br /&gt;
李正华&lt;br /&gt;
&lt;br /&gt;
* 学生：计23计科1班	 	 	 &lt;br /&gt;
* 助教：吕喆、梅睿桐&lt;br /&gt;
* 时间：周四 6-9 节课 1-17 周&lt;br /&gt;
* 地点：理工楼238&lt;br /&gt;
&lt;br /&gt;
== 上课基本要求 ==&lt;br /&gt;
* 不能做的事情：打游戏、看课程无关视频、刷网页&lt;br /&gt;
* 认真读作业要求，按时交作业。csteaching&lt;br /&gt;
* 不能抄袭别人或网上的，自己做；不要把自己的作业给别人&lt;br /&gt;
&lt;br /&gt;
== 课程建议 ==&lt;br /&gt;
* 每个作业，截止时间后，把成绩发给大家，并用ppt给大家讲一下批作业发现的问题，题目分析&lt;br /&gt;
* 上课期间：请大家积极提问。遇到大家都无法理解的公共问题，我会补充讲解&lt;br /&gt;
* 非上课时间提问&lt;br /&gt;
** 建议同学们在群里提问（包括但不限于代码的bug、不理解算法、作业资源和提交等），由其他同学帮助解答；&lt;br /&gt;
** 群里的提问如果其他同学也无法回答，可以私信助教（仅限xxx，如周四晚上7点到9点，吕喆增加）；&lt;br /&gt;
&lt;br /&gt;
== 计算成绩的规则和说明（待定） ==&lt;br /&gt;
* 实验作业：70-80分&lt;br /&gt;
** 一系列作业，每个作业10-20分（形式检查为辅、考核为主）&lt;br /&gt;
** 必须按照规定时间，按照规定格式要求，将实验报告+源代码，提交到csteaching&lt;br /&gt;
&lt;br /&gt;
* 期末面对面小测验：10分&lt;br /&gt;
** 考察课程相关的基础知识，看看作业是否是自己做的&lt;br /&gt;
&lt;br /&gt;
* 平时成绩：10-20分&lt;br /&gt;
** 不能迟到、早退，特殊情况必须请假，并带辅导员签字的假条；&lt;br /&gt;
** 点名时，如果发现名单上没有你的名字，及时提出&lt;br /&gt;
&lt;br /&gt;
== 提交作业说明 ==&lt;br /&gt;
* 网址：[http://csteaching.suda.edu.cn csteaching]&lt;br /&gt;
* &amp;lt;font color='red&amp;gt;作业迟交了则最终成绩会按一定比例缩减&amp;lt;/font&amp;gt;&lt;br /&gt;
* 包含两部分&lt;br /&gt;
** 实验报告（pdf文件，&amp;lt;font color='red&amp;gt;请把word转为pdf&amp;lt;/font&amp;gt;）&lt;br /&gt;
*** 请按照实验模版[[:文件:ir-2022-spring-report.doc]]，认真填写个人信息、实验题目、实验内容等&lt;br /&gt;
*** 不要大段粘贴代码，最多可以粘贴核心的一小段代码，&amp;lt;font color='red&amp;gt;粘贴大段代码会扣分&amp;lt;/font&amp;gt;&lt;br /&gt;
*** 写清楚自己的解决思路，尤其是遇到的难点和如何解决&lt;br /&gt;
*** 建议可以画流程图或者写伪代码。&lt;br /&gt;
*** 解决思路的流程图中是以文字为主还是以代码为主？报告中不要直接放代码。文字为主，不在于写得长，而在于写清楚，表明你确实做了、想了。&lt;br /&gt;
*** 问：流程图可以改成自然语言描述或者是伪代码吗？答：流程图也可以画的很high-level的。大家自由发挥。也可以画到纸上然后拍照截图。模块化思维 大问题分解小问题 。&lt;br /&gt;
*** &amp;lt;font color='red&amp;gt;将程序运行结果截图，没有运行结果会扣分&amp;lt;/font&amp;gt;，中间的输出结果/文件可以截图一部分&lt;br /&gt;
** 附件（.zip压缩包）&lt;br /&gt;
*** 源代码：代码不要都团在一起，请用空行对代码进行分隔，并简单注释代码块的功能&lt;br /&gt;
*** readme.txt文件：说明如何运行你的程序，需要什么环境，如windows或linux，python版本如python3.5&lt;br /&gt;
* 提交前自我检查&lt;br /&gt;
** 是否有包含readme.txt文件解释如何编译执行你的程序。 &amp;lt;font color='red&amp;gt;如没有该文件，将减分。&amp;lt;/font&amp;gt;&lt;br /&gt;
** 是否认真完成实验报告&lt;br /&gt;
** 是否可以按照readme.txt正确编译和运行程序&lt;br /&gt;
** 是否包含别人的代码，&amp;lt;font color='red&amp;gt;抄袭和被抄袭的都是0分&amp;lt;/font&amp;gt;&lt;br /&gt;
** 期末可能会用软件做自动抄袭检查&lt;br /&gt;
** 等这学期最后几周，我们可能统一对所有的作业做自动查重，到时候也会查出一些问题。 &amp;lt;font color='red&amp;gt;请大家一定要自己做，编程能力差一点，就做得简单一点，能力强，就做得好一点。但是一定要自己做。 &amp;lt;/font&amp;gt;&lt;br /&gt;
* 提交作业命名规则&lt;br /&gt;
** 实验报告（姓名学号.pdf）&lt;br /&gt;
** 附件（姓名学号.zip）&lt;br /&gt;
&lt;br /&gt;
== 实验报告word模板 ==&lt;br /&gt;
* [[:文件:ir-2022-spring-report.doc]]&lt;br /&gt;
&lt;br /&gt;
== 具体课程（含作业） == &lt;br /&gt;
&lt;br /&gt;
{| class=&amp;quot;wikitable&amp;quot;&lt;br /&gt;
! style=&amp;quot;text-align:left;&amp;quot;| 作业&lt;br /&gt;
! 成绩比例&lt;br /&gt;
! 评分要点&lt;br /&gt;
|-&lt;br /&gt;
| 分字&lt;br /&gt;
| 5%&lt;br /&gt;
| 按字节读取并判断高位&lt;br /&gt;
|-&lt;br /&gt;
| 单词计数&lt;br /&gt;
| 5%&lt;br /&gt;
| 无&lt;br /&gt;
|-&lt;br /&gt;
| 最大匹配分词&lt;br /&gt;
| 10%&lt;br /&gt;
| 算法和评价正确实现&lt;br /&gt;
|-&lt;br /&gt;
| 网页正文抽取&lt;br /&gt;
| 10%&lt;br /&gt;
| 按要求完成两个任务&lt;br /&gt;
|-&lt;br /&gt;
| 倒排索引&lt;br /&gt;
| 10%&lt;br /&gt;
| 高效创建倒排文件&lt;br /&gt;
|-&lt;br /&gt;
| 布尔查询&lt;br /&gt;
| 10%&lt;br /&gt;
| inter和union的复杂度为O(n)，复杂查询用堆栈判断优先级&lt;br /&gt;
|-&lt;br /&gt;
| 网页相关性排序&lt;br /&gt;
| 15%&lt;br /&gt;
| 基于向量空间模型VSM、tf-idf权重&lt;br /&gt;
|-&lt;br /&gt;
| 爬虫和某机构主页检索系统&lt;br /&gt;
| 15%&lt;br /&gt;
| 实现爬虫，系统架构设计良好，说明文档详细，UI完整&lt;br /&gt;
|-&lt;br /&gt;
| &amp;lt;font color='black&amp;gt;基于深度学习的检索系统&amp;lt;/font&amp;gt;&lt;br /&gt;
| 20%【比例低一点】&lt;br /&gt;
| Contriever：重现部分实验结果；自己实现评价指标；在上一个作业中的爬虫和检索系统的基础上，自己设计、标注 10 个 query，对比向量空间模型VSM 和Contriever 的效果，给出评价结果。建议：VSM 给 100 个结果，然后 Contriever 重排序，然后人工标注，具体如何标注更合理，自己考虑好。&lt;br /&gt;
|-&lt;br /&gt;
|}&lt;br /&gt;
&lt;br /&gt;
== 信息检索课程介绍 ==&lt;br /&gt;
* [http://hlt.suda.edu.cn/~zhli/teach/ir-2019-spring/ir-introduction-v0.4.pdf PPT下载]&lt;br /&gt;
* 2022春视频和图片：&lt;br /&gt;
** 低画质：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/course-intro-low-quality.mp4 课程介绍]&lt;br /&gt;
** 高画质：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/course-intro-part-1.mp4 课程介绍-part1]、 [http://hlt.suda.edu.cn/LA/Ir-2022-Spring/course-intro-part-2.mp4 课程介绍-part2]&lt;br /&gt;
** 图片：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/course-intro.jpg 图]&lt;br /&gt;
&lt;br /&gt;
* &amp;lt;font color='red&amp;gt;和2022年课程的区别&amp;lt;/font&amp;gt;：增加了'''基于深度学习的检索'''的内容，删除'''词性标注'''相关内容&lt;br /&gt;
&lt;br /&gt;
== 信息检索系统介绍 ==&lt;br /&gt;
* 2022春视频：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/intro-to-info-retrieval.mp4 信息检索系统介绍]&lt;br /&gt;
= 具体作业 =&lt;br /&gt;
&lt;br /&gt;
== 作业1：分字（C++语言） ==&lt;br /&gt;
* 2022春视频和图片：&lt;br /&gt;
** 低画质：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/split-char-low-quality.mp4 作业1]&lt;br /&gt;
** 高画质：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/split-char-part-1.mp4 作业1-part1]、 [http://hlt.suda.edu.cn/LA/Ir-2022-Spring/split-char-part-2.mp4 作业1-part2]&lt;br /&gt;
** 图片：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/split-char-figure-1.jpg 图1]、 [http://hlt.suda.edu.cn/LA/Ir-2022-Spring/split-char-figure-2.jpg 图2]&lt;br /&gt;
* UTF-8数据：[[文件:sentence.txt]]&lt;br /&gt;
* UFT-8编码规则：&lt;br /&gt;
 &amp;lt;nowiki&amp;gt;&lt;br /&gt;
1字节 0xxxxxxx&lt;br /&gt;
2字节 110xxxxx 10xxxxxx&lt;br /&gt;
3字节 1110xxxx 10xxxxxx 10xxxxxx&lt;br /&gt;
4字节 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx&lt;br /&gt;
5字节 111110xx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx&lt;br /&gt;
6字节 1111110x 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx &amp;lt;/nowiki&amp;gt;&lt;br /&gt;
&lt;br /&gt;
== 作业2：单词计数 ==&lt;br /&gt;
* 课件 [http://hlt.suda.edu.cn/~zhli/teach/ir-2019-spring/word-count.pdf PPT下载]&lt;br /&gt;
* 2022春视频：&lt;br /&gt;
** 低画质：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/word-count-low-quality.mp4 作业2]&lt;br /&gt;
** 高画质：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/word-count-2.mp4 作业2] &lt;br /&gt;
* 数据 [http://hlt.suda.edu.cn/~zhli/teach/ir-2019-spring/sample-en.txt txt下载]&lt;br /&gt;
&lt;br /&gt;
== 作业3：最大匹配分词 == &lt;br /&gt;
* 作业提交时间截止时间：第5周3.25下课之前提交&lt;br /&gt;
* 课件：前向最大匹配 PDF文件--[[文件:Word-seg-max-match.pdf]]；PPT文件--[[文件:Word-seg-max-match.zip]]&lt;br /&gt;
* 2022春视频和图片：&lt;br /&gt;
** 低画质：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/word-seg-max-match-low-quality.mp4 作业3]&lt;br /&gt;
** 高画质：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/word-seg-max-match.mp4 作业3] &lt;br /&gt;
** 图片：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/word-seg-max-match.jpg 图] &lt;br /&gt;
&lt;br /&gt;
* 数据下载：&lt;br /&gt;
** 字典：[[文件:dict.txt]] &lt;br /&gt;
** 待分词：[[文件:sentence.txt]] &lt;br /&gt;
** 正确答案（人工标注的，你的模型的预测结果要和这个文件进行对比，从而得到P/R/F值）：[[文件:answer.txt]]；&lt;br /&gt;
** 正向最大匹配分词模型的预测结果（如果你的程序写对了，那么应该和这个结果一模一样）：[[文件:out.txt]]&lt;br /&gt;
&lt;br /&gt;
 &amp;lt;nowiki&amp;gt;&lt;br /&gt;
*正确实验结果&lt;br /&gt;
**正确识别的词数：20263&lt;br /&gt;
**识别出的总体个数：20397&lt;br /&gt;
**测试集中的总体个数：20454&lt;br /&gt;
**正确率：0.99343&lt;br /&gt;
**召回率：0.99066&lt;br /&gt;
**F值：0.99204 &amp;lt;/nowiki&amp;gt;&lt;br /&gt;
&lt;br /&gt;
== 作业4：网页正文抽取 ==&lt;br /&gt;
&lt;br /&gt;
* 作业提交时间截止时间：x.x下课前提交&lt;br /&gt;
* 2022春视频： [http://hlt.suda.edu.cn/LA/Ir-2022-Spring/web-page-content-extraction.mp4 作业4]&lt;br /&gt;
* 课件（&amp;lt;font color='red'&amp;gt;请严格按照课件要求完成作业&amp;lt;/font&amp;gt;）： &lt;br /&gt;
** [[:文件:ir-2022-spring-web-page-content-extraction.ppt]]&lt;br /&gt;
** [[:文件:ir-2022-spring-web-page-content-extraction.pdf]]&lt;br /&gt;
* 数据&lt;br /&gt;
** 1.html和2.html [[:文件:ir-2022-spring-example-html.zip]]&lt;br /&gt;
** data-1k：1000个html文件 [[:文件:ir-2022-spring-all-html.zip]] （如果文件出现乱码，请到qq群里下载）&lt;br /&gt;
&lt;br /&gt;
== 作业5：倒排索引 == &lt;br /&gt;
&lt;br /&gt;
* 作业提交时间截止时间：第8周4.15下课前提交&lt;br /&gt;
* 课件： &lt;br /&gt;
** 仅供参考，与本次作业要求无关：[[:文件:ir-2022-spring-inverted-index-simplified.ppt]]&lt;br /&gt;
*  2022春视频和图片： &lt;br /&gt;
** 视频：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/inverted-index.mp4 作业5]&lt;br /&gt;
** 图片：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/inverted-index.jpg 图]&lt;br /&gt;
* 数据&lt;br /&gt;
** 停用词表：[https://github.com/goto456/stopwords github网址] [http://hlt.suda.edu.cn/LA/Ir-2022-Spring/stopwords.zip 苏大本地下载] &lt;br /&gt;
** 结巴词典：[https://github.com/fxsjy/jieba/tree/master/extra_dict github网址] [http://hlt.suda.edu.cn/LA/Ir-2022-Spring/word_dict.zip 苏大本地下载]&lt;br /&gt;
** 结巴词典文件每一行有3列，为：单词、词频、词性，只需要使用第一列的单词即可，使用small进行调试，提交作业用big&lt;br /&gt;
&lt;br /&gt;
== 作业6：布尔查询 ==&lt;br /&gt;
&lt;br /&gt;
* 作业提交时间截止时间：x.x下课前提交&lt;br /&gt;
*  2022春视频和图片： &lt;br /&gt;
** 视频：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/bool-query.mp4 作业6]&lt;br /&gt;
** 图片：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/bool-query.jpg 图]&lt;br /&gt;
* 作业提交说明：&lt;br /&gt;
** 附件中给出本次作业使用的倒排索引文件（可以在作业5的基础上进行优化），&amp;lt;font color=&amp;quot;red&amp;quot;&amp;gt;不需要提供构建倒排索引的代码，但在实验报告中给出倒排索引文件的说明，参考侯皓文同学&amp;lt;/font&amp;gt;&lt;br /&gt;
** 交集、并集操作用inter()、union()这两个函数单独封装&lt;br /&gt;
** &amp;lt;font color=&amp;quot;red&amp;quot;&amp;gt;对4个语句&amp;lt;/font&amp;gt; 'A', 'B', 'A AND B', 'A OR B' （A、B为自定义的查询词） 分别进行一次查询，每次的查询结果单独保存到一个txt文件中，以查询语句作为文件名（如 'A AND B.txt'`）&lt;br /&gt;
** 结果展示部分，文件按名字字母序排序：指字符序（用内置的sort即可），先用pinyin包转成拼音再排序也可以，不要自行改变文件名（如 阿大.txt -&amp;gt; 34.txt）&lt;br /&gt;
** 实现更复杂的查询，如：'A AND B OR C' 可以加分&lt;br /&gt;
** 查询词的加重（用#标记）不做强制要求，但做了加分&lt;br /&gt;
&lt;br /&gt;
== 作业7：基于向量空间模型（VSM）和tf-idf权重的网页相关性排序 ==&lt;br /&gt;
&lt;br /&gt;
* 作业提交时间截止时间：xx之前提交&lt;br /&gt;
** 视频：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/web-page-rank.mp4 作业7]&lt;br /&gt;
** 图片：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/web-page-rank-1.jpg 图片1]  [http://hlt.suda.edu.cn/LA/Ir-2022-Spring/web-page-rank-2.jpg 图片2]&lt;br /&gt;
* 作业要求：&lt;br /&gt;
** 如果无法理解向量空间模型，可以选择做tf-idf作业，但最多只给50分&lt;br /&gt;
** 实现基于向量空间模型的网页相关性排序&lt;br /&gt;
** 给定一个查询Q：可以是手动用空格分好词的&amp;quot;李正华 招收 学生&amp;quot;；也可以是未分词的&amp;quot;李正华招收学生&amp;quot;，之后用最大匹配分词分好词 -&amp;gt; &amp;quot;李正华 招收 学生&amp;quot;&lt;br /&gt;
** 注释：一个给定分词的查询Q实际上等价于布尔查询OR：&amp;quot;李正华 招收 学生&amp;quot; &amp;lt;=&amp;gt; &amp;quot;李正华 OR 招收 OR 学生&amp;quot;&lt;br /&gt;
* 作业提交说明：&lt;br /&gt;
** 附件中给出本任务所使用的倒排索引文件&lt;br /&gt;
** 在实验报告中说明对于余弦相似度计算中的：di[k]、q[k]、|di|、|q|是如何处理或存储的&lt;br /&gt;
** 附件中给出一个查询Q的结果，保存为文本文件&amp;quot;Q.txt&amp;quot;中，格式为：&lt;br /&gt;
&lt;br /&gt;
  文档名1（余弦相似度Sim） # Sim值可不除以|q|的值，一个例子： 阿鲁巴岛.txt(0.64)&lt;br /&gt;
  句子1&lt;br /&gt;
  句子2&lt;br /&gt;
  ...&lt;br /&gt;
  文档名2（余弦相似度Sim）&lt;br /&gt;
  句子1&lt;br /&gt;
  句子2&lt;br /&gt;
  ...&lt;br /&gt;
  ......&lt;br /&gt;
&lt;br /&gt;
== 作业8：爬虫和某机构主页检索系统（综合项目） ==&lt;br /&gt;
&lt;br /&gt;
* 作业提交时间截止时间：xx之前提交&lt;br /&gt;
** 视频：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/web-spider.mp4 作业8]&lt;br /&gt;
** PPT：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/web-spider.pptx PPT]&lt;br /&gt;
* 任务一：用&amp;lt;font color=&amp;quot;red&amp;quot;&amp;gt;爬虫模块&amp;lt;/font&amp;gt;尽量完整地爬下来一个机构对应的所有静态网页（html或htm后缀），保存到磁盘中：&lt;br /&gt;
** 苏大、苏大计算机学院（规模小一点）都可以&lt;br /&gt;
** orphan网页不用考虑&lt;br /&gt;
* 任务二：基于爬取的网页，做一个完整的检索系统（以后可以考虑不断完善、定时更新）：&lt;br /&gt;
** 1. &amp;lt;font color=&amp;quot;red&amp;quot;&amp;gt;网页正文提取模块&amp;lt;/font&amp;gt;（同作业4的实战部分一致）&lt;br /&gt;
** 2. 处理网页正文的&amp;lt;font color=&amp;quot;red&amp;quot;&amp;gt;分句、分词模块&amp;lt;/font&amp;gt;（可以用作业3的最大匹配分词，也可以用第三方的分词器，如jieba）&lt;br /&gt;
** 3. &amp;lt;font color=&amp;quot;red&amp;quot;&amp;gt;倒排索引模块&amp;lt;/font&amp;gt;：基于处理好的网页正文，建立倒排索引文件（同作业5一致）&lt;br /&gt;
** 4. &amp;lt;font color=&amp;quot;red&amp;quot;&amp;gt;网页排序模块&amp;lt;/font&amp;gt;：实现网页相关性排序（同作业7一致）&lt;br /&gt;
** 5. &amp;lt;font color=&amp;quot;red&amp;quot;&amp;gt;查询模块&amp;lt;/font&amp;gt;：提供查询接口，用户输入查询词后显示网页名（暂定为网页的title），和包含查询词的句子，查询词进行highlight处理（如#查询词#）。查询接口可以用命令行实现，提供前端UI界面（Web或Application都可以）会获得加分。&lt;br /&gt;
&lt;br /&gt;
注意：把网页源文件（html文件）保存好，避免重复爬。例如优化了网页正文提取模块、或突然想用一个更好的分词器&lt;br /&gt;
&lt;br /&gt;
* 作业提交说明：&lt;br /&gt;
** 源代码：任务一和任务二的所有代码都要提交，每个模块（共6个，在上方已用红色标出）在readme中指明在哪个python文件中实现的&lt;br /&gt;
** 处理好的网页数据（可选）：原始网页，提取出并分好句、分好词的网页正文，若网页数据特别大的话可以不要&lt;br /&gt;
** 在实验报告中将三项统计信息放到表格中：网页（文档）数、句子数、单词数&lt;br /&gt;
** 倒排索引文件（必备）&lt;br /&gt;
** 说明文档：(每个模块的)实现的功能，如何使用，接口等，内容不限&lt;br /&gt;
&lt;br /&gt;
== 作业9：深度学习方法&amp;amp;检索结果的评价 ==&lt;br /&gt;
&lt;br /&gt;
* 要求&lt;br /&gt;
** 账号环境，跑推理代码，重现完成部分实验。&lt;br /&gt;
*** 具体要跑哪些实验，请看文档最后的表格：[https://resplendent-gumdrop-ad2cd4.netlify.app/contriever-ir-course-assignment/ 具体文档] &lt;br /&gt;
** 自己实现评价指标，自己的评价指标的结果，和contriever 的结果一致。&lt;br /&gt;
** VSM和 Contriever 的对比&lt;br /&gt;
 &amp;lt;nowiki&amp;gt; 针对自己实现的“苏大计算机官网搜索引擎”，去对比VSM和Contriever的效果。&lt;br /&gt;
     自己设计10个难度不同的 query，然后 VSM 返回 50 个结果，把这 50 个结果随机打乱顺序（这一步很重要），然后人工做一个标注（给一个排序）【如果觉得 10 个 query 太多，5 个也行】&lt;br /&gt;
     Contriever对 50 个结果重排序&lt;br /&gt;
     比较两种方法的结果：NDCG@5      NDCG@10       NDCG@20等&lt;br /&gt;
     如果有能力、有时间，可以分析下：什么样的query，VSM 做得好；什么样的 query，Contriever 做得好。 &amp;lt;/nowiki&amp;gt;&lt;br /&gt;
** 实验报告体现出自己做了什么、遇到的困难及如何解决。&lt;br /&gt;
&lt;br /&gt;
* 参考资料&lt;br /&gt;
** 上面的文档&lt;br /&gt;
** 微信公众号”语析LAGroup“中 contriever 论文解读&lt;br /&gt;
** contriever 原文&lt;br /&gt;
&lt;br /&gt;
== 时间表 ==&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
 &amp;lt;nowiki&amp;gt;&lt;br /&gt;
3.5 第1周&lt;br /&gt;
3.12 第2周&lt;br /&gt;
&lt;br /&gt;
xxx&lt;br /&gt;
3.25 第5周&lt;br /&gt;
4.1 第6周&lt;br /&gt;
4.29 第10周&lt;br /&gt;
5.6 第11周&lt;br /&gt;
5.27 第14周&lt;br /&gt;
6.3 第15周&lt;br /&gt;
6.17 第17周&lt;br /&gt;
&lt;br /&gt;
1	08:00-08:45&lt;br /&gt;
2	08:50-09:35&lt;br /&gt;
3	09:55-10:40&lt;br /&gt;
4	10:45-11:30&lt;br /&gt;
5	11:35-12:20&lt;br /&gt;
6	14:00-14:45&lt;br /&gt;
7	14:50-15:35 【休息5分钟，+15分钟】&lt;br /&gt;
8	15:55-16:40 &lt;br /&gt;
9	16:45-17:30 【17:15】   &lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
考虑来2-3 次考试。&lt;br /&gt;
闭卷考试，比较正式的那种。在机房里就行。然后拍照留存？&lt;br /&gt;
&lt;br /&gt;
2次考试的方案：&lt;br /&gt;
倒排搞完 考一次&lt;br /&gt;
最后一次 &lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
3次考试的方案：&lt;br /&gt;
最大匹配分词搞完，考一次&lt;br /&gt;
布尔查询搞完 考一次&lt;br /&gt;
最后一次 &lt;br /&gt;
&lt;br /&gt;
上机课9 个作业，实验报告，主要是形式审查，占比比较低。要根据考试的成绩，然后加权得到每一次作业的成绩。&lt;br /&gt;
最后，9 个作业再按照一定比例，得到实验成绩。&lt;br /&gt;
&lt;br /&gt;
&amp;lt;/nowiki&amp;gt;&lt;/div&gt;</summary>
		<author><name>Zhli</name></author>
	</entry>
	<entry>
		<id>http://hlt.suda.edu.cn/index.php?title=Ir-2026-spring&amp;diff=6173</id>
		<title>Ir-2026-spring</title>
		<link rel="alternate" type="text/html" href="http://hlt.suda.edu.cn/index.php?title=Ir-2026-spring&amp;diff=6173"/>
		<updated>2026-03-04T10:18:03Z</updated>

		<summary type="html">&lt;p&gt;Zhli：/* 具体课程（含作业） */&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;&lt;br /&gt;
&lt;br /&gt;
= 信息检索综合实践 =&lt;br /&gt;
&lt;br /&gt;
李正华&lt;br /&gt;
&lt;br /&gt;
* 学生：计23计科1班	 	 	 &lt;br /&gt;
* 助教：吕喆、梅睿桐&lt;br /&gt;
* 时间：周四 6-9 节课 1-17 周&lt;br /&gt;
* 地点：理工楼238&lt;br /&gt;
&lt;br /&gt;
== 上课基本要求 ==&lt;br /&gt;
* 不能做的事情：打游戏、看课程无关视频、刷网页&lt;br /&gt;
* 认真读作业要求，按时交作业。csteaching&lt;br /&gt;
* 不能抄袭别人或网上的，自己做；不要把自己的作业给别人&lt;br /&gt;
&lt;br /&gt;
== 课程建议 ==&lt;br /&gt;
* 每个作业，截止时间后，把成绩发给大家，并用ppt给大家讲一下批作业发现的问题，题目分析&lt;br /&gt;
* 上课期间：请大家积极提问。遇到大家都无法理解的公共问题，我会补充讲解&lt;br /&gt;
* 非上课时间提问&lt;br /&gt;
** 建议同学们在群里提问（包括但不限于代码的bug、不理解算法、作业资源和提交等），由其他同学帮助解答；&lt;br /&gt;
** 群里的提问如果其他同学也无法回答，可以私信助教（仅限xxx，如周三晚上7点到9点，吕喆增加）；&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
== 计算成绩的规则和说明（待定） ==&lt;br /&gt;
* 实验作业：70-80分&lt;br /&gt;
** 一系列作业，每个作业10-20分（形式检查为辅、考核为主）&lt;br /&gt;
** 必须按照规定时间，按照规定格式要求，将实验报告+源代码，提交到csteaching&lt;br /&gt;
&lt;br /&gt;
* 期末面对面小测验：10分&lt;br /&gt;
** 考察课程相关的基础知识，看看作业是否是自己做的&lt;br /&gt;
&lt;br /&gt;
* 平时成绩：10-20分&lt;br /&gt;
** 不能迟到、早退，特殊情况必须请假，并带辅导员签字的假条；&lt;br /&gt;
** 点名时，如果发现名单上没有你的名字，及时提出&lt;br /&gt;
&lt;br /&gt;
== 提交作业说明 ==&lt;br /&gt;
* 网址：[http://csteaching.suda.edu.cn csteaching]&lt;br /&gt;
* &amp;lt;font color='red&amp;gt;作业迟交了则最终成绩会按一定比例缩减&amp;lt;/font&amp;gt;&lt;br /&gt;
* 包含两部分&lt;br /&gt;
** 实验报告（pdf文件，&amp;lt;font color='red&amp;gt;请把word转为pdf&amp;lt;/font&amp;gt;）&lt;br /&gt;
*** 请按照实验模版[[:文件:ir-2022-spring-report.doc]]，认真填写个人信息、实验题目、实验内容等&lt;br /&gt;
*** 不要大段粘贴代码，最多可以粘贴核心的一小段代码，&amp;lt;font color='red&amp;gt;粘贴大段代码会扣分&amp;lt;/font&amp;gt;&lt;br /&gt;
*** 写清楚自己的解决思路，尤其是遇到的难点和如何解决&lt;br /&gt;
*** 建议可以画流程图或者写伪代码。&lt;br /&gt;
*** 解决思路的流程图中是以文字为主还是以代码为主？报告中不要直接放代码。文字为主，不在于写得长，而在于写清楚，表明你确实做了、想了。&lt;br /&gt;
*** 问：流程图可以改成自然语言描述或者是伪代码吗？答：流程图也可以画的很high-level的。大家自由发挥。也可以画到纸上然后拍照截图。模块化思维 大问题分解小问题 。&lt;br /&gt;
*** &amp;lt;font color='red&amp;gt;将程序运行结果截图，没有运行结果会扣分&amp;lt;/font&amp;gt;，中间的输出结果/文件可以截图一部分&lt;br /&gt;
** 附件（.zip压缩包）&lt;br /&gt;
*** 源代码：代码不要都团在一起，请用空行对代码进行分隔，并简单注释代码块的功能&lt;br /&gt;
*** readme.txt文件：说明如何运行你的程序，需要什么环境，如windows或linux，python版本如python3.5&lt;br /&gt;
* 提交前自我检查&lt;br /&gt;
** 是否有包含readme.txt文件解释如何编译执行你的程序。 &amp;lt;font color='red&amp;gt;如没有该文件，将减分。&amp;lt;/font&amp;gt;&lt;br /&gt;
** 是否认真完成实验报告&lt;br /&gt;
** 是否可以按照readme.txt正确编译和运行程序&lt;br /&gt;
** 是否包含别人的代码，&amp;lt;font color='red&amp;gt;抄袭和被抄袭的都是0分&amp;lt;/font&amp;gt;&lt;br /&gt;
** 期末可能会用软件做自动抄袭检查&lt;br /&gt;
** 等这学期最后几周，我们可能统一对所有的作业做自动查重，到时候也会查出一些问题。 &amp;lt;font color='red&amp;gt;请大家一定要自己做，编程能力差一点，就做得简单一点，能力强，就做得好一点。但是一定要自己做。 &amp;lt;/font&amp;gt;&lt;br /&gt;
* 提交作业命名规则&lt;br /&gt;
** 实验报告（姓名学号.pdf）&lt;br /&gt;
** 附件（姓名学号.zip）&lt;br /&gt;
&lt;br /&gt;
== 实验报告word模板 ==&lt;br /&gt;
* [[:文件:ir-2022-spring-report.doc]]&lt;br /&gt;
&lt;br /&gt;
== 具体课程（含作业） == &lt;br /&gt;
&lt;br /&gt;
{| class=&amp;quot;wikitable&amp;quot;&lt;br /&gt;
! style=&amp;quot;text-align:left;&amp;quot;| 作业&lt;br /&gt;
! 成绩比例&lt;br /&gt;
! 评分要点&lt;br /&gt;
|-&lt;br /&gt;
| 分字&lt;br /&gt;
| 5%&lt;br /&gt;
| 按字节读取并判断高位&lt;br /&gt;
|-&lt;br /&gt;
| 单词计数&lt;br /&gt;
| 5%&lt;br /&gt;
| 无&lt;br /&gt;
|-&lt;br /&gt;
| 最大匹配分词&lt;br /&gt;
| 10%&lt;br /&gt;
| 算法和评价正确实现&lt;br /&gt;
|-&lt;br /&gt;
| 网页正文抽取&lt;br /&gt;
| 10%&lt;br /&gt;
| 按要求完成两个任务&lt;br /&gt;
|-&lt;br /&gt;
| 倒排索引&lt;br /&gt;
| 10%&lt;br /&gt;
| 高效创建倒排文件&lt;br /&gt;
|-&lt;br /&gt;
| 布尔查询&lt;br /&gt;
| 10%&lt;br /&gt;
| inter和union的复杂度为O(n)，复杂查询用堆栈判断优先级&lt;br /&gt;
|-&lt;br /&gt;
| 网页相关性排序&lt;br /&gt;
| 15%&lt;br /&gt;
| 基于向量空间模型VSM、tf-idf权重&lt;br /&gt;
|-&lt;br /&gt;
| 爬虫和某机构主页检索系统&lt;br /&gt;
| 15%&lt;br /&gt;
| 实现爬虫，系统架构设计良好，说明文档详细，UI完整&lt;br /&gt;
|-&lt;br /&gt;
| &amp;lt;font color='black&amp;gt;基于深度学习的检索系统&amp;lt;/font&amp;gt;&lt;br /&gt;
| 20%【比例低一点】&lt;br /&gt;
| Contriever：重现部分实验结果；自己实现评价指标；在上一个作业中的爬虫和检索系统的基础上，自己设计、标注 10 个 query，对比向量空间模型VSM 和Contriever 的效果，给出评价结果。建议：VSM 给 100 个结果，然后 Contriever 重排序，然后人工标注，具体如何标注更合理，自己考虑好。&lt;br /&gt;
|-&lt;br /&gt;
|}&lt;br /&gt;
&lt;br /&gt;
== 信息检索课程介绍 ==&lt;br /&gt;
* [http://hlt.suda.edu.cn/~zhli/teach/ir-2019-spring/ir-introduction-v0.4.pdf PPT下载]&lt;br /&gt;
* 2022春视频和图片：&lt;br /&gt;
** 低画质：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/course-intro-low-quality.mp4 课程介绍]&lt;br /&gt;
** 高画质：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/course-intro-part-1.mp4 课程介绍-part1]、 [http://hlt.suda.edu.cn/LA/Ir-2022-Spring/course-intro-part-2.mp4 课程介绍-part2]&lt;br /&gt;
** 图片：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/course-intro.jpg 图]&lt;br /&gt;
&lt;br /&gt;
* &amp;lt;font color='red&amp;gt;和2022年课程的区别&amp;lt;/font&amp;gt;：增加了'''基于深度学习的检索'''的内容，删除'''词性标注'''相关内容&lt;br /&gt;
&lt;br /&gt;
== 信息检索系统介绍 ==&lt;br /&gt;
* 2022春视频：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/intro-to-info-retrieval.mp4 信息检索系统介绍]&lt;br /&gt;
= 具体作业 =&lt;br /&gt;
&lt;br /&gt;
== 作业1：分字（C++语言） ==&lt;br /&gt;
* 2022春视频和图片：&lt;br /&gt;
** 低画质：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/split-char-low-quality.mp4 作业1]&lt;br /&gt;
** 高画质：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/split-char-part-1.mp4 作业1-part1]、 [http://hlt.suda.edu.cn/LA/Ir-2022-Spring/split-char-part-2.mp4 作业1-part2]&lt;br /&gt;
** 图片：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/split-char-figure-1.jpg 图1]、 [http://hlt.suda.edu.cn/LA/Ir-2022-Spring/split-char-figure-2.jpg 图2]&lt;br /&gt;
* UTF-8数据：[[文件:sentence.txt]]&lt;br /&gt;
* UFT-8编码规则：&lt;br /&gt;
 &amp;lt;nowiki&amp;gt;&lt;br /&gt;
1字节 0xxxxxxx&lt;br /&gt;
2字节 110xxxxx 10xxxxxx&lt;br /&gt;
3字节 1110xxxx 10xxxxxx 10xxxxxx&lt;br /&gt;
4字节 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx&lt;br /&gt;
5字节 111110xx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx&lt;br /&gt;
6字节 1111110x 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx &amp;lt;/nowiki&amp;gt;&lt;br /&gt;
&lt;br /&gt;
== 作业2：单词计数 ==&lt;br /&gt;
* 课件 [http://hlt.suda.edu.cn/~zhli/teach/ir-2019-spring/word-count.pdf PPT下载]&lt;br /&gt;
* 2022春视频：&lt;br /&gt;
** 低画质：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/word-count-low-quality.mp4 作业2]&lt;br /&gt;
** 高画质：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/word-count-2.mp4 作业2] &lt;br /&gt;
* 数据 [http://hlt.suda.edu.cn/~zhli/teach/ir-2019-spring/sample-en.txt txt下载]&lt;br /&gt;
&lt;br /&gt;
== 作业3：最大匹配分词 == &lt;br /&gt;
* 作业提交时间截止时间：第5周3.25下课之前提交&lt;br /&gt;
* 课件：前向最大匹配 PDF文件--[[文件:Word-seg-max-match.pdf]]；PPT文件--[[文件:Word-seg-max-match.zip]]&lt;br /&gt;
* 2022春视频和图片：&lt;br /&gt;
** 低画质：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/word-seg-max-match-low-quality.mp4 作业3]&lt;br /&gt;
** 高画质：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/word-seg-max-match.mp4 作业3] &lt;br /&gt;
** 图片：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/word-seg-max-match.jpg 图] &lt;br /&gt;
&lt;br /&gt;
* 数据下载：&lt;br /&gt;
** 字典：[[文件:dict.txt]] &lt;br /&gt;
** 待分词：[[文件:sentence.txt]] &lt;br /&gt;
** 正确答案（人工标注的，你的模型的预测结果要和这个文件进行对比，从而得到P/R/F值）：[[文件:answer.txt]]；&lt;br /&gt;
** 正向最大匹配分词模型的预测结果（如果你的程序写对了，那么应该和这个结果一模一样）：[[文件:out.txt]]&lt;br /&gt;
&lt;br /&gt;
 &amp;lt;nowiki&amp;gt;&lt;br /&gt;
*正确实验结果&lt;br /&gt;
**正确识别的词数：20263&lt;br /&gt;
**识别出的总体个数：20397&lt;br /&gt;
**测试集中的总体个数：20454&lt;br /&gt;
**正确率：0.99343&lt;br /&gt;
**召回率：0.99066&lt;br /&gt;
**F值：0.99204 &amp;lt;/nowiki&amp;gt;&lt;br /&gt;
&lt;br /&gt;
== 作业4：网页正文抽取 ==&lt;br /&gt;
&lt;br /&gt;
* 作业提交时间截止时间：x.x下课前提交&lt;br /&gt;
* 2022春视频： [http://hlt.suda.edu.cn/LA/Ir-2022-Spring/web-page-content-extraction.mp4 作业4]&lt;br /&gt;
* 课件（&amp;lt;font color='red'&amp;gt;请严格按照课件要求完成作业&amp;lt;/font&amp;gt;）： &lt;br /&gt;
** [[:文件:ir-2022-spring-web-page-content-extraction.ppt]]&lt;br /&gt;
** [[:文件:ir-2022-spring-web-page-content-extraction.pdf]]&lt;br /&gt;
* 数据&lt;br /&gt;
** 1.html和2.html [[:文件:ir-2022-spring-example-html.zip]]&lt;br /&gt;
** data-1k：1000个html文件 [[:文件:ir-2022-spring-all-html.zip]] （如果文件出现乱码，请到qq群里下载）&lt;br /&gt;
&lt;br /&gt;
== 作业5：倒排索引 == &lt;br /&gt;
&lt;br /&gt;
* 作业提交时间截止时间：第8周4.15下课前提交&lt;br /&gt;
* 课件： &lt;br /&gt;
** 仅供参考，与本次作业要求无关：[[:文件:ir-2022-spring-inverted-index-simplified.ppt]]&lt;br /&gt;
*  2022春视频和图片： &lt;br /&gt;
** 视频：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/inverted-index.mp4 作业5]&lt;br /&gt;
** 图片：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/inverted-index.jpg 图]&lt;br /&gt;
* 数据&lt;br /&gt;
** 停用词表：[https://github.com/goto456/stopwords github网址] [http://hlt.suda.edu.cn/LA/Ir-2022-Spring/stopwords.zip 苏大本地下载] &lt;br /&gt;
** 结巴词典：[https://github.com/fxsjy/jieba/tree/master/extra_dict github网址] [http://hlt.suda.edu.cn/LA/Ir-2022-Spring/word_dict.zip 苏大本地下载]&lt;br /&gt;
** 结巴词典文件每一行有3列，为：单词、词频、词性，只需要使用第一列的单词即可，使用small进行调试，提交作业用big&lt;br /&gt;
&lt;br /&gt;
== 作业6：布尔查询 ==&lt;br /&gt;
&lt;br /&gt;
* 作业提交时间截止时间：x.x下课前提交&lt;br /&gt;
*  2022春视频和图片： &lt;br /&gt;
** 视频：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/bool-query.mp4 作业6]&lt;br /&gt;
** 图片：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/bool-query.jpg 图]&lt;br /&gt;
* 作业提交说明：&lt;br /&gt;
** 附件中给出本次作业使用的倒排索引文件（可以在作业5的基础上进行优化），&amp;lt;font color=&amp;quot;red&amp;quot;&amp;gt;不需要提供构建倒排索引的代码，但在实验报告中给出倒排索引文件的说明，参考侯皓文同学&amp;lt;/font&amp;gt;&lt;br /&gt;
** 交集、并集操作用inter()、union()这两个函数单独封装&lt;br /&gt;
** &amp;lt;font color=&amp;quot;red&amp;quot;&amp;gt;对4个语句&amp;lt;/font&amp;gt; 'A', 'B', 'A AND B', 'A OR B' （A、B为自定义的查询词） 分别进行一次查询，每次的查询结果单独保存到一个txt文件中，以查询语句作为文件名（如 'A AND B.txt'`）&lt;br /&gt;
** 结果展示部分，文件按名字字母序排序：指字符序（用内置的sort即可），先用pinyin包转成拼音再排序也可以，不要自行改变文件名（如 阿大.txt -&amp;gt; 34.txt）&lt;br /&gt;
** 实现更复杂的查询，如：'A AND B OR C' 可以加分&lt;br /&gt;
** 查询词的加重（用#标记）不做强制要求，但做了加分&lt;br /&gt;
&lt;br /&gt;
== 作业7：基于向量空间模型（VSM）和tf-idf权重的网页相关性排序 ==&lt;br /&gt;
&lt;br /&gt;
* 作业提交时间截止时间：xx之前提交&lt;br /&gt;
** 视频：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/web-page-rank.mp4 作业7]&lt;br /&gt;
** 图片：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/web-page-rank-1.jpg 图片1]  [http://hlt.suda.edu.cn/LA/Ir-2022-Spring/web-page-rank-2.jpg 图片2]&lt;br /&gt;
* 作业要求：&lt;br /&gt;
** 如果无法理解向量空间模型，可以选择做tf-idf作业，但最多只给50分&lt;br /&gt;
** 实现基于向量空间模型的网页相关性排序&lt;br /&gt;
** 给定一个查询Q：可以是手动用空格分好词的&amp;quot;李正华 招收 学生&amp;quot;；也可以是未分词的&amp;quot;李正华招收学生&amp;quot;，之后用最大匹配分词分好词 -&amp;gt; &amp;quot;李正华 招收 学生&amp;quot;&lt;br /&gt;
** 注释：一个给定分词的查询Q实际上等价于布尔查询OR：&amp;quot;李正华 招收 学生&amp;quot; &amp;lt;=&amp;gt; &amp;quot;李正华 OR 招收 OR 学生&amp;quot;&lt;br /&gt;
* 作业提交说明：&lt;br /&gt;
** 附件中给出本任务所使用的倒排索引文件&lt;br /&gt;
** 在实验报告中说明对于余弦相似度计算中的：di[k]、q[k]、|di|、|q|是如何处理或存储的&lt;br /&gt;
** 附件中给出一个查询Q的结果，保存为文本文件&amp;quot;Q.txt&amp;quot;中，格式为：&lt;br /&gt;
&lt;br /&gt;
  文档名1（余弦相似度Sim） # Sim值可不除以|q|的值，一个例子： 阿鲁巴岛.txt(0.64)&lt;br /&gt;
  句子1&lt;br /&gt;
  句子2&lt;br /&gt;
  ...&lt;br /&gt;
  文档名2（余弦相似度Sim）&lt;br /&gt;
  句子1&lt;br /&gt;
  句子2&lt;br /&gt;
  ...&lt;br /&gt;
  ......&lt;br /&gt;
&lt;br /&gt;
== 作业8：爬虫和某机构主页检索系统（综合项目） ==&lt;br /&gt;
&lt;br /&gt;
* 作业提交时间截止时间：xx之前提交&lt;br /&gt;
** 视频：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/web-spider.mp4 作业8]&lt;br /&gt;
** PPT：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/web-spider.pptx PPT]&lt;br /&gt;
* 任务一：用&amp;lt;font color=&amp;quot;red&amp;quot;&amp;gt;爬虫模块&amp;lt;/font&amp;gt;尽量完整地爬下来一个机构对应的所有静态网页（html或htm后缀），保存到磁盘中：&lt;br /&gt;
** 苏大、苏大计算机学院（规模小一点）都可以&lt;br /&gt;
** orphan网页不用考虑&lt;br /&gt;
* 任务二：基于爬取的网页，做一个完整的检索系统（以后可以考虑不断完善、定时更新）：&lt;br /&gt;
** 1. &amp;lt;font color=&amp;quot;red&amp;quot;&amp;gt;网页正文提取模块&amp;lt;/font&amp;gt;（同作业4的实战部分一致）&lt;br /&gt;
** 2. 处理网页正文的&amp;lt;font color=&amp;quot;red&amp;quot;&amp;gt;分句、分词模块&amp;lt;/font&amp;gt;（可以用作业3的最大匹配分词，也可以用第三方的分词器，如jieba）&lt;br /&gt;
** 3. &amp;lt;font color=&amp;quot;red&amp;quot;&amp;gt;倒排索引模块&amp;lt;/font&amp;gt;：基于处理好的网页正文，建立倒排索引文件（同作业5一致）&lt;br /&gt;
** 4. &amp;lt;font color=&amp;quot;red&amp;quot;&amp;gt;网页排序模块&amp;lt;/font&amp;gt;：实现网页相关性排序（同作业7一致）&lt;br /&gt;
** 5. &amp;lt;font color=&amp;quot;red&amp;quot;&amp;gt;查询模块&amp;lt;/font&amp;gt;：提供查询接口，用户输入查询词后显示网页名（暂定为网页的title），和包含查询词的句子，查询词进行highlight处理（如#查询词#）。查询接口可以用命令行实现，提供前端UI界面（Web或Application都可以）会获得加分。&lt;br /&gt;
&lt;br /&gt;
注意：把网页源文件（html文件）保存好，避免重复爬。例如优化了网页正文提取模块、或突然想用一个更好的分词器&lt;br /&gt;
&lt;br /&gt;
* 作业提交说明：&lt;br /&gt;
** 源代码：任务一和任务二的所有代码都要提交，每个模块（共6个，在上方已用红色标出）在readme中指明在哪个python文件中实现的&lt;br /&gt;
** 处理好的网页数据（可选）：原始网页，提取出并分好句、分好词的网页正文，若网页数据特别大的话可以不要&lt;br /&gt;
** 在实验报告中将三项统计信息放到表格中：网页（文档）数、句子数、单词数&lt;br /&gt;
** 倒排索引文件（必备）&lt;br /&gt;
** 说明文档：(每个模块的)实现的功能，如何使用，接口等，内容不限&lt;br /&gt;
&lt;br /&gt;
== 作业9：深度学习方法&amp;amp;检索结果的评价 ==&lt;br /&gt;
&lt;br /&gt;
* 要求&lt;br /&gt;
** 账号环境，跑推理代码，重现完成部分实验。&lt;br /&gt;
*** 具体要跑哪些实验，请看文档最后的表格：[https://resplendent-gumdrop-ad2cd4.netlify.app/contriever-ir-course-assignment/ 具体文档] &lt;br /&gt;
** 自己实现评价指标，自己的评价指标的结果，和contriever 的结果一致。&lt;br /&gt;
** VSM和 Contriever 的对比&lt;br /&gt;
 &amp;lt;nowiki&amp;gt; 针对自己实现的“苏大计算机官网搜索引擎”，去对比VSM和Contriever的效果。&lt;br /&gt;
     自己设计10个难度不同的 query，然后 VSM 返回 50 个结果，把这 50 个结果随机打乱顺序（这一步很重要），然后人工做一个标注（给一个排序）【如果觉得 10 个 query 太多，5 个也行】&lt;br /&gt;
     Contriever对 50 个结果重排序&lt;br /&gt;
     比较两种方法的结果：NDCG@5      NDCG@10       NDCG@20等&lt;br /&gt;
     如果有能力、有时间，可以分析下：什么样的query，VSM 做得好；什么样的 query，Contriever 做得好。 &amp;lt;/nowiki&amp;gt;&lt;br /&gt;
** 实验报告体现出自己做了什么、遇到的困难及如何解决。&lt;br /&gt;
&lt;br /&gt;
* 参考资料&lt;br /&gt;
** 上面的文档&lt;br /&gt;
** 微信公众号”语析LAGroup“中 contriever 论文解读&lt;br /&gt;
** contriever 原文&lt;br /&gt;
&lt;br /&gt;
== 时间表 ==&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
 &amp;lt;nowiki&amp;gt;&lt;br /&gt;
3.5 第1周&lt;br /&gt;
3.12 第2周&lt;br /&gt;
&lt;br /&gt;
xxx&lt;br /&gt;
3.25 第5周&lt;br /&gt;
4.1 第6周&lt;br /&gt;
4.29 第10周&lt;br /&gt;
5.6 第11周&lt;br /&gt;
5.27 第14周&lt;br /&gt;
6.3 第15周&lt;br /&gt;
6.17 第17周&lt;br /&gt;
&lt;br /&gt;
1	08:00-08:45&lt;br /&gt;
2	08:50-09:35&lt;br /&gt;
3	09:55-10:40&lt;br /&gt;
4	10:45-11:30&lt;br /&gt;
5	11:35-12:20&lt;br /&gt;
6	14:00-14:45&lt;br /&gt;
7	14:50-15:35 【休息5分钟，+15分钟】&lt;br /&gt;
8	15:55-16:40 &lt;br /&gt;
9	16:45-17:30 【17:15】   &lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
考虑来2-3 次考试。&lt;br /&gt;
闭卷考试，比较正式的那种。在机房里就行。然后拍照留存？&lt;br /&gt;
&lt;br /&gt;
2次考试的方案：&lt;br /&gt;
倒排搞完 考一次&lt;br /&gt;
最后一次 &lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
3次考试的方案：&lt;br /&gt;
最大匹配分词搞完，考一次&lt;br /&gt;
布尔查询搞完 考一次&lt;br /&gt;
最后一次 &lt;br /&gt;
&lt;br /&gt;
上机课9 个作业，实验报告，主要是形式审查，占比比较低。要根据考试的成绩，然后加权得到每一次作业的成绩。&lt;br /&gt;
最后，9 个作业再按照一定比例，得到实验成绩。&lt;br /&gt;
&lt;br /&gt;
&amp;lt;/nowiki&amp;gt;&lt;/div&gt;</summary>
		<author><name>Zhli</name></author>
	</entry>
	<entry>
		<id>http://hlt.suda.edu.cn/index.php?title=Ir-2026-spring&amp;diff=6172</id>
		<title>Ir-2026-spring</title>
		<link rel="alternate" type="text/html" href="http://hlt.suda.edu.cn/index.php?title=Ir-2026-spring&amp;diff=6172"/>
		<updated>2026-03-04T10:13:46Z</updated>

		<summary type="html">&lt;p&gt;Zhli：&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;&lt;br /&gt;
&lt;br /&gt;
= 信息检索综合实践 =&lt;br /&gt;
&lt;br /&gt;
李正华&lt;br /&gt;
&lt;br /&gt;
* 学生：计23计科1班	 	 	 &lt;br /&gt;
* 助教：吕喆、梅睿桐&lt;br /&gt;
* 时间：周四 6-9 节课 1-17 周&lt;br /&gt;
* 地点：理工楼238&lt;br /&gt;
&lt;br /&gt;
== 上课基本要求 ==&lt;br /&gt;
* 不能做的事情：打游戏、看课程无关视频、刷网页&lt;br /&gt;
* 认真读作业要求，按时交作业。csteaching&lt;br /&gt;
* 不能抄袭别人或网上的，自己做；不要把自己的作业给别人&lt;br /&gt;
&lt;br /&gt;
== 课程建议 ==&lt;br /&gt;
* 每个作业，截止时间后，把成绩发给大家，并用ppt给大家讲一下批作业发现的问题，题目分析&lt;br /&gt;
* 上课期间：请大家积极提问。遇到大家都无法理解的公共问题，我会补充讲解&lt;br /&gt;
* 非上课时间提问&lt;br /&gt;
** 建议同学们在群里提问（包括但不限于代码的bug、不理解算法、作业资源和提交等），由其他同学帮助解答；&lt;br /&gt;
** 群里的提问如果其他同学也无法回答，可以私信助教（仅限xxx，如周三晚上7点到9点，吕喆增加）；&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
== 计算成绩的规则和说明（待定） ==&lt;br /&gt;
* 实验作业：70-80分&lt;br /&gt;
** 一系列作业，每个作业10-20分（形式检查为辅、考核为主）&lt;br /&gt;
** 必须按照规定时间，按照规定格式要求，将实验报告+源代码，提交到csteaching&lt;br /&gt;
&lt;br /&gt;
* 期末面对面小测验：10分&lt;br /&gt;
** 考察课程相关的基础知识，看看作业是否是自己做的&lt;br /&gt;
&lt;br /&gt;
* 平时成绩：10-20分&lt;br /&gt;
** 不能迟到、早退，特殊情况必须请假，并带辅导员签字的假条；&lt;br /&gt;
** 点名时，如果发现名单上没有你的名字，及时提出&lt;br /&gt;
&lt;br /&gt;
== 提交作业说明 ==&lt;br /&gt;
* 网址：[http://csteaching.suda.edu.cn csteaching]&lt;br /&gt;
* &amp;lt;font color='red&amp;gt;作业迟交了则最终成绩会按一定比例缩减&amp;lt;/font&amp;gt;&lt;br /&gt;
* 包含两部分&lt;br /&gt;
** 实验报告（pdf文件，&amp;lt;font color='red&amp;gt;请把word转为pdf&amp;lt;/font&amp;gt;）&lt;br /&gt;
*** 请按照实验模版[[:文件:ir-2022-spring-report.doc]]，认真填写个人信息、实验题目、实验内容等&lt;br /&gt;
*** 不要大段粘贴代码，最多可以粘贴核心的一小段代码，&amp;lt;font color='red&amp;gt;粘贴大段代码会扣分&amp;lt;/font&amp;gt;&lt;br /&gt;
*** 写清楚自己的解决思路，尤其是遇到的难点和如何解决&lt;br /&gt;
*** 建议可以画流程图或者写伪代码。&lt;br /&gt;
*** 解决思路的流程图中是以文字为主还是以代码为主？报告中不要直接放代码。文字为主，不在于写得长，而在于写清楚，表明你确实做了、想了。&lt;br /&gt;
*** 问：流程图可以改成自然语言描述或者是伪代码吗？答：流程图也可以画的很high-level的。大家自由发挥。也可以画到纸上然后拍照截图。模块化思维 大问题分解小问题 。&lt;br /&gt;
*** &amp;lt;font color='red&amp;gt;将程序运行结果截图，没有运行结果会扣分&amp;lt;/font&amp;gt;，中间的输出结果/文件可以截图一部分&lt;br /&gt;
** 附件（.zip压缩包）&lt;br /&gt;
*** 源代码：代码不要都团在一起，请用空行对代码进行分隔，并简单注释代码块的功能&lt;br /&gt;
*** readme.txt文件：说明如何运行你的程序，需要什么环境，如windows或linux，python版本如python3.5&lt;br /&gt;
* 提交前自我检查&lt;br /&gt;
** 是否有包含readme.txt文件解释如何编译执行你的程序。 &amp;lt;font color='red&amp;gt;如没有该文件，将减分。&amp;lt;/font&amp;gt;&lt;br /&gt;
** 是否认真完成实验报告&lt;br /&gt;
** 是否可以按照readme.txt正确编译和运行程序&lt;br /&gt;
** 是否包含别人的代码，&amp;lt;font color='red&amp;gt;抄袭和被抄袭的都是0分&amp;lt;/font&amp;gt;&lt;br /&gt;
** 期末可能会用软件做自动抄袭检查&lt;br /&gt;
** 等这学期最后几周，我们可能统一对所有的作业做自动查重，到时候也会查出一些问题。 &amp;lt;font color='red&amp;gt;请大家一定要自己做，编程能力差一点，就做得简单一点，能力强，就做得好一点。但是一定要自己做。 &amp;lt;/font&amp;gt;&lt;br /&gt;
* 提交作业命名规则&lt;br /&gt;
** 实验报告（姓名学号.pdf）&lt;br /&gt;
** 附件（姓名学号.zip）&lt;br /&gt;
&lt;br /&gt;
== 实验报告word模板 ==&lt;br /&gt;
* [[:文件:ir-2022-spring-report.doc]]&lt;br /&gt;
&lt;br /&gt;
== 具体课程（含作业） == &lt;br /&gt;
&lt;br /&gt;
{| class=&amp;quot;wikitable&amp;quot;&lt;br /&gt;
! style=&amp;quot;text-align:left;&amp;quot;| 作业&lt;br /&gt;
! 成绩比例&lt;br /&gt;
! 评分要点&lt;br /&gt;
|-&lt;br /&gt;
| 分字&lt;br /&gt;
| 5%&lt;br /&gt;
| 按字节读取并判断高位&lt;br /&gt;
|-&lt;br /&gt;
| 单词计数&lt;br /&gt;
| 5%&lt;br /&gt;
| 无&lt;br /&gt;
|-&lt;br /&gt;
| 最大匹配分词&lt;br /&gt;
| 10%&lt;br /&gt;
| 算法和评价正确实现&lt;br /&gt;
|-&lt;br /&gt;
| 网页正文抽取&lt;br /&gt;
| 10%&lt;br /&gt;
| 按要求完成两个任务&lt;br /&gt;
|-&lt;br /&gt;
| 倒排索引&lt;br /&gt;
| 10%&lt;br /&gt;
| 高效创建倒排文件&lt;br /&gt;
|-&lt;br /&gt;
| 布尔查询&lt;br /&gt;
| 10%&lt;br /&gt;
| inter和union的复杂度为O(n)，复杂查询用堆栈判断优先级&lt;br /&gt;
|-&lt;br /&gt;
| 网页相关性排序&lt;br /&gt;
| 15%&lt;br /&gt;
| 基于向量空间模型VSM、tf-idf权重&lt;br /&gt;
|-&lt;br /&gt;
| 爬虫和某机构主页检索系统&lt;br /&gt;
| 15%&lt;br /&gt;
| 实现爬虫，系统架构设计良好，说明文档详细，UI完整&lt;br /&gt;
|-&lt;br /&gt;
| &amp;lt;font color='black&amp;gt;基于深度学习的检索系统&amp;lt;/font&amp;gt;&lt;br /&gt;
| 20%&lt;br /&gt;
| Contriever：重现部分实验结果；自己实现评价指标；在上一个作业中的爬虫和检索系统的基础上，自己设计、标注 10 个 query，对比向量空间模型VSM 和Contriever 的效果，给出评价结果。建议：VSM 给 100 个结果，然后 Contriever 重排序，然后人工标注，具体如何标注更合理，自己考虑好。&lt;br /&gt;
|-&lt;br /&gt;
|}&lt;br /&gt;
&lt;br /&gt;
== 信息检索课程介绍 ==&lt;br /&gt;
* [http://hlt.suda.edu.cn/~zhli/teach/ir-2019-spring/ir-introduction-v0.4.pdf PPT下载]&lt;br /&gt;
* 2022春视频和图片：&lt;br /&gt;
** 低画质：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/course-intro-low-quality.mp4 课程介绍]&lt;br /&gt;
** 高画质：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/course-intro-part-1.mp4 课程介绍-part1]、 [http://hlt.suda.edu.cn/LA/Ir-2022-Spring/course-intro-part-2.mp4 课程介绍-part2]&lt;br /&gt;
** 图片：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/course-intro.jpg 图]&lt;br /&gt;
&lt;br /&gt;
* &amp;lt;font color='red&amp;gt;和2022年课程的区别&amp;lt;/font&amp;gt;：增加了'''基于深度学习的检索'''的内容，删除'''词性标注'''相关内容&lt;br /&gt;
&lt;br /&gt;
== 信息检索系统介绍 ==&lt;br /&gt;
* 2022春视频：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/intro-to-info-retrieval.mp4 信息检索系统介绍]&lt;br /&gt;
= 具体作业 =&lt;br /&gt;
&lt;br /&gt;
== 作业1：分字（C++语言） ==&lt;br /&gt;
* 2022春视频和图片：&lt;br /&gt;
** 低画质：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/split-char-low-quality.mp4 作业1]&lt;br /&gt;
** 高画质：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/split-char-part-1.mp4 作业1-part1]、 [http://hlt.suda.edu.cn/LA/Ir-2022-Spring/split-char-part-2.mp4 作业1-part2]&lt;br /&gt;
** 图片：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/split-char-figure-1.jpg 图1]、 [http://hlt.suda.edu.cn/LA/Ir-2022-Spring/split-char-figure-2.jpg 图2]&lt;br /&gt;
* UTF-8数据：[[文件:sentence.txt]]&lt;br /&gt;
* UFT-8编码规则：&lt;br /&gt;
 &amp;lt;nowiki&amp;gt;&lt;br /&gt;
1字节 0xxxxxxx&lt;br /&gt;
2字节 110xxxxx 10xxxxxx&lt;br /&gt;
3字节 1110xxxx 10xxxxxx 10xxxxxx&lt;br /&gt;
4字节 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx&lt;br /&gt;
5字节 111110xx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx&lt;br /&gt;
6字节 1111110x 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx &amp;lt;/nowiki&amp;gt;&lt;br /&gt;
&lt;br /&gt;
== 作业2：单词计数 ==&lt;br /&gt;
* 课件 [http://hlt.suda.edu.cn/~zhli/teach/ir-2019-spring/word-count.pdf PPT下载]&lt;br /&gt;
* 2022春视频：&lt;br /&gt;
** 低画质：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/word-count-low-quality.mp4 作业2]&lt;br /&gt;
** 高画质：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/word-count-2.mp4 作业2] &lt;br /&gt;
* 数据 [http://hlt.suda.edu.cn/~zhli/teach/ir-2019-spring/sample-en.txt txt下载]&lt;br /&gt;
&lt;br /&gt;
== 作业3：最大匹配分词 == &lt;br /&gt;
* 作业提交时间截止时间：第5周3.25下课之前提交&lt;br /&gt;
* 课件：前向最大匹配 PDF文件--[[文件:Word-seg-max-match.pdf]]；PPT文件--[[文件:Word-seg-max-match.zip]]&lt;br /&gt;
* 2022春视频和图片：&lt;br /&gt;
** 低画质：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/word-seg-max-match-low-quality.mp4 作业3]&lt;br /&gt;
** 高画质：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/word-seg-max-match.mp4 作业3] &lt;br /&gt;
** 图片：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/word-seg-max-match.jpg 图] &lt;br /&gt;
&lt;br /&gt;
* 数据下载：&lt;br /&gt;
** 字典：[[文件:dict.txt]] &lt;br /&gt;
** 待分词：[[文件:sentence.txt]] &lt;br /&gt;
** 正确答案（人工标注的，你的模型的预测结果要和这个文件进行对比，从而得到P/R/F值）：[[文件:answer.txt]]；&lt;br /&gt;
** 正向最大匹配分词模型的预测结果（如果你的程序写对了，那么应该和这个结果一模一样）：[[文件:out.txt]]&lt;br /&gt;
&lt;br /&gt;
 &amp;lt;nowiki&amp;gt;&lt;br /&gt;
*正确实验结果&lt;br /&gt;
**正确识别的词数：20263&lt;br /&gt;
**识别出的总体个数：20397&lt;br /&gt;
**测试集中的总体个数：20454&lt;br /&gt;
**正确率：0.99343&lt;br /&gt;
**召回率：0.99066&lt;br /&gt;
**F值：0.99204 &amp;lt;/nowiki&amp;gt;&lt;br /&gt;
&lt;br /&gt;
== 作业4：网页正文抽取 ==&lt;br /&gt;
&lt;br /&gt;
* 作业提交时间截止时间：x.x下课前提交&lt;br /&gt;
* 2022春视频： [http://hlt.suda.edu.cn/LA/Ir-2022-Spring/web-page-content-extraction.mp4 作业4]&lt;br /&gt;
* 课件（&amp;lt;font color='red'&amp;gt;请严格按照课件要求完成作业&amp;lt;/font&amp;gt;）： &lt;br /&gt;
** [[:文件:ir-2022-spring-web-page-content-extraction.ppt]]&lt;br /&gt;
** [[:文件:ir-2022-spring-web-page-content-extraction.pdf]]&lt;br /&gt;
* 数据&lt;br /&gt;
** 1.html和2.html [[:文件:ir-2022-spring-example-html.zip]]&lt;br /&gt;
** data-1k：1000个html文件 [[:文件:ir-2022-spring-all-html.zip]] （如果文件出现乱码，请到qq群里下载）&lt;br /&gt;
&lt;br /&gt;
== 作业5：倒排索引 == &lt;br /&gt;
&lt;br /&gt;
* 作业提交时间截止时间：第8周4.15下课前提交&lt;br /&gt;
* 课件： &lt;br /&gt;
** 仅供参考，与本次作业要求无关：[[:文件:ir-2022-spring-inverted-index-simplified.ppt]]&lt;br /&gt;
*  2022春视频和图片： &lt;br /&gt;
** 视频：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/inverted-index.mp4 作业5]&lt;br /&gt;
** 图片：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/inverted-index.jpg 图]&lt;br /&gt;
* 数据&lt;br /&gt;
** 停用词表：[https://github.com/goto456/stopwords github网址] [http://hlt.suda.edu.cn/LA/Ir-2022-Spring/stopwords.zip 苏大本地下载] &lt;br /&gt;
** 结巴词典：[https://github.com/fxsjy/jieba/tree/master/extra_dict github网址] [http://hlt.suda.edu.cn/LA/Ir-2022-Spring/word_dict.zip 苏大本地下载]&lt;br /&gt;
** 结巴词典文件每一行有3列，为：单词、词频、词性，只需要使用第一列的单词即可，使用small进行调试，提交作业用big&lt;br /&gt;
&lt;br /&gt;
== 作业6：布尔查询 ==&lt;br /&gt;
&lt;br /&gt;
* 作业提交时间截止时间：x.x下课前提交&lt;br /&gt;
*  2022春视频和图片： &lt;br /&gt;
** 视频：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/bool-query.mp4 作业6]&lt;br /&gt;
** 图片：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/bool-query.jpg 图]&lt;br /&gt;
* 作业提交说明：&lt;br /&gt;
** 附件中给出本次作业使用的倒排索引文件（可以在作业5的基础上进行优化），&amp;lt;font color=&amp;quot;red&amp;quot;&amp;gt;不需要提供构建倒排索引的代码，但在实验报告中给出倒排索引文件的说明，参考侯皓文同学&amp;lt;/font&amp;gt;&lt;br /&gt;
** 交集、并集操作用inter()、union()这两个函数单独封装&lt;br /&gt;
** &amp;lt;font color=&amp;quot;red&amp;quot;&amp;gt;对4个语句&amp;lt;/font&amp;gt; 'A', 'B', 'A AND B', 'A OR B' （A、B为自定义的查询词） 分别进行一次查询，每次的查询结果单独保存到一个txt文件中，以查询语句作为文件名（如 'A AND B.txt'`）&lt;br /&gt;
** 结果展示部分，文件按名字字母序排序：指字符序（用内置的sort即可），先用pinyin包转成拼音再排序也可以，不要自行改变文件名（如 阿大.txt -&amp;gt; 34.txt）&lt;br /&gt;
** 实现更复杂的查询，如：'A AND B OR C' 可以加分&lt;br /&gt;
** 查询词的加重（用#标记）不做强制要求，但做了加分&lt;br /&gt;
&lt;br /&gt;
== 作业7：基于向量空间模型（VSM）和tf-idf权重的网页相关性排序 ==&lt;br /&gt;
&lt;br /&gt;
* 作业提交时间截止时间：xx之前提交&lt;br /&gt;
** 视频：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/web-page-rank.mp4 作业7]&lt;br /&gt;
** 图片：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/web-page-rank-1.jpg 图片1]  [http://hlt.suda.edu.cn/LA/Ir-2022-Spring/web-page-rank-2.jpg 图片2]&lt;br /&gt;
* 作业要求：&lt;br /&gt;
** 如果无法理解向量空间模型，可以选择做tf-idf作业，但最多只给50分&lt;br /&gt;
** 实现基于向量空间模型的网页相关性排序&lt;br /&gt;
** 给定一个查询Q：可以是手动用空格分好词的&amp;quot;李正华 招收 学生&amp;quot;；也可以是未分词的&amp;quot;李正华招收学生&amp;quot;，之后用最大匹配分词分好词 -&amp;gt; &amp;quot;李正华 招收 学生&amp;quot;&lt;br /&gt;
** 注释：一个给定分词的查询Q实际上等价于布尔查询OR：&amp;quot;李正华 招收 学生&amp;quot; &amp;lt;=&amp;gt; &amp;quot;李正华 OR 招收 OR 学生&amp;quot;&lt;br /&gt;
* 作业提交说明：&lt;br /&gt;
** 附件中给出本任务所使用的倒排索引文件&lt;br /&gt;
** 在实验报告中说明对于余弦相似度计算中的：di[k]、q[k]、|di|、|q|是如何处理或存储的&lt;br /&gt;
** 附件中给出一个查询Q的结果，保存为文本文件&amp;quot;Q.txt&amp;quot;中，格式为：&lt;br /&gt;
&lt;br /&gt;
  文档名1（余弦相似度Sim） # Sim值可不除以|q|的值，一个例子： 阿鲁巴岛.txt(0.64)&lt;br /&gt;
  句子1&lt;br /&gt;
  句子2&lt;br /&gt;
  ...&lt;br /&gt;
  文档名2（余弦相似度Sim）&lt;br /&gt;
  句子1&lt;br /&gt;
  句子2&lt;br /&gt;
  ...&lt;br /&gt;
  ......&lt;br /&gt;
&lt;br /&gt;
== 作业8：爬虫和某机构主页检索系统（综合项目） ==&lt;br /&gt;
&lt;br /&gt;
* 作业提交时间截止时间：xx之前提交&lt;br /&gt;
** 视频：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/web-spider.mp4 作业8]&lt;br /&gt;
** PPT：[http://hlt.suda.edu.cn/LA/Ir-2022-Spring/web-spider.pptx PPT]&lt;br /&gt;
* 任务一：用&amp;lt;font color=&amp;quot;red&amp;quot;&amp;gt;爬虫模块&amp;lt;/font&amp;gt;尽量完整地爬下来一个机构对应的所有静态网页（html或htm后缀），保存到磁盘中：&lt;br /&gt;
** 苏大、苏大计算机学院（规模小一点）都可以&lt;br /&gt;
** orphan网页不用考虑&lt;br /&gt;
* 任务二：基于爬取的网页，做一个完整的检索系统（以后可以考虑不断完善、定时更新）：&lt;br /&gt;
** 1. &amp;lt;font color=&amp;quot;red&amp;quot;&amp;gt;网页正文提取模块&amp;lt;/font&amp;gt;（同作业4的实战部分一致）&lt;br /&gt;
** 2. 处理网页正文的&amp;lt;font color=&amp;quot;red&amp;quot;&amp;gt;分句、分词模块&amp;lt;/font&amp;gt;（可以用作业3的最大匹配分词，也可以用第三方的分词器，如jieba）&lt;br /&gt;
** 3. &amp;lt;font color=&amp;quot;red&amp;quot;&amp;gt;倒排索引模块&amp;lt;/font&amp;gt;：基于处理好的网页正文，建立倒排索引文件（同作业5一致）&lt;br /&gt;
** 4. &amp;lt;font color=&amp;quot;red&amp;quot;&amp;gt;网页排序模块&amp;lt;/font&amp;gt;：实现网页相关性排序（同作业7一致）&lt;br /&gt;
** 5. &amp;lt;font color=&amp;quot;red&amp;quot;&amp;gt;查询模块&amp;lt;/font&amp;gt;：提供查询接口，用户输入查询词后显示网页名（暂定为网页的title），和包含查询词的句子，查询词进行highlight处理（如#查询词#）。查询接口可以用命令行实现，提供前端UI界面（Web或Application都可以）会获得加分。&lt;br /&gt;
&lt;br /&gt;
注意：把网页源文件（html文件）保存好，避免重复爬。例如优化了网页正文提取模块、或突然想用一个更好的分词器&lt;br /&gt;
&lt;br /&gt;
* 作业提交说明：&lt;br /&gt;
** 源代码：任务一和任务二的所有代码都要提交，每个模块（共6个，在上方已用红色标出）在readme中指明在哪个python文件中实现的&lt;br /&gt;
** 处理好的网页数据（可选）：原始网页，提取出并分好句、分好词的网页正文，若网页数据特别大的话可以不要&lt;br /&gt;
** 在实验报告中将三项统计信息放到表格中：网页（文档）数、句子数、单词数&lt;br /&gt;
** 倒排索引文件（必备）&lt;br /&gt;
** 说明文档：(每个模块的)实现的功能，如何使用，接口等，内容不限&lt;br /&gt;
&lt;br /&gt;
== 作业9：深度学习方法&amp;amp;检索结果的评价 ==&lt;br /&gt;
&lt;br /&gt;
* 要求&lt;br /&gt;
** 账号环境，跑推理代码，重现完成部分实验。&lt;br /&gt;
*** 具体要跑哪些实验，请看文档最后的表格：[https://resplendent-gumdrop-ad2cd4.netlify.app/contriever-ir-course-assignment/ 具体文档] &lt;br /&gt;
** 自己实现评价指标，自己的评价指标的结果，和contriever 的结果一致。&lt;br /&gt;
** VSM和 Contriever 的对比&lt;br /&gt;
 &amp;lt;nowiki&amp;gt; 针对自己实现的“苏大计算机官网搜索引擎”，去对比VSM和Contriever的效果。&lt;br /&gt;
     自己设计10个难度不同的 query，然后 VSM 返回 50 个结果，把这 50 个结果随机打乱顺序（这一步很重要），然后人工做一个标注（给一个排序）【如果觉得 10 个 query 太多，5 个也行】&lt;br /&gt;
     Contriever对 50 个结果重排序&lt;br /&gt;
     比较两种方法的结果：NDCG@5      NDCG@10       NDCG@20等&lt;br /&gt;
     如果有能力、有时间，可以分析下：什么样的query，VSM 做得好；什么样的 query，Contriever 做得好。 &amp;lt;/nowiki&amp;gt;&lt;br /&gt;
** 实验报告体现出自己做了什么、遇到的困难及如何解决。&lt;br /&gt;
&lt;br /&gt;
* 参考资料&lt;br /&gt;
** 上面的文档&lt;br /&gt;
** 微信公众号”语析LAGroup“中 contriever 论文解读&lt;br /&gt;
** contriever 原文&lt;br /&gt;
&lt;br /&gt;
== 时间表 ==&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
 &amp;lt;nowiki&amp;gt;&lt;br /&gt;
3.5 第1周&lt;br /&gt;
3.12 第2周&lt;br /&gt;
&lt;br /&gt;
xxx&lt;br /&gt;
3.25 第5周&lt;br /&gt;
4.1 第6周&lt;br /&gt;
4.29 第10周&lt;br /&gt;
5.6 第11周&lt;br /&gt;
5.27 第14周&lt;br /&gt;
6.3 第15周&lt;br /&gt;
6.17 第17周&lt;br /&gt;
&lt;br /&gt;
1	08:00-08:45&lt;br /&gt;
2	08:50-09:35&lt;br /&gt;
3	09:55-10:40&lt;br /&gt;
4	10:45-11:30&lt;br /&gt;
5	11:35-12:20&lt;br /&gt;
6	14:00-14:45&lt;br /&gt;
7	14:50-15:35 【休息5分钟，+15分钟】&lt;br /&gt;
8	15:55-16:40 &lt;br /&gt;
9	16:45-17:30 【17:15】   &lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
考虑来2-3 次考试。&lt;br /&gt;
闭卷考试，比较正式的那种。在机房里就行。然后拍照留存？&lt;br /&gt;
&lt;br /&gt;
2次考试的方案：&lt;br /&gt;
倒排搞完 考一次&lt;br /&gt;
最后一次 &lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
3次考试的方案：&lt;br /&gt;
最大匹配分词搞完，考一次&lt;br /&gt;
布尔查询搞完 考一次&lt;br /&gt;
最后一次 &lt;br /&gt;
&lt;br /&gt;
上机课9 个作业，实验报告，主要是形式审查，占比比较低。要根据考试的成绩，然后加权得到每一次作业的成绩。&lt;br /&gt;
最后，9 个作业再按照一定比例，得到实验成绩。&lt;br /&gt;
&lt;br /&gt;
&amp;lt;/nowiki&amp;gt;&lt;/div&gt;</summary>
		<author><name>Zhli</name></author>
	</entry>
	<entry>
		<id>http://hlt.suda.edu.cn/index.php?title=Writing-2025-fall&amp;diff=6171</id>
		<title>Writing-2025-fall</title>
		<link rel="alternate" type="text/html" href="http://hlt.suda.edu.cn/index.php?title=Writing-2025-fall&amp;diff=6171"/>
		<updated>2026-02-04T12:57:28Z</updated>

		<summary type="html">&lt;p&gt;Zhli：/* 2025.10.29 Lesson 6 */&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;= 专业写作（学硕、博士）	李正华	=&lt;br /&gt;
&lt;br /&gt;
* 学生：2025博士2025硕士	&lt;br /&gt;
* 助教：周月驰&lt;br /&gt;
* 时间：星期三	6-8 14:00-16:40	(从第三周开始上课)  14:45休息5分钟；15:35休息20分钟（实际会休息5分钟）&lt;br /&gt;
* 地点：理工楼153&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
 &amp;lt;nowiki&amp;gt;&lt;br /&gt;
1	08:00-08:45&lt;br /&gt;
2	08:50-09:35&lt;br /&gt;
3	09:55-10:40&lt;br /&gt;
4	10:45-11:30&lt;br /&gt;
5	11:35-12:20&lt;br /&gt;
6	14:00-14:45&lt;br /&gt;
7	14:50-15:35 &lt;br /&gt;
8	15:55-16:40 【15:40第三节课，通常16:25下课】&lt;br /&gt;
9	16:45-17:30&lt;br /&gt;
&amp;lt;/nowiki&amp;gt;&lt;br /&gt;
&lt;br /&gt;
= 计划教学大纲 =&lt;br /&gt;
&lt;br /&gt;
&amp;lt;gallery&amp;gt;&lt;br /&gt;
File:Writing-2025-fall-syllabus.png|&lt;br /&gt;
&amp;lt;/gallery&amp;gt;&lt;br /&gt;
&lt;br /&gt;
= 课程考核 =&lt;br /&gt;
课程考核分为两部分，闭卷考试和课上报告。&lt;br /&gt;
== 闭卷考试 ==&lt;br /&gt;
请大家提前预留时间参与考试！&lt;br /&gt;
&lt;br /&gt;
* 考试时间：12.25 14:00~15:30&lt;br /&gt;
* 考试地点：学号前20人在理工楼635，其余同学在理工楼103&lt;br /&gt;
* 考试内容：&lt;br /&gt;
** 2～3篇论文（课上同学讲的报告）&lt;br /&gt;
** 公众号《专业写作》系列文章（翻转课堂）&lt;br /&gt;
** 课上读过的论文（Transformer，ELMo，BERT，GPT，CLIP，ViT）&lt;br /&gt;
** 约7道题，每题200～300字，用自己的话来讲。&lt;br /&gt;
&lt;br /&gt;
* 考试要求：带两张A4纸，黑笔。诚信考试！&lt;br /&gt;
&lt;br /&gt;
== 课上报告 ==&lt;br /&gt;
未当堂汇报的同学需离线录制 8-12分钟 的视频报告（推荐使用腾讯会议录屏）。&lt;br /&gt;
&lt;br /&gt;
*   报告要求：同当堂汇报。&lt;br /&gt;
*   截止时间：北京时间 2025.12.31 23:59&lt;br /&gt;
*   提交格式：请提交一个 ZIP 压缩包，压缩包需命名为学号-姓名（例如：20254027007-周月驰.zip）。压缩包内文件结构如下：&lt;br /&gt;
    20254027007-周月驰&lt;br /&gt;
    ├── xx.mp4  (视频需 &amp;lt;30MB)&lt;br /&gt;
    ├── xx.pptx (汇报PPT)&lt;br /&gt;
    └── xx.docx (补充文档)&lt;br /&gt;
    (注：不需要提交论文原文了)&lt;br /&gt;
* 提交方式：压缩后发送助教邮箱 20254027007@stu.suda.edu.cn&lt;br /&gt;
&lt;br /&gt;
= 上课板书 =&lt;br /&gt;
== 2025.12.16 Lesson 13 ==&lt;br /&gt;
&amp;lt;gallery&amp;gt;&lt;br /&gt;
File: Writing-2025-fall-course13-image1.jpg&lt;br /&gt;
&amp;lt;/gallery&amp;gt;&lt;br /&gt;
&lt;br /&gt;
* 探讨如何写title, abstract, and conclusion.&lt;br /&gt;
* 重读ViT的related work和方法。&lt;br /&gt;
* 舒仁义和李梦华同学讲报告。&lt;br /&gt;
&lt;br /&gt;
== 2025.12.10 Lesson 12 ==&lt;br /&gt;
&amp;lt;gallery&amp;gt;&lt;br /&gt;
File: Writing-2025-fall-course12-image1.jpg&lt;br /&gt;
&amp;lt;/gallery&amp;gt;&lt;br /&gt;
&lt;br /&gt;
* 探讨如何写related work.&lt;br /&gt;
* 重读CLIP的方法，读ViT的摘要和引言。&lt;br /&gt;
* 李传伟和姚昱同学讲报告。&lt;br /&gt;
&lt;br /&gt;
== 2025.12.03 Lesson 11 ==&lt;br /&gt;
&amp;lt;gallery&amp;gt;&lt;br /&gt;
File: Writing-2025-fall-course11-image1.jpg&lt;br /&gt;
&amp;lt;/gallery&amp;gt;&lt;br /&gt;
&lt;br /&gt;
* 探讨如何写introduction.&lt;br /&gt;
* 重读CLIP的引言，发现了很多可以改进的写作上的点。&lt;br /&gt;
* 邓皓文同学讲HS-DCell。&lt;br /&gt;
&lt;br /&gt;
== 2025.11.26 Lesson 10 ==&lt;br /&gt;
&amp;lt;gallery&amp;gt;&lt;br /&gt;
File: Writing-2025-fall-course10-image1.jpg&lt;br /&gt;
&amp;lt;/gallery&amp;gt;&lt;br /&gt;
&lt;br /&gt;
* 探讨如何写experiments部分，分享人生感悟。&lt;br /&gt;
* 带读CLIP的方法部分。&lt;br /&gt;
* 孙家扬同学讲ViT。&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
== 2025.11.19 Lesson 9 ==&lt;br /&gt;
&lt;br /&gt;
* 探讨如何写method部分&lt;br /&gt;
* 带读CLIP的intro和related work&lt;br /&gt;
* 彭基轩、刘奕辰、赵文斌、杨文瑞四位同学讲报告&lt;br /&gt;
&lt;br /&gt;
== 2025.11.12 Lesson 8 ==&lt;br /&gt;
&amp;lt;gallery&amp;gt;&lt;br /&gt;
File:Writing-2025-fall-course8-image2.jpg&lt;br /&gt;
&amp;lt;/gallery&amp;gt;&lt;br /&gt;
&lt;br /&gt;
* 探讨如何做实验&lt;br /&gt;
* 阅读CLIP的abstract和部分intro&lt;br /&gt;
* 彭基轩、刘奕辰、赵文斌三位同学讲报告&lt;br /&gt;
&lt;br /&gt;
== 2025.11.5 Lesson 7 ==&lt;br /&gt;
&amp;lt;gallery&amp;gt;&lt;br /&gt;
File:Writing-2025-fall-course7-image1.jpg&lt;br /&gt;
&amp;lt;/gallery&amp;gt;&lt;br /&gt;
&lt;br /&gt;
* 探讨如何想idea&lt;br /&gt;
* 读完BERT&lt;br /&gt;
* 余田田、梁靖松分别讲FairGNN和有关药物生成的工作&lt;br /&gt;
&lt;br /&gt;
== 2025.10.29 Lesson 6 ==&lt;br /&gt;
&amp;lt;gallery&amp;gt;&lt;br /&gt;
File:Writing-2025-fall-course6-image1.jpg&lt;br /&gt;
&amp;lt;/gallery&amp;gt;&lt;br /&gt;
&lt;br /&gt;
* 探讨如何写论文笔记&lt;br /&gt;
* 重读GPT，带读BERT摘要、引言&lt;br /&gt;
 &amp;lt;nowiki&amp;gt; &lt;br /&gt;
GPT 的 finetune，针对一个具体任务&lt;br /&gt;
只能做分类任务 sentence-level 的任务&lt;br /&gt;
对于问答这样的任务（traversal-style 方式）：question &amp;lt;sep&amp;gt; answer GPT 编码后，最后一个位置的 hidden，经过 MLP，打分。4 个候选 answer（traversal-style)，softmax，最大化正确的 answer 的概率。&lt;br /&gt;
和之后的大一统的 prompt-based 的方法相比，不是一回事。&lt;br /&gt;
&amp;lt;/nowiki&amp;gt;&lt;br /&gt;
* 余田田、陈果、ruitong分别讲FairGNN、CLIP、LLaMA&lt;br /&gt;
&lt;br /&gt;
== 2025.10.22 Lesson 5 ==&lt;br /&gt;
&amp;lt;gallery&amp;gt;&lt;br /&gt;
File:Writing-2025-fall-course5-image1.jpg&lt;br /&gt;
&amp;lt;/gallery&amp;gt;&lt;br /&gt;
&lt;br /&gt;
* 探讨如何选论文、如何读论文&lt;br /&gt;
* 带读GPT技术报告&lt;br /&gt;
* 崔青青、许欣芸、吕喆分别讲图、AdaLora、DPO&lt;br /&gt;
&lt;br /&gt;
== 2025.10.15 Lesson 4 ==&lt;br /&gt;
&amp;lt;gallery&amp;gt;&lt;br /&gt;
File:Writing-2025-fall-course4-image1.jpg&lt;br /&gt;
&amp;lt;/gallery&amp;gt;&lt;br /&gt;
&lt;br /&gt;
* 探讨什么是一个完整的科研经历&lt;br /&gt;
* 带读elmo方法部分&lt;br /&gt;
* yanhui 讲eswa有关数据集的工作，罗小城和崔青青分别讲softthinking和正则图&lt;br /&gt;
&lt;br /&gt;
== 2025.10.11 Lesson 3 ==&lt;br /&gt;
&amp;lt;gallery&amp;gt;&lt;br /&gt;
File:Writing-2025-fall-course3-image1.jpg&lt;br /&gt;
&amp;lt;/gallery&amp;gt;&lt;br /&gt;
&lt;br /&gt;
* 探讨如何做报告&lt;br /&gt;
* 带读elmo摘要、引言、相关工作&lt;br /&gt;
* shilin 和 ziheng 讲报告，分别介绍copyne和大小模型协同的csc&lt;br /&gt;
&lt;br /&gt;
== 2025.09.24 Lesson 2 ==&lt;br /&gt;
&amp;lt;gallery&amp;gt;&lt;br /&gt;
File:Writing-2025-fall-course1-image2.jpeg&lt;br /&gt;
&amp;lt;/gallery&amp;gt;&lt;br /&gt;
&lt;br /&gt;
* 探讨如何听报告&lt;br /&gt;
* 带读Attention is all you need论文的剩余部分&lt;br /&gt;
* yuechi 和 ziyan 讲报告，分别介绍kv cache和大模型句法分析&lt;br /&gt;
&lt;br /&gt;
== 2025.09.17 Lesson 1 ==&lt;br /&gt;
&amp;lt;gallery&amp;gt;&lt;br /&gt;
File:Writing-2025-fall-course1-image1 new.jpeg&lt;br /&gt;
&amp;lt;/gallery&amp;gt;&lt;br /&gt;
&lt;br /&gt;
* 课程介绍&lt;br /&gt;
* 探讨什么是科研&lt;br /&gt;
* 带读Attention is all you need论文的摘要和引言&lt;br /&gt;
* houquan：讲解CSC工作&lt;br /&gt;
&lt;br /&gt;
== 2025秋：同学们期末的课程建议 ==&lt;br /&gt;
* 本学期总结：&lt;br /&gt;
** 系列小文章特别好，平生所学。&lt;br /&gt;
** 示范性读论文很好，下学期尝试写出来。&lt;br /&gt;
** 同学作报告一般，尤其提问环节。&lt;br /&gt;
** 如何示范性写论文？&lt;/div&gt;</summary>
		<author><name>Zhli</name></author>
	</entry>
	<entry>
		<id>http://hlt.suda.edu.cn/index.php?title=Writing-2025-fall&amp;diff=6170</id>
		<title>Writing-2025-fall</title>
		<link rel="alternate" type="text/html" href="http://hlt.suda.edu.cn/index.php?title=Writing-2025-fall&amp;diff=6170"/>
		<updated>2026-02-04T12:56:31Z</updated>

		<summary type="html">&lt;p&gt;Zhli：/* 2025.10.29 Lesson 6 */&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;= 专业写作（学硕、博士）	李正华	=&lt;br /&gt;
&lt;br /&gt;
* 学生：2025博士2025硕士	&lt;br /&gt;
* 助教：周月驰&lt;br /&gt;
* 时间：星期三	6-8 14:00-16:40	(从第三周开始上课)  14:45休息5分钟；15:35休息20分钟（实际会休息5分钟）&lt;br /&gt;
* 地点：理工楼153&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
 &amp;lt;nowiki&amp;gt;&lt;br /&gt;
1	08:00-08:45&lt;br /&gt;
2	08:50-09:35&lt;br /&gt;
3	09:55-10:40&lt;br /&gt;
4	10:45-11:30&lt;br /&gt;
5	11:35-12:20&lt;br /&gt;
6	14:00-14:45&lt;br /&gt;
7	14:50-15:35 &lt;br /&gt;
8	15:55-16:40 【15:40第三节课，通常16:25下课】&lt;br /&gt;
9	16:45-17:30&lt;br /&gt;
&amp;lt;/nowiki&amp;gt;&lt;br /&gt;
&lt;br /&gt;
= 计划教学大纲 =&lt;br /&gt;
&lt;br /&gt;
&amp;lt;gallery&amp;gt;&lt;br /&gt;
File:Writing-2025-fall-syllabus.png|&lt;br /&gt;
&amp;lt;/gallery&amp;gt;&lt;br /&gt;
&lt;br /&gt;
= 课程考核 =&lt;br /&gt;
课程考核分为两部分，闭卷考试和课上报告。&lt;br /&gt;
== 闭卷考试 ==&lt;br /&gt;
请大家提前预留时间参与考试！&lt;br /&gt;
&lt;br /&gt;
* 考试时间：12.25 14:00~15:30&lt;br /&gt;
* 考试地点：学号前20人在理工楼635，其余同学在理工楼103&lt;br /&gt;
* 考试内容：&lt;br /&gt;
** 2～3篇论文（课上同学讲的报告）&lt;br /&gt;
** 公众号《专业写作》系列文章（翻转课堂）&lt;br /&gt;
** 课上读过的论文（Transformer，ELMo，BERT，GPT，CLIP，ViT）&lt;br /&gt;
** 约7道题，每题200～300字，用自己的话来讲。&lt;br /&gt;
&lt;br /&gt;
* 考试要求：带两张A4纸，黑笔。诚信考试！&lt;br /&gt;
&lt;br /&gt;
== 课上报告 ==&lt;br /&gt;
未当堂汇报的同学需离线录制 8-12分钟 的视频报告（推荐使用腾讯会议录屏）。&lt;br /&gt;
&lt;br /&gt;
*   报告要求：同当堂汇报。&lt;br /&gt;
*   截止时间：北京时间 2025.12.31 23:59&lt;br /&gt;
*   提交格式：请提交一个 ZIP 压缩包，压缩包需命名为学号-姓名（例如：20254027007-周月驰.zip）。压缩包内文件结构如下：&lt;br /&gt;
    20254027007-周月驰&lt;br /&gt;
    ├── xx.mp4  (视频需 &amp;lt;30MB)&lt;br /&gt;
    ├── xx.pptx (汇报PPT)&lt;br /&gt;
    └── xx.docx (补充文档)&lt;br /&gt;
    (注：不需要提交论文原文了)&lt;br /&gt;
* 提交方式：压缩后发送助教邮箱 20254027007@stu.suda.edu.cn&lt;br /&gt;
&lt;br /&gt;
= 上课板书 =&lt;br /&gt;
== 2025.12.16 Lesson 13 ==&lt;br /&gt;
&amp;lt;gallery&amp;gt;&lt;br /&gt;
File: Writing-2025-fall-course13-image1.jpg&lt;br /&gt;
&amp;lt;/gallery&amp;gt;&lt;br /&gt;
&lt;br /&gt;
* 探讨如何写title, abstract, and conclusion.&lt;br /&gt;
* 重读ViT的related work和方法。&lt;br /&gt;
* 舒仁义和李梦华同学讲报告。&lt;br /&gt;
&lt;br /&gt;
== 2025.12.10 Lesson 12 ==&lt;br /&gt;
&amp;lt;gallery&amp;gt;&lt;br /&gt;
File: Writing-2025-fall-course12-image1.jpg&lt;br /&gt;
&amp;lt;/gallery&amp;gt;&lt;br /&gt;
&lt;br /&gt;
* 探讨如何写related work.&lt;br /&gt;
* 重读CLIP的方法，读ViT的摘要和引言。&lt;br /&gt;
* 李传伟和姚昱同学讲报告。&lt;br /&gt;
&lt;br /&gt;
== 2025.12.03 Lesson 11 ==&lt;br /&gt;
&amp;lt;gallery&amp;gt;&lt;br /&gt;
File: Writing-2025-fall-course11-image1.jpg&lt;br /&gt;
&amp;lt;/gallery&amp;gt;&lt;br /&gt;
&lt;br /&gt;
* 探讨如何写introduction.&lt;br /&gt;
* 重读CLIP的引言，发现了很多可以改进的写作上的点。&lt;br /&gt;
* 邓皓文同学讲HS-DCell。&lt;br /&gt;
&lt;br /&gt;
== 2025.11.26 Lesson 10 ==&lt;br /&gt;
&amp;lt;gallery&amp;gt;&lt;br /&gt;
File: Writing-2025-fall-course10-image1.jpg&lt;br /&gt;
&amp;lt;/gallery&amp;gt;&lt;br /&gt;
&lt;br /&gt;
* 探讨如何写experiments部分，分享人生感悟。&lt;br /&gt;
* 带读CLIP的方法部分。&lt;br /&gt;
* 孙家扬同学讲ViT。&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
== 2025.11.19 Lesson 9 ==&lt;br /&gt;
&lt;br /&gt;
* 探讨如何写method部分&lt;br /&gt;
* 带读CLIP的intro和related work&lt;br /&gt;
* 彭基轩、刘奕辰、赵文斌、杨文瑞四位同学讲报告&lt;br /&gt;
&lt;br /&gt;
== 2025.11.12 Lesson 8 ==&lt;br /&gt;
&amp;lt;gallery&amp;gt;&lt;br /&gt;
File:Writing-2025-fall-course8-image2.jpg&lt;br /&gt;
&amp;lt;/gallery&amp;gt;&lt;br /&gt;
&lt;br /&gt;
* 探讨如何做实验&lt;br /&gt;
* 阅读CLIP的abstract和部分intro&lt;br /&gt;
* 彭基轩、刘奕辰、赵文斌三位同学讲报告&lt;br /&gt;
&lt;br /&gt;
== 2025.11.5 Lesson 7 ==&lt;br /&gt;
&amp;lt;gallery&amp;gt;&lt;br /&gt;
File:Writing-2025-fall-course7-image1.jpg&lt;br /&gt;
&amp;lt;/gallery&amp;gt;&lt;br /&gt;
&lt;br /&gt;
* 探讨如何想idea&lt;br /&gt;
* 读完BERT&lt;br /&gt;
* 余田田、梁靖松分别讲FairGNN和有关药物生成的工作&lt;br /&gt;
&lt;br /&gt;
== 2025.10.29 Lesson 6 ==&lt;br /&gt;
&amp;lt;gallery&amp;gt;&lt;br /&gt;
File:Writing-2025-fall-course6-image1.jpg&lt;br /&gt;
&amp;lt;/gallery&amp;gt;&lt;br /&gt;
&lt;br /&gt;
* 探讨如何写论文笔记&lt;br /&gt;
* 重读GPT，带读BERT摘要、引言&lt;br /&gt;
 &amp;lt;nowiki&amp;gt; &lt;br /&gt;
GPT 的 finetune，针对一个具体任务&lt;br /&gt;
只能做分类任务 sentence-level 的任务&lt;br /&gt;
question &amp;lt;sep&amp;gt; answer GPT 编码后，最后一个位置的 hidden，经过 MLP，打分。4 个候选 answer（traversal-style)，softmax，最大化正确的 answer 的概率。&lt;br /&gt;
和之后的大一统的 prompt-based 的方法相比，不是一回事。&lt;br /&gt;
&amp;lt;/nowiki&amp;gt;&lt;br /&gt;
* 余田田、陈果、ruitong分别讲FairGNN、CLIP、LLaMA&lt;br /&gt;
&lt;br /&gt;
== 2025.10.22 Lesson 5 ==&lt;br /&gt;
&amp;lt;gallery&amp;gt;&lt;br /&gt;
File:Writing-2025-fall-course5-image1.jpg&lt;br /&gt;
&amp;lt;/gallery&amp;gt;&lt;br /&gt;
&lt;br /&gt;
* 探讨如何选论文、如何读论文&lt;br /&gt;
* 带读GPT技术报告&lt;br /&gt;
* 崔青青、许欣芸、吕喆分别讲图、AdaLora、DPO&lt;br /&gt;
&lt;br /&gt;
== 2025.10.15 Lesson 4 ==&lt;br /&gt;
&amp;lt;gallery&amp;gt;&lt;br /&gt;
File:Writing-2025-fall-course4-image1.jpg&lt;br /&gt;
&amp;lt;/gallery&amp;gt;&lt;br /&gt;
&lt;br /&gt;
* 探讨什么是一个完整的科研经历&lt;br /&gt;
* 带读elmo方法部分&lt;br /&gt;
* yanhui 讲eswa有关数据集的工作，罗小城和崔青青分别讲softthinking和正则图&lt;br /&gt;
&lt;br /&gt;
== 2025.10.11 Lesson 3 ==&lt;br /&gt;
&amp;lt;gallery&amp;gt;&lt;br /&gt;
File:Writing-2025-fall-course3-image1.jpg&lt;br /&gt;
&amp;lt;/gallery&amp;gt;&lt;br /&gt;
&lt;br /&gt;
* 探讨如何做报告&lt;br /&gt;
* 带读elmo摘要、引言、相关工作&lt;br /&gt;
* shilin 和 ziheng 讲报告，分别介绍copyne和大小模型协同的csc&lt;br /&gt;
&lt;br /&gt;
== 2025.09.24 Lesson 2 ==&lt;br /&gt;
&amp;lt;gallery&amp;gt;&lt;br /&gt;
File:Writing-2025-fall-course1-image2.jpeg&lt;br /&gt;
&amp;lt;/gallery&amp;gt;&lt;br /&gt;
&lt;br /&gt;
* 探讨如何听报告&lt;br /&gt;
* 带读Attention is all you need论文的剩余部分&lt;br /&gt;
* yuechi 和 ziyan 讲报告，分别介绍kv cache和大模型句法分析&lt;br /&gt;
&lt;br /&gt;
== 2025.09.17 Lesson 1 ==&lt;br /&gt;
&amp;lt;gallery&amp;gt;&lt;br /&gt;
File:Writing-2025-fall-course1-image1 new.jpeg&lt;br /&gt;
&amp;lt;/gallery&amp;gt;&lt;br /&gt;
&lt;br /&gt;
* 课程介绍&lt;br /&gt;
* 探讨什么是科研&lt;br /&gt;
* 带读Attention is all you need论文的摘要和引言&lt;br /&gt;
* houquan：讲解CSC工作&lt;br /&gt;
&lt;br /&gt;
== 2025秋：同学们期末的课程建议 ==&lt;br /&gt;
* 本学期总结：&lt;br /&gt;
** 系列小文章特别好，平生所学。&lt;br /&gt;
** 示范性读论文很好，下学期尝试写出来。&lt;br /&gt;
** 同学作报告一般，尤其提问环节。&lt;br /&gt;
** 如何示范性写论文？&lt;/div&gt;</summary>
		<author><name>Zhli</name></author>
	</entry>
	<entry>
		<id>http://hlt.suda.edu.cn/index.php?title=LA-paper-report-talk-etc&amp;diff=6169</id>
		<title>LA-paper-report-talk-etc</title>
		<link rel="alternate" type="text/html" href="http://hlt.suda.edu.cn/index.php?title=LA-paper-report-talk-etc&amp;diff=6169"/>
		<updated>2026-01-26T07:39:32Z</updated>

		<summary type="html">&lt;p&gt;Zhli：/* Talks（报告） */&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;请大家按照规则不断完善此页面。包含pdf ppt codes等。论文按年度，先中文、再英文；先期刊、再会议；先录用时间、后发表（开会）时间。尽量用英文吧。&lt;br /&gt;
&lt;br /&gt;
文献格式和内容与内部wiki保持一致（尽量避免重复劳动）&lt;br /&gt;
* pdf ppt等附件都可以放到外网可以访问的地方，放一个地方，避免重复&lt;br /&gt;
* 基金号等信息，这个页面上删掉，不要写&lt;br /&gt;
&lt;br /&gt;
== bib and abstract ==&lt;br /&gt;
&lt;br /&gt;
[http://hlt.suda.edu.cn/index.php/LA-paper-report-talk-bib bib]&lt;br /&gt;
&lt;br /&gt;
摘要和基金信息请看内部wiki&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
== Talks（报告） ==&lt;br /&gt;
&lt;br /&gt;
* '''视频尽可能都放在了哔哩哔哩上了（搜用户名：LAGroup）'''&lt;br /&gt;
* 2024年11月24日受南师大李斌老师邀请做报告（大模型时代如何做研究：一些思考）【文本纠错任务上的大模型相关工作，作为例子】&lt;br /&gt;
* 2024年2月1日受邀参加2024阿里云高校前沿技术论坛（大模型时代下文本校对研究的尝试和构想）【小而美的研究工作】&lt;br /&gt;
* 2023年4月8日受北语杨天麟老师邀请做报告（大模型时代句法语义研究何去何从）&lt;br /&gt;
* 2022年11月29日受复旦邱锡鹏老师邀请做报告（基于适配句法知识的文本纠错）&lt;br /&gt;
* 2022年11月11日受邀对COLING-2022 Best Paper做英文报告【按邀请顺序：新加坡国立大学、新加坡设计与技术大学、南京大学】&lt;br /&gt;
* 2022年8月27日，受邀在江苏省人工智能大会上做报告（汉语文本纠错近年进展：数据集和模型）&lt;br /&gt;
&lt;br /&gt;
* 2021.7.27：《数据标注师资培训》(哈工大大数据集团)&lt;br /&gt;
** [http://hlt.suda.edu.cn/LA/videos/2021-07-26-1+X数据标注师资培训.mp4 培训视频] [https://mp.weixin.qq.com/s/T2HS90jrHs-ly8aCbwj-Eg 数据标注师资培训介绍]&lt;br /&gt;
&lt;br /&gt;
* 2021.4.20：《基于树形条件随机场的句法分析》(CCF-NLP走进高校-西湖大学)&lt;br /&gt;
** [http://hlt.suda.edu.cn/LA/videos/2021-04-20%2015-28-23.mp4 talk video] [http://hlt.suda.edu.cn/LA/ppt/视频对应-基于treecrf的句法分析-2021-04-20-13-55.pdf ppt(视频对应版)] [http://hlt.suda.edu.cn/LA/ppt/修改错误-基于treecrf的句法分析-2021-04-20-17-45.pdf ppt(修正版)]&lt;br /&gt;
&lt;br /&gt;
* 2021.3：《人工智能与脑机接口》慕课 （15章）[https://hikeweb.zhihuishu.com/studyResource/index?courseId=10431947 .]&lt;br /&gt;
** [http://hlt.suda.edu.cn/LA/videos/15-1_nlp.mp4 NLP基础介绍]&lt;br /&gt;
** [http://hlt.suda.edu.cn/LA/videos/15-2_labelling.mp4 数据标注简介]　　&lt;br /&gt;
&lt;br /&gt;
* 2020.10：《神经网络》慕课 - 面向自然语言处理的神经网络 （13章）&lt;br /&gt;
** [http://hlt.suda.edu.cn/~zhli/NLP-DL/13.1.mp4 第1节：从离散特征到连续稠密向量表示]&lt;br /&gt;
** [http://hlt.suda.edu.cn/~zhli/NLP-DL/13.2.mp4 第2节：表示学习]&lt;br /&gt;
** [http://hlt.suda.edu.cn/~zhli/NLP-DL/13.3.mp4 第3节：序列标注问题]&lt;br /&gt;
** [http://hlt.suda.edu.cn/~zhli/NLP-DL/13.4.mp4 第4节：句法树解析问题]&lt;br /&gt;
&lt;br /&gt;
* 2020.8.15: I have given a talk on data annotation at AI+EDUCATION SUB-FORUM at AI-EXPO (2020 GLOBAL AI PRODUCT AND APPLICATION EXPO)  &lt;br /&gt;
** [http://hlt.suda.edu.cn/~zhli/20200816_AI_data_annotating.mp4 talk video]&lt;br /&gt;
** [https://www.ai-expo.org.cn/?content/416= AI+教育发展分论坛-全球人工智能产品应用博览会]&lt;br /&gt;
&lt;br /&gt;
* 2019年9月28日句法标注培训（LA组介绍）：&lt;br /&gt;
** [http://hlt.suda.edu.cn/~zhli/2019-9-train/LAGroup.mp4 mp4视频] [http://hlt.suda.edu.cn/~zhli/2019-9-train/zhenghua-2019-9-28-LAGroup.pdf pdf]&lt;br /&gt;
&lt;br /&gt;
== Competition or Shared Tasks == &lt;br /&gt;
&lt;br /&gt;
* 刘亚慧、乔子恒、李正华、龚晨、张民. 2025.8. CCL-2025 第三届汉语框架语义解析评测, 二等奖 [https://tianchi.aliyun.com/competition/entrance/532338/rankingList 比赛榜单]，[http://cips-cl.org/static/CCL2025/cclEval/taskResults/index.html 评测结果]&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
* 周厚全，乔子恒，蒋浩辰，刘雨萌. 金山办公2024算法挑战赛-中文文本智能校对大赛，第一名，一等奖&lt;br /&gt;
&lt;br /&gt;
* 刘亚慧、龚晨、张民. 2024.8. CCL-2024 第二届汉语框架语义解析（开放赛道）, 一等奖 [https://aclanthology.org/2024.ccl-3.3.pdf 官方评测报告.pdf] ， [https://tianchi.aliyun.com/competition/entrance/532179/rankingList 比赛榜单]&lt;br /&gt;
&lt;br /&gt;
* 王学彬, 李正华. 2024.5. 第一届古汉语断句标点评测（EvaHan2024）评测，二等奖*（COLING-2024 workshop）&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
* 辜仰淦，周仕林，李正华. 2023年8月. CCL中文抽象语义表示解析评测（一等奖）[https://aclanthology.org/2023.ccl-3.5 官网评测报告]&lt;br /&gt;
&lt;br /&gt;
* 蒋浩辰，刘雨萌，周厚全，乔子恒，章波，李辰，李正华，张民. CCL汉语学习者文本纠错评测（封闭、开放双赛道第一）. 2023年8月. [https://aclanthology.org/2023.ccl-3.25.pdf S&amp;amp;A-CCL2023评测报告.pdf]&lt;br /&gt;
** [http://cuge.baai.ac.cn/#/ccl/2023/cltc 比赛榜单]&lt;br /&gt;
&lt;br /&gt;
* 刘亚慧，李正华，张民. CCL汉语框架语义解析评测(三等奖). 2023年8月.  [https://aclanthology.org/2023.ccl-3.9.pdf 官网评测报告.pdf]， [https://tianchi.aliyun.com/competition/entrance/532083/rankingList 比赛榜单]&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
* 2022.12法研杯第一名 CAIL-2022 法律文本纠错&lt;br /&gt;
&lt;br /&gt;
* 我们组织了两届跨领域句法分析评测：CCL-2021和NLPCC-2019&lt;br /&gt;
&lt;br /&gt;
* 李嘉诚，沈嘉钰，包祖贻，章波，章岳，李辰，李正华. S&amp;amp;A团队CGED-7评测报告（识别，定位，纠正层第一）. 2021年12月. [[文件:S&amp;amp;A团队CGED-7评测报告.pdf]]&lt;br /&gt;
** [http://nlg.cipsc.org.cn/evaluation.html 比赛主页] [https://zhuanlan.zhihu.com/p/444117518 知乎总结]&lt;br /&gt;
&lt;br /&gt;
* 章岳，包祖贻，章波，李辰，李嘉诚，李正华. S&amp;amp;A队CTC2021评测报告（检错、纠错、总分三赛道第一）. 2021年9月.[[文件:S&amp;amp;A-CTC2021评测报告.pdf]]&lt;br /&gt;
** [https://2021aichina.caai.cn/track?id=5 比赛主页] [https://github.com/destwang/CTC2021 github榜单]&lt;br /&gt;
&lt;br /&gt;
== Awards == &lt;br /&gt;
* 2024. 第三届全国大模型智能生成大会（CIPS-LMG 2024）优秀海报奖（EMNLP-2024论文）&lt;br /&gt;
* 2023. CCF-NLPCC“青年新锐学者” （Young Outstanding Scientist Award）&lt;br /&gt;
* 2022. SudaNLP团队张宇同学的硕士论文《基于树形条件随机场的高阶句法分析》被评选为2022年度江苏省优秀学术型硕士学位论文 [http://hlt.suda.edu.cn/index.php/Zhangyu-jiangsu-outstanding-paper wechat-sudanlp-news]&lt;br /&gt;
* 2022. Coling '''best paper'''&lt;br /&gt;
* 2021. 章波，江苏省优秀学术型硕士论文；同时获江苏省计算机学会优秀硕士论文《面向依存句法的树库转化与应用研究》&lt;br /&gt;
* 2020. NLPCC best paper&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
== 同学必须深入学习的东西 ==&lt;br /&gt;
&lt;br /&gt;
[http://hlt.suda.edu.cn/index.php/LA-to-sudy-list LAGroup 同学必须深入学习的东西] 慢慢完善&lt;br /&gt;
&lt;br /&gt;
== 2025 == &lt;br /&gt;
&lt;br /&gt;
=== Journal/Conference Papers in Chinese ===&lt;br /&gt;
&lt;br /&gt;
* [期刊发表后更新下] 严福康, 章岳, 李正华*. 2023. 基于网络词典的现代汉语词义消歧数据集构建. 第二十二届中国计算语言学大会.[[文件:基于网络词典的现代汉语词义消歧数据集构建_CCL_严福康.pdf]]&lt;br /&gt;
&lt;br /&gt;
* [期刊发表后更新下] 杨浩苹, 夏庆荣, 李正华*, 王睿. 基于GCN的异构句法驱动汉语语义角色标注. 计算机应用与软件. [2022年录用] [还未正式发表 知网上找不到，期号卷号未知.] '''以后不投这个期刊了'''. [[文件:基于GCN的异构句法驱动汉语语义角色标注.pdf]]&lt;br /&gt;
&lt;br /&gt;
=== Papers in English ===&lt;br /&gt;
&lt;br /&gt;
* Yahui Liu, Zhenghua Li, Chen Gong*, Shilin Zhou，Min Zhang. Annotation error detection in painstakingly annotated data: Part-of-speech tagging as a case study. Expert Systems With Applications (ESWA), 2025,290:128374. [https://www.sciencedirect.com/science/article/pii/S0957417425019931 official] [Journal]&lt;br /&gt;
&lt;br /&gt;
* Ziyan Zhang, Yang Hou, Chen Gong*, Zhenghua Li. Self-Correction Makes LLMs Better Parsers. In Findings of EMNLP 2025, Suzhou, China. [https://arxiv.org/abs/2504.14165 Arxiv].&lt;br /&gt;
&lt;br /&gt;
* Houquan Zhou, Bo Zhang, Zhenghua Li*, Ming Yan, and Min Zhang. 2025. A Training-free LLM-based Approach to General Chinese Character Error Correction. In Proceedings of ACL, pages 13827–13852, Vienna, Austria. Association for Computational Linguistics. [https://aclanthology.org/2025.acl-long.678.pdf official] July 27 - August 1&lt;br /&gt;
* Ziheng Qiao, Houquan Zhou, Zhenghua Li*. Mixture of Small and Large Models for Chinese Spelling Check. ACL, pages 28298–28311, Vienna, Austria. [https://aclanthology.org/2025.acl-long.1372.pdf acl-anthology]&lt;br /&gt;
* Ziheng Qiao, Houquan Zhou, Yumeng Liu, Zhenghua Li*, Min Zhang, Bo Zhang, Chen Li, Ji Zhang, Fei Huang. DISC: Plug-and-Play Decoding Intervention with Similarity of Characters for Chinese Spelling Check. ACL, pages 28312–28324, Vienna, Austria. [https://aclanthology.org/2025.acl-long.1373.pdf acl-anthology]&lt;br /&gt;
* Yang Hou, Zhenghua Li*. Dynamic Head Selection for Neural Lexicalized Constituency Parsing. In Proceedings of ACL 2025, pages 16141–16155, Vienna, Austria. [https://aclanthology.org/2025.acl-long.786.pdf acl-anthology]&lt;br /&gt;
* Yang Hou, Zhenghua Li*. Span-based Semantic Role Labeling as Lexicalized Constituency Tree Parsing. In Findings of ACL 2025, pages 10701–10713, Vienna, Austria. [https://aclanthology.org/2025.findings-acl.557.pdf acl-anthology]&lt;br /&gt;
* Yanggan Gu, Junzhuo Li, Sirui Huang, Xin Zou, Zhenghua Li*, Xuming Hu*. Capturing Nuanced Preferences: Preference-Aligned Distillation for Small Language Models. In Findings of ACL 2025, pages 15959–15973, Vienna, Austria. [https://aclanthology.org/2025.findings-acl.822.pdf acl-anthology]&lt;br /&gt;
&lt;br /&gt;
* Xuebin Wang, Lei Zhang, Zhenghua Li*, Shilin Zhou, Chen Gong, Yang Hou. Mining Word Boundaries from Speech-Text Parallel Data for Cross-domain Chinese Word Segmentation. [https://arxiv.org/abs/2412.09045 Arxiv]. COLING. January 19–24, 2025. Abu Dhabi, UAE. pages 1247–1257&lt;br /&gt;
* Ziyan Zhang, Yang Hou, Chen Gong*, Zhenghua Li. Data Augmentation for Cross-domain Parsing via Lightweight LLM Generation and Tree Hybridization. [[文件:Data_Augmentation_for_Cross-domain_Parsing_via_Lightweight_LLM_Generation_and_Tree_Hybridization.pdf]]. COLING. 19 January, 2025. Abu Dhabi, UAE.&lt;br /&gt;
* Xi Ma, Yang Hou, Xuebin Wang, Zhenghua Li. A Probabilistic Toolkit for Multi-grained Word Segmentation in Chinese. [[文件:A_Probabilistic_Toolkit_for_Multi-grained_Word_Segmentation_in_Chinese.pdf]]. COLING Demonstration (demo paper). 19 January, 2025. Abu Dhabi, UAE.&lt;br /&gt;
&lt;br /&gt;
== 2024 == &lt;br /&gt;
&lt;br /&gt;
=== Journal/Conference Papers in Chinese ===&lt;br /&gt;
&lt;br /&gt;
* 崔秀莲, 严福康, 李正华*. CCKS-2023. 基于实例的词性标注数据错误检测. 2023全国知识图谱与语义计算大会CCKS&lt;br /&gt;
** 转发：山西大学学报 2024年4月 47卷2期 47(2)，pp251−259. [[文件:Cxl-山西大学学报-基于实例的词性标注数据错误检测.pdf]]&lt;br /&gt;
&lt;br /&gt;
=== Conference Papers in English ===&lt;br /&gt;
&lt;br /&gt;
* Houquan Zhou, Zhenghua Li*, Bo Zhang, Chen Li, Shaopeng Lai, Ji Zhang, Fei Huang, Min Zhang. 2024. A Simple yet Effective Training-free Prompt-free Approach to Chinese Spelling Correction Based on Large Language Models. EMNLP. pp 17446–17467. [https://arxiv.org/abs/2410.04027 arxiv] [https://aclanthology.org/2024.emnlp-main.966.pdf acl-anthology] November 12-16 Miami, Florida (USA)&lt;br /&gt;
&lt;br /&gt;
* Xuebin Wang, Zhenghua Li*. 2024. Two Sequence Labeling Approaches to Sentence Segmentation and Punctuation Prediction for Classic Chinese Texts. [https://aclanthology.org/2024.lt4hala-1.28/ Acl-anthology] the Third Workshop on Language Technologies for Historical and Ancient Languages (LT4HALA) @ LREC-COLING-2024. pages 237–241    25 May, 2024   Torino (Italia) Turin (Italy)&lt;br /&gt;
&lt;br /&gt;
* Yumeng Liu, Zhenghua Li*, Haochen Jiang, Bo Zhang, Chen Li, Ji Zhang. 2024. Towards Better Utilization of Multi-Reference Training Data for Chinese Grammatical Error Correction. Findings of ACL. [https://github.com/ymliucs/MrGEC code][https://aclanthology.org/2024.findings-acl.180 paper]&lt;br /&gt;
* Yang Hou and Zhenghua Li*. 2024. Character-Level Chinese Dependency Parsing via Modeling Latent Intra-Word Structure. ACL-findings. [[文件:2024.findings-acl.173.pdf]], [[文件:2024.findings-acl.173.slide.pdf]], [[文件:2024.findings-acl.173.poster.pdf]]&lt;br /&gt;
* Shilin Zhou, Zhenghua Li, Chen Gong*, Lei Zhang, Yu Hong, Min Zhang. 2024. Chinese Spoken Named Entity Recognition in Real-world Scenarios: Dataset and Approaches. Findings of ACL. [[文件:ACL2024_rwcsner.pdf]]，[[文件:Rwcs_poster.pdf]] &lt;br /&gt;
* Shilin Zhou, Zhenghua Li*, Yu Hong, Min Zhang, Zhefeng Wang, Baoxing Huai. 2024. CopyNE: Better Contextual ASR by Copying Named Entities. ACL. [[文件:ACL2024_copyne.pdf]]，[[文件:copyne_poster.pdf]] [https://aclanthology.org/2024.acl-long.147.pdf acl-anthology] Bangkok, Thailand 2024.8.11-16 pp. 2675–2686 &lt;br /&gt;
&lt;br /&gt;
* Yanggan Gu, Yang Hou, Zhefeng Wang, Xinyu Duan and Zhenghua Li*. 2024. High-order Joint Constituency and Dependency Parsing. COLING. [[文件:2024.lrec-main.713.pdf]]，[[文件:2024.lrec-main.713.poster.pdf]] pages 8144–8154 20-25 May, 2024. Torino (Italia)&lt;br /&gt;
* Chenhui Dou, Chen Gong*, Zhenghua Li, Zhefeng Wang, baoxing Huai and Min Zhang. 2024. Improving Chinese Named Entity Recognition with Multi-grained Words and Part-of-Speech Tags via Joint Modeling. COLING.[[文件:2024.lrec-main.765.pdf]]，[[文件:2024.lrec-main.765.poster.pdf]] pages 8732–8742&lt;br /&gt;
20-25 May, 2024. Torino (Italia) Turin (Italy)&lt;br /&gt;
&lt;br /&gt;
== 2023 == &lt;br /&gt;
&lt;br /&gt;
=== Conference Papers in English ===&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
* Houquan Zhou, Yumeng Liu, Zhenghua Li*, Min Zhang, Bo Zhang, Chen Li, Ji Zhang, Fei Huang. 2023. Improving Seq2Seq Grammatical Error Correction via Decoding Interventions. Findings of '''EMNLP''', pages 7393–7405. [https://arxiv.org/abs/2310.14534 arxiv][https://github.com/Jacob-Zhou/gecdi code][https://www.semanticscholar.org/paper/Improving-Seq2Seq-Grammatical-Error-Correction-via-Zhou-Liu/4711f26c0295fed15161b6145800b3df1ab9c0f6 citation]&lt;br /&gt;
&lt;br /&gt;
* Yue Zhang, Leyang Cui, Enbo Zhao, Wei Bi, Shuming Shi. 2023. RobustGEC: Robust Grammatical Error Correction Against Subtle Context Perturbation. EMNLP 2023.[https://arxiv.org/pdf/2310.07299.pdf arxiv] [https://github.com/hillzhang1999/RobustGEC code]  pages 16780–16793; December 6-10, 2023&lt;br /&gt;
&lt;br /&gt;
* Saihao Huang, Lijie Wang, Zhenghua Li*, Zeyang Liu, Chenhui Dou, Fukang Yan, Xinyan Xiao, Hua Wu, and Min Zhang. 2023. SeSQL: A High-Quality Large-Scale Session-Level Chinese Text-to-SQL Dataset. NLPCC 2023, pages 537-550.[[文件:SeSQL_A_High-Quality_Large-Scale_Session-Level_Chinese_Text-to-SQL_Dataset.pdf]] [https://arxiv.org/abs/2208.12711 arxiv]&lt;br /&gt;
&lt;br /&gt;
* Yue Zhang, Bo Zhang, Haochen Jiang, Zhenghua Li*, Chen Li, Fei Huang, Min Zhang. 2023. NaSGEC: Multi-Domain Chinese Grammatical Error Correction for Native Speaker Texts. Findings of ACL 2023. pp 9935-9951. [https://aclanthology.org/2023.findings-acl.630.pdf official] [https://arxiv.org/pdf/2305.16023.pdf arxiv] [https://github.com/HillZhang1999/NaSGEC code]&lt;br /&gt;
&lt;br /&gt;
== 2022 == &lt;br /&gt;
&lt;br /&gt;
=== Journal/Conference Papers in Chinese ===&lt;br /&gt;
&lt;br /&gt;
* 章岳, 黄赛豪, 陆凯华, 李正华*. 2022年1月.  基于模板的中文上下位关系抽取方法. 计算机应用与软件: 39卷1期 pp126-134. [[文件:Hypernym-zhangyue-2022.pdf]]&lt;br /&gt;
* 周仕林, 龚晨*, 李正华, 张民. 基于转移的快速精准的语义依存图分析. 山西大学学报(自然科学版): 45卷4期 pp1-13. [[文件:slzhou_transition_based_sdp.pdf]]&lt;br /&gt;
* 李帅克，李英，李正华*，张民. 基于tri-training的跨领域依存句法分析. 厦门大学学报（自然科学版）：61卷4期 pp638-645. [[https://kns.cnki.net/kcms/detail/detail.aspx?dbcode=CAPJ&amp;amp;dbname=CAPJLAST&amp;amp;filename=XDZK20220509009&amp;amp;uniplatform=NZKPT&amp;amp;v=flne8EoBUv7LYNkuiwSttcXiOfGBPAB_0VtzLHktpwsjrP5-NEfM9rivUOARi0ae 知网抢先版链接]][[文件:基于tri-training的跨领域依存句法分析 李帅克.pdf]]&lt;br /&gt;
* 周明月，龚晨，李正华*，张民. 2022.数据标注方法比较研究：以依存句法树标注为例. 清华大学学报（自然科学版）：62卷5期 pp908-916. [[http://jst.tsinghuajournals.com/CN/10.16511/j.cnki.qhdxxb.2022.22.010 电子版]] [[文件:数据标注方法比较研究.pdf | pdf]]&lt;br /&gt;
* 彭雪, 李正华*, 张民. 2022. 基于语言模型微调的跨领域依存句法分析. 计算机应用与软件:39卷07期, pp141-146. [[文件:彭雪-基于语言模型微调的跨领域依存句法分析.pdf]]&lt;br /&gt;
* 李嘉诚, 沈嘉钰, 龚 晨, 李正华*, 张 民. 2022.  基于指针网络融入混淆集知识的中文语法纠错 中文信息学报:36卷04期,pp29-38. [[文件:基于指针网络融入混淆集知识的中文语法纠错.pdf]]&lt;br /&gt;
&lt;br /&gt;
=== Journal Papers in English ===&lt;br /&gt;
&lt;br /&gt;
* Chen Gong, Zhenghua Li* and Min Zhang. Neural Coupled Sequence Labeling for Heterogeneous Annotation Conversion. IEEE/ACM Transactions on Audio, Speech and Language Processing, 2022, 30:1624-1636.[https://ieeexplore.ieee.org/document/9750873?source=authoralert official]&lt;br /&gt;
&lt;br /&gt;
=== Conference Papers In English ===&lt;br /&gt;
&lt;br /&gt;
* Yue Zhang, Bo Zhang, Zhenghua Li*, Zuyi Bao, Chen Li, and Min Zhang. 2022. SynGEC: Syntax-Enhanced Grammatical Error Correction with a Tailored GEC-Oriented Parser. In '''EMNLP''', pages 2518–2531.  [https://arxiv.org/pdf/2210.12484 arxiv][https://aclanthology.org/2022.emnlp-main.162.pdf official pdf][https://underline.io/events/342/sessions/13833/lecture/66146-syngec-syntax-enhanced-grammatical-error-correction-with-a-tailored-gec-oriented-parser video]&lt;br /&gt;
* Yu Zhang, Qingrong Xia, Shilin Zhou, Yong Jiang, Guohong Fu*, Min Zhang. 2022. Semantic Role Labeling as Dependency Parsing: Exploring Latent Tree Structures inside Arguments. In '''COLING''', pages 4212–4227. [https://arxiv.org/abs/2110.06865 arxiv] [https://aclanthology.org/2022.coling-1.370/ official pdf] [https://underline.io/events/360/posters/13239/poster/60359-semantic-role-labeling-as-dependency-parsing-exploring-latent-tree-structures-inside-arguments video] &lt;br /&gt;
* Shilin Zhou, Qingrong Xia, Zhenghua Li*, Yu Zhang, Yu Hong, and Min Zhang. 2022. Fast and Accurate End-to-End Span-based Semantic Role Labeling as Word-based Graph Parsing. In '''COLING''', pages 4160–4171. [https://arxiv.org/pdf/2112.02970.pdf arxiv] [https://aclanthology.org/2022.coling-1.365/ official pdf] [https://underline.io/events/360/sessions/13099/lecture/60364-fast-and-accurate-end-to-end-span-based-semantic-role-labeling-as-word-based-graph-parsing video] &amp;lt;font color=&amp;quot;#FF0000&amp;quot;&amp;gt;&amp;lt;b&amp;gt;(best paper!)&amp;lt;/b&amp;gt;&amp;lt;/font&amp;gt;&lt;br /&gt;
* Yahui Liu, Haoping Yang, Chen Gong*, Qingrong Xia, Zhenghua Li, Min Zhang. 2022. MuCPAD: A Multi-Domain Chinese Predicate-Argument Dataset. In '''NAACL''', pages 1707-1717. [http://arxiv.org/abs/2205.06703 arxiv][https://aclanthology.org/2022.naacl-main.123.pdf official pdf][https://underline.io/events/325/posters/11804/poster/54059-mucpad-a-multi-domain-chinese-predicate-argument-dataset video]&lt;br /&gt;
* Yue Zhang, Zhenghua Li*, Zuyi Bao, Jiacheng Li, Bo Zhang, Chen Li, Fei Huang, Min Zhang. 2022. MuCGEC: a Multi-Reference Multi-Source Evaluation Dataset for Chinese Grammatical Error Correction. In '''NAACL''', pages 3118–3130. [https://arxiv.org/abs/2204.10994 arxiv][https://aclanthology.org/2022.naacl-main.227.pdf official pdf][https://underline.io/events/325/sessions/11391/lecture/53888-mucgec-a-multi-reference-multi-source-evaluation-dataset-for-chinese-grammatical-error-correction video]&lt;br /&gt;
* Ying Li, Shuaike Li, Min Zhang. 2022. Semi-supervised Domain Adaptation for Dependency Parsing with Dynamic Matching Network. In '''ACL 2022'', pages 1035--1045. [https://aclanthology.org/2022.acl-long.74.pdf official-pdf] [http://hlt.suda.edu.cn/index.php/%E6%96%87%E4%BB%B6:Liying_ACL2022_camera_ready.pdf camera ready pdf] [https://underline.io/lecture/52551-long-semi-supervised-domain-adaptation-for-dependency-parsing-with-dynamic-matching-network video].&lt;br /&gt;
* Houquan Zhou, Yang Li, Zhenghua Li, and Min Zhang. 2022. Bridging Pre-trained Language Models and Hand-crafted Features for Unsupervised POS Tagging. In Findings of the Association for Computational Linguistics: ACL 2022, pages 3276–3290, Dublin, Ireland. Association for Computational Linguistics. [http://hlt.suda.edu.cn/LA/papers/acl-findings-hqzhou-bridging.pdf pdf] [https://arxiv.org/pdf/2203.10315 camera ready pdf] [https://aclanthology.org/2022.findings-acl.259.pdf official pdf] [https://underline.io/lecture/49965-findings-bridging-pre-trained-language-models-and-hand-crafted-features-for-unsupervised-pos-tagging video]&lt;br /&gt;
&lt;br /&gt;
== 2021 == &lt;br /&gt;
&lt;br /&gt;
=== Journal/Conference Papers in Chinese ===&lt;br /&gt;
&lt;br /&gt;
* 吴锟，周夏冰，李正华，梁兴伟，陈文亮. 中文知识库问答中的路径选择. 中文信息学报（CCKS会议推荐）. 2021, 35(9):113-122.[[文件:中文知识库问答中的路径选择 吴锟.pdf]]&lt;br /&gt;
&lt;br /&gt;
=== Conference Papers In English ===&lt;br /&gt;
* Yang Hou, Houquan Zhou, Zhenghua Li*, Yu Zhang, Min Zhang, Zhefeng Wang, Baoxing Huai, Nicholas Jing Yuan. A Coarse-to-Fine Labeling Framework for Joint Word Segmentation,  POS Tagging, and Constituent Parsing. Proceedings of CoNLL-2021, pp. 290–299. Punta Cana, Dominican Republic (Online), 10-11 Nov. 2021. [[文件:CoNLL_2021_yhou_official_version.pdf]]&lt;br /&gt;
&lt;br /&gt;
* Kun Wu, Lijie Wang, Zhenghua Li, Ao Zhang, Xinyan Xiao, Hua Wu, Min Zhang, Haifeng Wang. Data Augmentation with Hierarchical SQL-to-Question Generation for Cross-Domain Text-to-SQL Parsing. Proceedings of EMNLP-2021, pp. 8974--8983. Punta Cana, Dominican Republic (Online), 7-11 Nov. 2021. [[文件:EMNLP2021_camera_ready_Data_Augmentation_with_Hierarchical_SQL_to_Question_Generation_forCross_domain_Text_to_SQL_Parsing-09101500.pdf ‎]]&lt;br /&gt;
&lt;br /&gt;
* Qingrong Xia, Zhenghua Li*, Rui Wang, Min Zhang. Stacked AMR Parsing with Silver Data. Proceedings of EMNLP-2021 Findings, pp. 4729--4738. Punta Cana, Dominican Republic (Online), 7-11 Nov. 2021. [[文件:EMNLP_2021_Stacked_AMR_Parsing_with_Silver_Data.pdf]]&lt;br /&gt;
&lt;br /&gt;
* Ying Li, Meishan Zhang, Zhenghua Li*, Min Zhang, Zhefeng Wang, Baoxing Huai, Nicholas Jing Yuan. APGN: Adversarial and Parameter Generation Networks for Multi-Source Cross-Domain Dependency Parsing. Proceedings of EMNLP-2021 Findings, pp. 1727–1733. Punta Cana, Dominican Republic (Online), 7-11 Nov. 2021. [[文件:EMNLP_2021_yli_camera_ready.pdf]]&lt;br /&gt;
&lt;br /&gt;
* Chen Gong, Saihao Huang, Houquan Zhou, Zhenghua Li*, Min Zhang, Zhefeng Wang, Baoxing Huai, Nicholas Jing Yuan. An In-depth Study on Internal Structure of Chinese Words. Proceedings of ACL-2021, pp. 5823–5833. Online, Virtual Event, 1-6 Aug. 2021. [[文件:2021.acl-long.452.pdf]]&lt;br /&gt;
&lt;br /&gt;
* Qingrong Xia, Bo Zhang, Rui Wang, Zhenghua Li*, Yue Zhang, Fei Huang, Luo Si, Min Zhang. 2021. A Unified Span-Based Approach for Opinion Mining with Syntactic Constituents. Proceedings of NAACL-2021, pp. 1795-1804. Mexico City, Mexico (Online), 6-11 June. 2021. [[文件:2021.naacl-main.144.pdf]]&lt;br /&gt;
&lt;br /&gt;
== 2020 == &lt;br /&gt;
&lt;br /&gt;
=== Journal Papers in Chinese ===&lt;br /&gt;
&lt;br /&gt;
* 陆凯华, 李正华, 张民. 2020. 汉语上下位关系分类数据集构建和基准方法比较. 厦门大学学报(自然科学版). 2020, 59 (06): 1004-1010 [[文件:汉语上下位关系分类数据集构建和基准方法比较_陆凯华.pdf]]&lt;br /&gt;
* 刘亚慧, 杨浩苹, 李正华, 张民. 2020. 一种轻量级的语义角色标注规范. 中文信息学报. 2020, 34(4):10-20 [http://jcip.cipsc.org.cn/CN/Y2020/V34/I4/10 offical.pdf]&lt;br /&gt;
&lt;br /&gt;
=== Journal Papers In English===&lt;br /&gt;
* Chen Gong, Zhenghua Li, Qingrong Xia, Wenliang Chen and Min Zhang. Hierarchical LSTM with char-subword-word tree-structure representation for Chinese named entity recognition. Science China Information Science, 2020, 63(10):1-15. [[文件:Hierarchical_LSTM_with_char-subword-word_tree-structure_representation_for_Chinese_named_entity_recognition.pdf]]&lt;br /&gt;
&lt;br /&gt;
=== Conference Papers In English ===&lt;br /&gt;
&lt;br /&gt;
* Ying Li, Zhenghua Li* and Min Zhang. Semi-supervised Domain Adaptation for Dependency Parsing via Improved Contextualized Word Representations. Proceedings of COLING-2020. pp. 3806–3817. Barcelona, Spain (Online), 8-13 Dec. 2020.[https://www.aclweb.org/anthology/2020.coling-main.338.pdf pdf] [[文件:Liying-2020.coling-main.338.pdf]]&lt;br /&gt;
&lt;br /&gt;
* Qingrong Xia, Rui Wang, Zhenghua Li, Yue Zhang and Min Zhang*. Semantic Role Labeling with Heterogeneous Syntactic Knowledge. Proceedings of COLING-2020. pp. 2979-2990. Barcelona, Spain (Online), 8-13 Dec. 2020. ([https://www.aclweb.org/anthology/2020.coling-main.266.pdf pdf])([[文件:Xiaqingrong-2020.coling-main.266.pdf]])([[文件:Poster-SRL-HDP.pdf]])([[文件:SRL-HDP.pptx]])&lt;br /&gt;
&lt;br /&gt;
* Chen Gong, Zhenghua Li*, Bowei Zou and Min Zhang. Multi-grained Chinese Word Segmentation with Weakly Labeled Data. Proceedings of COLING-2020. pp. 2026–2036. Barcelona, Spain (Online), 8-13 Dec. 2020. [https://www.aclweb.org/anthology/D17-1072.pdf pdf][[文件:Gongchen-2020.coling-main.183.pdf]]&lt;br /&gt;
&lt;br /&gt;
* Lijie Wang, Ao Zhang, Kun Wu, Ke Sun, Zhenghua Li, Hua Wu, Min Zhang and Haifeng Wang. DuSQL: A Large-Scale and Pragmatic Chinese Text-to-SQL Dataset. Proceedings of EMNLP-2020. pp. 6923-6935. Online, 16-20 Nov. 2020. [https://www.aclweb.org/anthology/2020.emnlp-main.562.pdf pdf][[文件:2020.emnlp-main.562.pdf]]&lt;br /&gt;
&lt;br /&gt;
* Houquan Zhou, Yu Zhang, Zhenghua Li, and Min Zhang. Is POS Tagging Necessary or Even Helpful for Neural Dependency Parsing? Proceedings of NLPCC-2020, pp. 179--191. Zhengzhou, China, 14 Oct. - 18 Oct. 2020. ([http://hlt.suda.edu.cn/LA/papers/nlpcc-ijpmo.pdf pdf]) ([http://hlt.suda.edu.cn/LA/papers/nlpcc-ijpmo-official.pdf pdf-official]) ([http://hlt.suda.edu.cn/LA/papers/nlpcc-ijpmo-official-w-content.pdf pdf-official-w-content]) &amp;lt;font color=&amp;quot;#FF0000&amp;quot;&amp;gt;&amp;lt;b&amp;gt;(best paper!)&amp;lt;/b&amp;gt;&amp;lt;/font&amp;gt; &lt;br /&gt;
&lt;br /&gt;
* Yu Zhao, Mingyue Zhou, Zhenghua Li, and Min Zhang. Dependency Parsing with Noisy Multi-Annotation Data. Proceedings of NLPCC-2020, pp. 120-131. Zhengzhou, China, 14 Oct. - 18 Oct. 2020. ([http://hlt.suda.edu.cn/images/e/e5/212_Final_Manuscript_%281%29.pdf pdf]）([http://hlt.suda.edu.cn/LA/papers/nlpcc-yzhao-official.pdf pdf-official]) ([http://hlt.suda.edu.cn/LA/papers/nlpcc-yzhao-official-w-content.pdf pdf-official-w-content])&lt;br /&gt;
&lt;br /&gt;
* Yu Zhang, Houquan Zhou, Zhenghua Li. 2020. Fast and Accurate Neural CRF Constituency Parsing. Proceedings of IJCAI-2020, pp. 4046-4053. Yokohama, Japan, 11-17 Jul. 2020. [https://www.ijcai.org/Proceedings/2020/0560.pdf pdf-official] [http://hlt.suda.edu.cn/LA/papers/0560.pdf pdf] [[http://hlt.suda.edu.cn/LA/videos/V5.mp4 video(5 min version)]] [[http://hlt.suda.edu.cn/LA/videos/V10.mp4 video(10 min version)]] [[http://hlt.suda.edu.cn/LA/videos/V15.mp4 video(15 min version)]]&lt;br /&gt;
&lt;br /&gt;
* Yu Zhang, Zhenghua Li, Min Zhang. 2020. Efficient Second-Order TreeCRF for Neural Dependency Parsing. Proceedings of ACL-2020, pp. 3295-3305. Seattle, America, 5-10 Jul. 2020. [[https://www.aclweb.org/anthology/2020.acl-main.302.pdf pdf-official]] [[http://hlt.suda.edu.cn/LA/papers/2020.acl-main.302.pdf pdf]] [[http://hlt.suda.edu.cn/LA/videos/2020-12-28%2022-21-45.mp4 video]]&lt;br /&gt;
** A very good paper: Timothy Dozat, Christopher D. Manning. ICLR-2017. Deep Biaffine Attention for Neural Dependency Parsing. [https://arxiv.org/abs/1611.01734 arxiv]&lt;br /&gt;
&lt;br /&gt;
* Bo Zhang, Yue Zhang, Rui Wang, Zhenghua Li, Min Zhang. Syntax-Aware Opinion Role Labeling with Dependency Graph Convolutional Networks. Proceedings of ACL-2020, pp. 3249-3258. Seattle, America, 5-10 Jul. 2020. [https://www.aclweb.org/anthology/2020.acl-main.297.pdf pdf] [[文件:Zhangbo-acl2020-ppt-5-24.pdf]]&lt;br /&gt;
&lt;br /&gt;
== before 2020 ==&lt;br /&gt;
* Meishan Zhang, Zhenghua Li, Guohong Fu and Min Zhang. Syntax-Enhanced Neural Machine Translation with Syntax-Aware Word Representations. In Proceedings of the NAACL-2019. pp. 1151–1161. Seattle, America, 5-10 Jun. 2019. [https://www.aclweb.org/anthology/N19-1118.pdf pdf]&lt;br /&gt;
* Bowen Wu, Jiayuan Chao, Baoxun Wang, Zhenghua Li and Min Zhang. Abstractive Summarization via Continuous Copy. EMNLP-2019 Workshop Summarization Submission. Aug 20, 2019. (not accepted)&lt;br /&gt;
&lt;br /&gt;
[http://hlt.suda.edu.cn/~zhli/en.html  &amp;lt;font color=&amp;quot;#FF0000&amp;quot;&amp;gt;&amp;lt;b&amp;gt;更早的论文，请点击此&amp;lt;/b&amp;gt;&amp;lt;/font&amp;gt;]&lt;br /&gt;
&lt;br /&gt;
== 202? Template == &lt;br /&gt;
=== Talks and Misc. ===&lt;br /&gt;
=== Journal/Conference Papers in Chinese ===&lt;br /&gt;
=== Journal Papers In English===&lt;br /&gt;
=== Conference Papers In English===&lt;/div&gt;</summary>
		<author><name>Zhli</name></author>
	</entry>
	<entry>
		<id>http://hlt.suda.edu.cn/index.php?title=LA-paper-report-talk-etc&amp;diff=6168</id>
		<title>LA-paper-report-talk-etc</title>
		<link rel="alternate" type="text/html" href="http://hlt.suda.edu.cn/index.php?title=LA-paper-report-talk-etc&amp;diff=6168"/>
		<updated>2026-01-26T06:50:26Z</updated>

		<summary type="html">&lt;p&gt;Zhli：/* Talks（报告） */&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;请大家按照规则不断完善此页面。包含pdf ppt codes等。论文按年度，先中文、再英文；先期刊、再会议；先录用时间、后发表（开会）时间。尽量用英文吧。&lt;br /&gt;
&lt;br /&gt;
文献格式和内容与内部wiki保持一致（尽量避免重复劳动）&lt;br /&gt;
* pdf ppt等附件都可以放到外网可以访问的地方，放一个地方，避免重复&lt;br /&gt;
* 基金号等信息，这个页面上删掉，不要写&lt;br /&gt;
&lt;br /&gt;
== bib and abstract ==&lt;br /&gt;
&lt;br /&gt;
[http://hlt.suda.edu.cn/index.php/LA-paper-report-talk-bib bib]&lt;br /&gt;
&lt;br /&gt;
摘要和基金信息请看内部wiki&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
== Talks（报告） ==&lt;br /&gt;
&lt;br /&gt;
* '''视频尽可能都放在了哔哩哔哩上了（搜用户名：LAGroup）'''&lt;br /&gt;
* 2024年11月24日受南师大李斌老师邀请做报告（大模型时代如何做研究：一些思考）【文本纠错任务上的大模型相关工作，作为例子】&lt;br /&gt;
* 2023年4月8日受北语杨天麟老师邀请做报告（大模型时代句法语义研究何去何从）&lt;br /&gt;
* 2022年11月29日受复旦邱锡鹏老师邀请做报告（基于适配句法知识的文本纠错）&lt;br /&gt;
* 2022年11月11日受邀对COLING-2022 Best Paper做英文报告【按邀请顺序：新加坡国立大学、新加坡设计与技术大学、南京大学】&lt;br /&gt;
* 2022年8月27日，受邀在江苏省人工智能大会上做报告（汉语文本纠错近年进展：数据集和模型）&lt;br /&gt;
&lt;br /&gt;
* 2021.7.27：《数据标注师资培训》(哈工大大数据集团)&lt;br /&gt;
** [http://hlt.suda.edu.cn/LA/videos/2021-07-26-1+X数据标注师资培训.mp4 培训视频] [https://mp.weixin.qq.com/s/T2HS90jrHs-ly8aCbwj-Eg 数据标注师资培训介绍]&lt;br /&gt;
&lt;br /&gt;
* 2021.4.20：《基于树形条件随机场的句法分析》(CCF-NLP走进高校-西湖大学)&lt;br /&gt;
** [http://hlt.suda.edu.cn/LA/videos/2021-04-20%2015-28-23.mp4 talk video] [http://hlt.suda.edu.cn/LA/ppt/视频对应-基于treecrf的句法分析-2021-04-20-13-55.pdf ppt(视频对应版)] [http://hlt.suda.edu.cn/LA/ppt/修改错误-基于treecrf的句法分析-2021-04-20-17-45.pdf ppt(修正版)]&lt;br /&gt;
&lt;br /&gt;
* 2021.3：《人工智能与脑机接口》慕课 （15章）[https://hikeweb.zhihuishu.com/studyResource/index?courseId=10431947 .]&lt;br /&gt;
** [http://hlt.suda.edu.cn/LA/videos/15-1_nlp.mp4 NLP基础介绍]&lt;br /&gt;
** [http://hlt.suda.edu.cn/LA/videos/15-2_labelling.mp4 数据标注简介]　　&lt;br /&gt;
&lt;br /&gt;
* 2020.10：《神经网络》慕课 - 面向自然语言处理的神经网络 （13章）&lt;br /&gt;
** [http://hlt.suda.edu.cn/~zhli/NLP-DL/13.1.mp4 第1节：从离散特征到连续稠密向量表示]&lt;br /&gt;
** [http://hlt.suda.edu.cn/~zhli/NLP-DL/13.2.mp4 第2节：表示学习]&lt;br /&gt;
** [http://hlt.suda.edu.cn/~zhli/NLP-DL/13.3.mp4 第3节：序列标注问题]&lt;br /&gt;
** [http://hlt.suda.edu.cn/~zhli/NLP-DL/13.4.mp4 第4节：句法树解析问题]&lt;br /&gt;
&lt;br /&gt;
* 2020.8.15: I have given a talk on data annotation at AI+EDUCATION SUB-FORUM at AI-EXPO (2020 GLOBAL AI PRODUCT AND APPLICATION EXPO)  &lt;br /&gt;
** [http://hlt.suda.edu.cn/~zhli/20200816_AI_data_annotating.mp4 talk video]&lt;br /&gt;
** [https://www.ai-expo.org.cn/?content/416= AI+教育发展分论坛-全球人工智能产品应用博览会]&lt;br /&gt;
&lt;br /&gt;
* 2019年9月28日句法标注培训（LA组介绍）：&lt;br /&gt;
** [http://hlt.suda.edu.cn/~zhli/2019-9-train/LAGroup.mp4 mp4视频] [http://hlt.suda.edu.cn/~zhli/2019-9-train/zhenghua-2019-9-28-LAGroup.pdf pdf]&lt;br /&gt;
&lt;br /&gt;
== Competition or Shared Tasks == &lt;br /&gt;
&lt;br /&gt;
* 刘亚慧、乔子恒、李正华、龚晨、张民. 2025.8. CCL-2025 第三届汉语框架语义解析评测, 二等奖 [https://tianchi.aliyun.com/competition/entrance/532338/rankingList 比赛榜单]，[http://cips-cl.org/static/CCL2025/cclEval/taskResults/index.html 评测结果]&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
* 周厚全，乔子恒，蒋浩辰，刘雨萌. 金山办公2024算法挑战赛-中文文本智能校对大赛，第一名，一等奖&lt;br /&gt;
&lt;br /&gt;
* 刘亚慧、龚晨、张民. 2024.8. CCL-2024 第二届汉语框架语义解析（开放赛道）, 一等奖 [https://aclanthology.org/2024.ccl-3.3.pdf 官方评测报告.pdf] ， [https://tianchi.aliyun.com/competition/entrance/532179/rankingList 比赛榜单]&lt;br /&gt;
&lt;br /&gt;
* 王学彬, 李正华. 2024.5. 第一届古汉语断句标点评测（EvaHan2024）评测，二等奖*（COLING-2024 workshop）&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
* 辜仰淦，周仕林，李正华. 2023年8月. CCL中文抽象语义表示解析评测（一等奖）[https://aclanthology.org/2023.ccl-3.5 官网评测报告]&lt;br /&gt;
&lt;br /&gt;
* 蒋浩辰，刘雨萌，周厚全，乔子恒，章波，李辰，李正华，张民. CCL汉语学习者文本纠错评测（封闭、开放双赛道第一）. 2023年8月. [https://aclanthology.org/2023.ccl-3.25.pdf S&amp;amp;A-CCL2023评测报告.pdf]&lt;br /&gt;
** [http://cuge.baai.ac.cn/#/ccl/2023/cltc 比赛榜单]&lt;br /&gt;
&lt;br /&gt;
* 刘亚慧，李正华，张民. CCL汉语框架语义解析评测(三等奖). 2023年8月.  [https://aclanthology.org/2023.ccl-3.9.pdf 官网评测报告.pdf]， [https://tianchi.aliyun.com/competition/entrance/532083/rankingList 比赛榜单]&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
* 2022.12法研杯第一名 CAIL-2022 法律文本纠错&lt;br /&gt;
&lt;br /&gt;
* 我们组织了两届跨领域句法分析评测：CCL-2021和NLPCC-2019&lt;br /&gt;
&lt;br /&gt;
* 李嘉诚，沈嘉钰，包祖贻，章波，章岳，李辰，李正华. S&amp;amp;A团队CGED-7评测报告（识别，定位，纠正层第一）. 2021年12月. [[文件:S&amp;amp;A团队CGED-7评测报告.pdf]]&lt;br /&gt;
** [http://nlg.cipsc.org.cn/evaluation.html 比赛主页] [https://zhuanlan.zhihu.com/p/444117518 知乎总结]&lt;br /&gt;
&lt;br /&gt;
* 章岳，包祖贻，章波，李辰，李嘉诚，李正华. S&amp;amp;A队CTC2021评测报告（检错、纠错、总分三赛道第一）. 2021年9月.[[文件:S&amp;amp;A-CTC2021评测报告.pdf]]&lt;br /&gt;
** [https://2021aichina.caai.cn/track?id=5 比赛主页] [https://github.com/destwang/CTC2021 github榜单]&lt;br /&gt;
&lt;br /&gt;
== Awards == &lt;br /&gt;
* 2024. 第三届全国大模型智能生成大会（CIPS-LMG 2024）优秀海报奖（EMNLP-2024论文）&lt;br /&gt;
* 2023. CCF-NLPCC“青年新锐学者” （Young Outstanding Scientist Award）&lt;br /&gt;
* 2022. SudaNLP团队张宇同学的硕士论文《基于树形条件随机场的高阶句法分析》被评选为2022年度江苏省优秀学术型硕士学位论文 [http://hlt.suda.edu.cn/index.php/Zhangyu-jiangsu-outstanding-paper wechat-sudanlp-news]&lt;br /&gt;
* 2022. Coling '''best paper'''&lt;br /&gt;
* 2021. 章波，江苏省优秀学术型硕士论文；同时获江苏省计算机学会优秀硕士论文《面向依存句法的树库转化与应用研究》&lt;br /&gt;
* 2020. NLPCC best paper&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
== 同学必须深入学习的东西 ==&lt;br /&gt;
&lt;br /&gt;
[http://hlt.suda.edu.cn/index.php/LA-to-sudy-list LAGroup 同学必须深入学习的东西] 慢慢完善&lt;br /&gt;
&lt;br /&gt;
== 2025 == &lt;br /&gt;
&lt;br /&gt;
=== Journal/Conference Papers in Chinese ===&lt;br /&gt;
&lt;br /&gt;
* [期刊发表后更新下] 严福康, 章岳, 李正华*. 2023. 基于网络词典的现代汉语词义消歧数据集构建. 第二十二届中国计算语言学大会.[[文件:基于网络词典的现代汉语词义消歧数据集构建_CCL_严福康.pdf]]&lt;br /&gt;
&lt;br /&gt;
* [期刊发表后更新下] 杨浩苹, 夏庆荣, 李正华*, 王睿. 基于GCN的异构句法驱动汉语语义角色标注. 计算机应用与软件. [2022年录用] [还未正式发表 知网上找不到，期号卷号未知.] '''以后不投这个期刊了'''. [[文件:基于GCN的异构句法驱动汉语语义角色标注.pdf]]&lt;br /&gt;
&lt;br /&gt;
=== Papers in English ===&lt;br /&gt;
&lt;br /&gt;
* Yahui Liu, Zhenghua Li, Chen Gong*, Shilin Zhou，Min Zhang. Annotation error detection in painstakingly annotated data: Part-of-speech tagging as a case study. Expert Systems With Applications (ESWA), 2025,290:128374. [https://www.sciencedirect.com/science/article/pii/S0957417425019931 official] [Journal]&lt;br /&gt;
&lt;br /&gt;
* Ziyan Zhang, Yang Hou, Chen Gong*, Zhenghua Li. Self-Correction Makes LLMs Better Parsers. In Findings of EMNLP 2025, Suzhou, China. [https://arxiv.org/abs/2504.14165 Arxiv].&lt;br /&gt;
&lt;br /&gt;
* Houquan Zhou, Bo Zhang, Zhenghua Li*, Ming Yan, and Min Zhang. 2025. A Training-free LLM-based Approach to General Chinese Character Error Correction. In Proceedings of ACL, pages 13827–13852, Vienna, Austria. Association for Computational Linguistics. [https://aclanthology.org/2025.acl-long.678.pdf official] July 27 - August 1&lt;br /&gt;
* Ziheng Qiao, Houquan Zhou, Zhenghua Li*. Mixture of Small and Large Models for Chinese Spelling Check. ACL, pages 28298–28311, Vienna, Austria. [https://aclanthology.org/2025.acl-long.1372.pdf acl-anthology]&lt;br /&gt;
* Ziheng Qiao, Houquan Zhou, Yumeng Liu, Zhenghua Li*, Min Zhang, Bo Zhang, Chen Li, Ji Zhang, Fei Huang. DISC: Plug-and-Play Decoding Intervention with Similarity of Characters for Chinese Spelling Check. ACL, pages 28312–28324, Vienna, Austria. [https://aclanthology.org/2025.acl-long.1373.pdf acl-anthology]&lt;br /&gt;
* Yang Hou, Zhenghua Li*. Dynamic Head Selection for Neural Lexicalized Constituency Parsing. In Proceedings of ACL 2025, pages 16141–16155, Vienna, Austria. [https://aclanthology.org/2025.acl-long.786.pdf acl-anthology]&lt;br /&gt;
* Yang Hou, Zhenghua Li*. Span-based Semantic Role Labeling as Lexicalized Constituency Tree Parsing. In Findings of ACL 2025, pages 10701–10713, Vienna, Austria. [https://aclanthology.org/2025.findings-acl.557.pdf acl-anthology]&lt;br /&gt;
* Yanggan Gu, Junzhuo Li, Sirui Huang, Xin Zou, Zhenghua Li*, Xuming Hu*. Capturing Nuanced Preferences: Preference-Aligned Distillation for Small Language Models. In Findings of ACL 2025, pages 15959–15973, Vienna, Austria. [https://aclanthology.org/2025.findings-acl.822.pdf acl-anthology]&lt;br /&gt;
&lt;br /&gt;
* Xuebin Wang, Lei Zhang, Zhenghua Li*, Shilin Zhou, Chen Gong, Yang Hou. Mining Word Boundaries from Speech-Text Parallel Data for Cross-domain Chinese Word Segmentation. [https://arxiv.org/abs/2412.09045 Arxiv]. COLING. January 19–24, 2025. Abu Dhabi, UAE. pages 1247–1257&lt;br /&gt;
* Ziyan Zhang, Yang Hou, Chen Gong*, Zhenghua Li. Data Augmentation for Cross-domain Parsing via Lightweight LLM Generation and Tree Hybridization. [[文件:Data_Augmentation_for_Cross-domain_Parsing_via_Lightweight_LLM_Generation_and_Tree_Hybridization.pdf]]. COLING. 19 January, 2025. Abu Dhabi, UAE.&lt;br /&gt;
* Xi Ma, Yang Hou, Xuebin Wang, Zhenghua Li. A Probabilistic Toolkit for Multi-grained Word Segmentation in Chinese. [[文件:A_Probabilistic_Toolkit_for_Multi-grained_Word_Segmentation_in_Chinese.pdf]]. COLING Demonstration (demo paper). 19 January, 2025. Abu Dhabi, UAE.&lt;br /&gt;
&lt;br /&gt;
== 2024 == &lt;br /&gt;
&lt;br /&gt;
=== Journal/Conference Papers in Chinese ===&lt;br /&gt;
&lt;br /&gt;
* 崔秀莲, 严福康, 李正华*. CCKS-2023. 基于实例的词性标注数据错误检测. 2023全国知识图谱与语义计算大会CCKS&lt;br /&gt;
** 转发：山西大学学报 2024年4月 47卷2期 47(2)，pp251−259. [[文件:Cxl-山西大学学报-基于实例的词性标注数据错误检测.pdf]]&lt;br /&gt;
&lt;br /&gt;
=== Conference Papers in English ===&lt;br /&gt;
&lt;br /&gt;
* Houquan Zhou, Zhenghua Li*, Bo Zhang, Chen Li, Shaopeng Lai, Ji Zhang, Fei Huang, Min Zhang. 2024. A Simple yet Effective Training-free Prompt-free Approach to Chinese Spelling Correction Based on Large Language Models. EMNLP. pp 17446–17467. [https://arxiv.org/abs/2410.04027 arxiv] [https://aclanthology.org/2024.emnlp-main.966.pdf acl-anthology] November 12-16 Miami, Florida (USA)&lt;br /&gt;
&lt;br /&gt;
* Xuebin Wang, Zhenghua Li*. 2024. Two Sequence Labeling Approaches to Sentence Segmentation and Punctuation Prediction for Classic Chinese Texts. [https://aclanthology.org/2024.lt4hala-1.28/ Acl-anthology] the Third Workshop on Language Technologies for Historical and Ancient Languages (LT4HALA) @ LREC-COLING-2024. pages 237–241    25 May, 2024   Torino (Italia) Turin (Italy)&lt;br /&gt;
&lt;br /&gt;
* Yumeng Liu, Zhenghua Li*, Haochen Jiang, Bo Zhang, Chen Li, Ji Zhang. 2024. Towards Better Utilization of Multi-Reference Training Data for Chinese Grammatical Error Correction. Findings of ACL. [https://github.com/ymliucs/MrGEC code][https://aclanthology.org/2024.findings-acl.180 paper]&lt;br /&gt;
* Yang Hou and Zhenghua Li*. 2024. Character-Level Chinese Dependency Parsing via Modeling Latent Intra-Word Structure. ACL-findings. [[文件:2024.findings-acl.173.pdf]], [[文件:2024.findings-acl.173.slide.pdf]], [[文件:2024.findings-acl.173.poster.pdf]]&lt;br /&gt;
* Shilin Zhou, Zhenghua Li, Chen Gong*, Lei Zhang, Yu Hong, Min Zhang. 2024. Chinese Spoken Named Entity Recognition in Real-world Scenarios: Dataset and Approaches. Findings of ACL. [[文件:ACL2024_rwcsner.pdf]]，[[文件:Rwcs_poster.pdf]] &lt;br /&gt;
* Shilin Zhou, Zhenghua Li*, Yu Hong, Min Zhang, Zhefeng Wang, Baoxing Huai. 2024. CopyNE: Better Contextual ASR by Copying Named Entities. ACL. [[文件:ACL2024_copyne.pdf]]，[[文件:copyne_poster.pdf]] [https://aclanthology.org/2024.acl-long.147.pdf acl-anthology] Bangkok, Thailand 2024.8.11-16 pp. 2675–2686 &lt;br /&gt;
&lt;br /&gt;
* Yanggan Gu, Yang Hou, Zhefeng Wang, Xinyu Duan and Zhenghua Li*. 2024. High-order Joint Constituency and Dependency Parsing. COLING. [[文件:2024.lrec-main.713.pdf]]，[[文件:2024.lrec-main.713.poster.pdf]] pages 8144–8154 20-25 May, 2024. Torino (Italia)&lt;br /&gt;
* Chenhui Dou, Chen Gong*, Zhenghua Li, Zhefeng Wang, baoxing Huai and Min Zhang. 2024. Improving Chinese Named Entity Recognition with Multi-grained Words and Part-of-Speech Tags via Joint Modeling. COLING.[[文件:2024.lrec-main.765.pdf]]，[[文件:2024.lrec-main.765.poster.pdf]] pages 8732–8742&lt;br /&gt;
20-25 May, 2024. Torino (Italia) Turin (Italy)&lt;br /&gt;
&lt;br /&gt;
== 2023 == &lt;br /&gt;
&lt;br /&gt;
=== Conference Papers in English ===&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
* Houquan Zhou, Yumeng Liu, Zhenghua Li*, Min Zhang, Bo Zhang, Chen Li, Ji Zhang, Fei Huang. 2023. Improving Seq2Seq Grammatical Error Correction via Decoding Interventions. Findings of '''EMNLP''', pages 7393–7405. [https://arxiv.org/abs/2310.14534 arxiv][https://github.com/Jacob-Zhou/gecdi code][https://www.semanticscholar.org/paper/Improving-Seq2Seq-Grammatical-Error-Correction-via-Zhou-Liu/4711f26c0295fed15161b6145800b3df1ab9c0f6 citation]&lt;br /&gt;
&lt;br /&gt;
* Yue Zhang, Leyang Cui, Enbo Zhao, Wei Bi, Shuming Shi. 2023. RobustGEC: Robust Grammatical Error Correction Against Subtle Context Perturbation. EMNLP 2023.[https://arxiv.org/pdf/2310.07299.pdf arxiv] [https://github.com/hillzhang1999/RobustGEC code]  pages 16780–16793; December 6-10, 2023&lt;br /&gt;
&lt;br /&gt;
* Saihao Huang, Lijie Wang, Zhenghua Li*, Zeyang Liu, Chenhui Dou, Fukang Yan, Xinyan Xiao, Hua Wu, and Min Zhang. 2023. SeSQL: A High-Quality Large-Scale Session-Level Chinese Text-to-SQL Dataset. NLPCC 2023, pages 537-550.[[文件:SeSQL_A_High-Quality_Large-Scale_Session-Level_Chinese_Text-to-SQL_Dataset.pdf]] [https://arxiv.org/abs/2208.12711 arxiv]&lt;br /&gt;
&lt;br /&gt;
* Yue Zhang, Bo Zhang, Haochen Jiang, Zhenghua Li*, Chen Li, Fei Huang, Min Zhang. 2023. NaSGEC: Multi-Domain Chinese Grammatical Error Correction for Native Speaker Texts. Findings of ACL 2023. pp 9935-9951. [https://aclanthology.org/2023.findings-acl.630.pdf official] [https://arxiv.org/pdf/2305.16023.pdf arxiv] [https://github.com/HillZhang1999/NaSGEC code]&lt;br /&gt;
&lt;br /&gt;
== 2022 == &lt;br /&gt;
&lt;br /&gt;
=== Journal/Conference Papers in Chinese ===&lt;br /&gt;
&lt;br /&gt;
* 章岳, 黄赛豪, 陆凯华, 李正华*. 2022年1月.  基于模板的中文上下位关系抽取方法. 计算机应用与软件: 39卷1期 pp126-134. [[文件:Hypernym-zhangyue-2022.pdf]]&lt;br /&gt;
* 周仕林, 龚晨*, 李正华, 张民. 基于转移的快速精准的语义依存图分析. 山西大学学报(自然科学版): 45卷4期 pp1-13. [[文件:slzhou_transition_based_sdp.pdf]]&lt;br /&gt;
* 李帅克，李英，李正华*，张民. 基于tri-training的跨领域依存句法分析. 厦门大学学报（自然科学版）：61卷4期 pp638-645. [[https://kns.cnki.net/kcms/detail/detail.aspx?dbcode=CAPJ&amp;amp;dbname=CAPJLAST&amp;amp;filename=XDZK20220509009&amp;amp;uniplatform=NZKPT&amp;amp;v=flne8EoBUv7LYNkuiwSttcXiOfGBPAB_0VtzLHktpwsjrP5-NEfM9rivUOARi0ae 知网抢先版链接]][[文件:基于tri-training的跨领域依存句法分析 李帅克.pdf]]&lt;br /&gt;
* 周明月，龚晨，李正华*，张民. 2022.数据标注方法比较研究：以依存句法树标注为例. 清华大学学报（自然科学版）：62卷5期 pp908-916. [[http://jst.tsinghuajournals.com/CN/10.16511/j.cnki.qhdxxb.2022.22.010 电子版]] [[文件:数据标注方法比较研究.pdf | pdf]]&lt;br /&gt;
* 彭雪, 李正华*, 张民. 2022. 基于语言模型微调的跨领域依存句法分析. 计算机应用与软件:39卷07期, pp141-146. [[文件:彭雪-基于语言模型微调的跨领域依存句法分析.pdf]]&lt;br /&gt;
* 李嘉诚, 沈嘉钰, 龚 晨, 李正华*, 张 民. 2022.  基于指针网络融入混淆集知识的中文语法纠错 中文信息学报:36卷04期,pp29-38. [[文件:基于指针网络融入混淆集知识的中文语法纠错.pdf]]&lt;br /&gt;
&lt;br /&gt;
=== Journal Papers in English ===&lt;br /&gt;
&lt;br /&gt;
* Chen Gong, Zhenghua Li* and Min Zhang. Neural Coupled Sequence Labeling for Heterogeneous Annotation Conversion. IEEE/ACM Transactions on Audio, Speech and Language Processing, 2022, 30:1624-1636.[https://ieeexplore.ieee.org/document/9750873?source=authoralert official]&lt;br /&gt;
&lt;br /&gt;
=== Conference Papers In English ===&lt;br /&gt;
&lt;br /&gt;
* Yue Zhang, Bo Zhang, Zhenghua Li*, Zuyi Bao, Chen Li, and Min Zhang. 2022. SynGEC: Syntax-Enhanced Grammatical Error Correction with a Tailored GEC-Oriented Parser. In '''EMNLP''', pages 2518–2531.  [https://arxiv.org/pdf/2210.12484 arxiv][https://aclanthology.org/2022.emnlp-main.162.pdf official pdf][https://underline.io/events/342/sessions/13833/lecture/66146-syngec-syntax-enhanced-grammatical-error-correction-with-a-tailored-gec-oriented-parser video]&lt;br /&gt;
* Yu Zhang, Qingrong Xia, Shilin Zhou, Yong Jiang, Guohong Fu*, Min Zhang. 2022. Semantic Role Labeling as Dependency Parsing: Exploring Latent Tree Structures inside Arguments. In '''COLING''', pages 4212–4227. [https://arxiv.org/abs/2110.06865 arxiv] [https://aclanthology.org/2022.coling-1.370/ official pdf] [https://underline.io/events/360/posters/13239/poster/60359-semantic-role-labeling-as-dependency-parsing-exploring-latent-tree-structures-inside-arguments video] &lt;br /&gt;
* Shilin Zhou, Qingrong Xia, Zhenghua Li*, Yu Zhang, Yu Hong, and Min Zhang. 2022. Fast and Accurate End-to-End Span-based Semantic Role Labeling as Word-based Graph Parsing. In '''COLING''', pages 4160–4171. [https://arxiv.org/pdf/2112.02970.pdf arxiv] [https://aclanthology.org/2022.coling-1.365/ official pdf] [https://underline.io/events/360/sessions/13099/lecture/60364-fast-and-accurate-end-to-end-span-based-semantic-role-labeling-as-word-based-graph-parsing video] &amp;lt;font color=&amp;quot;#FF0000&amp;quot;&amp;gt;&amp;lt;b&amp;gt;(best paper!)&amp;lt;/b&amp;gt;&amp;lt;/font&amp;gt;&lt;br /&gt;
* Yahui Liu, Haoping Yang, Chen Gong*, Qingrong Xia, Zhenghua Li, Min Zhang. 2022. MuCPAD: A Multi-Domain Chinese Predicate-Argument Dataset. In '''NAACL''', pages 1707-1717. [http://arxiv.org/abs/2205.06703 arxiv][https://aclanthology.org/2022.naacl-main.123.pdf official pdf][https://underline.io/events/325/posters/11804/poster/54059-mucpad-a-multi-domain-chinese-predicate-argument-dataset video]&lt;br /&gt;
* Yue Zhang, Zhenghua Li*, Zuyi Bao, Jiacheng Li, Bo Zhang, Chen Li, Fei Huang, Min Zhang. 2022. MuCGEC: a Multi-Reference Multi-Source Evaluation Dataset for Chinese Grammatical Error Correction. In '''NAACL''', pages 3118–3130. [https://arxiv.org/abs/2204.10994 arxiv][https://aclanthology.org/2022.naacl-main.227.pdf official pdf][https://underline.io/events/325/sessions/11391/lecture/53888-mucgec-a-multi-reference-multi-source-evaluation-dataset-for-chinese-grammatical-error-correction video]&lt;br /&gt;
* Ying Li, Shuaike Li, Min Zhang. 2022. Semi-supervised Domain Adaptation for Dependency Parsing with Dynamic Matching Network. In '''ACL 2022'', pages 1035--1045. [https://aclanthology.org/2022.acl-long.74.pdf official-pdf] [http://hlt.suda.edu.cn/index.php/%E6%96%87%E4%BB%B6:Liying_ACL2022_camera_ready.pdf camera ready pdf] [https://underline.io/lecture/52551-long-semi-supervised-domain-adaptation-for-dependency-parsing-with-dynamic-matching-network video].&lt;br /&gt;
* Houquan Zhou, Yang Li, Zhenghua Li, and Min Zhang. 2022. Bridging Pre-trained Language Models and Hand-crafted Features for Unsupervised POS Tagging. In Findings of the Association for Computational Linguistics: ACL 2022, pages 3276–3290, Dublin, Ireland. Association for Computational Linguistics. [http://hlt.suda.edu.cn/LA/papers/acl-findings-hqzhou-bridging.pdf pdf] [https://arxiv.org/pdf/2203.10315 camera ready pdf] [https://aclanthology.org/2022.findings-acl.259.pdf official pdf] [https://underline.io/lecture/49965-findings-bridging-pre-trained-language-models-and-hand-crafted-features-for-unsupervised-pos-tagging video]&lt;br /&gt;
&lt;br /&gt;
== 2021 == &lt;br /&gt;
&lt;br /&gt;
=== Journal/Conference Papers in Chinese ===&lt;br /&gt;
&lt;br /&gt;
* 吴锟，周夏冰，李正华，梁兴伟，陈文亮. 中文知识库问答中的路径选择. 中文信息学报（CCKS会议推荐）. 2021, 35(9):113-122.[[文件:中文知识库问答中的路径选择 吴锟.pdf]]&lt;br /&gt;
&lt;br /&gt;
=== Conference Papers In English ===&lt;br /&gt;
* Yang Hou, Houquan Zhou, Zhenghua Li*, Yu Zhang, Min Zhang, Zhefeng Wang, Baoxing Huai, Nicholas Jing Yuan. A Coarse-to-Fine Labeling Framework for Joint Word Segmentation,  POS Tagging, and Constituent Parsing. Proceedings of CoNLL-2021, pp. 290–299. Punta Cana, Dominican Republic (Online), 10-11 Nov. 2021. [[文件:CoNLL_2021_yhou_official_version.pdf]]&lt;br /&gt;
&lt;br /&gt;
* Kun Wu, Lijie Wang, Zhenghua Li, Ao Zhang, Xinyan Xiao, Hua Wu, Min Zhang, Haifeng Wang. Data Augmentation with Hierarchical SQL-to-Question Generation for Cross-Domain Text-to-SQL Parsing. Proceedings of EMNLP-2021, pp. 8974--8983. Punta Cana, Dominican Republic (Online), 7-11 Nov. 2021. [[文件:EMNLP2021_camera_ready_Data_Augmentation_with_Hierarchical_SQL_to_Question_Generation_forCross_domain_Text_to_SQL_Parsing-09101500.pdf ‎]]&lt;br /&gt;
&lt;br /&gt;
* Qingrong Xia, Zhenghua Li*, Rui Wang, Min Zhang. Stacked AMR Parsing with Silver Data. Proceedings of EMNLP-2021 Findings, pp. 4729--4738. Punta Cana, Dominican Republic (Online), 7-11 Nov. 2021. [[文件:EMNLP_2021_Stacked_AMR_Parsing_with_Silver_Data.pdf]]&lt;br /&gt;
&lt;br /&gt;
* Ying Li, Meishan Zhang, Zhenghua Li*, Min Zhang, Zhefeng Wang, Baoxing Huai, Nicholas Jing Yuan. APGN: Adversarial and Parameter Generation Networks for Multi-Source Cross-Domain Dependency Parsing. Proceedings of EMNLP-2021 Findings, pp. 1727–1733. Punta Cana, Dominican Republic (Online), 7-11 Nov. 2021. [[文件:EMNLP_2021_yli_camera_ready.pdf]]&lt;br /&gt;
&lt;br /&gt;
* Chen Gong, Saihao Huang, Houquan Zhou, Zhenghua Li*, Min Zhang, Zhefeng Wang, Baoxing Huai, Nicholas Jing Yuan. An In-depth Study on Internal Structure of Chinese Words. Proceedings of ACL-2021, pp. 5823–5833. Online, Virtual Event, 1-6 Aug. 2021. [[文件:2021.acl-long.452.pdf]]&lt;br /&gt;
&lt;br /&gt;
* Qingrong Xia, Bo Zhang, Rui Wang, Zhenghua Li*, Yue Zhang, Fei Huang, Luo Si, Min Zhang. 2021. A Unified Span-Based Approach for Opinion Mining with Syntactic Constituents. Proceedings of NAACL-2021, pp. 1795-1804. Mexico City, Mexico (Online), 6-11 June. 2021. [[文件:2021.naacl-main.144.pdf]]&lt;br /&gt;
&lt;br /&gt;
== 2020 == &lt;br /&gt;
&lt;br /&gt;
=== Journal Papers in Chinese ===&lt;br /&gt;
&lt;br /&gt;
* 陆凯华, 李正华, 张民. 2020. 汉语上下位关系分类数据集构建和基准方法比较. 厦门大学学报(自然科学版). 2020, 59 (06): 1004-1010 [[文件:汉语上下位关系分类数据集构建和基准方法比较_陆凯华.pdf]]&lt;br /&gt;
* 刘亚慧, 杨浩苹, 李正华, 张民. 2020. 一种轻量级的语义角色标注规范. 中文信息学报. 2020, 34(4):10-20 [http://jcip.cipsc.org.cn/CN/Y2020/V34/I4/10 offical.pdf]&lt;br /&gt;
&lt;br /&gt;
=== Journal Papers In English===&lt;br /&gt;
* Chen Gong, Zhenghua Li, Qingrong Xia, Wenliang Chen and Min Zhang. Hierarchical LSTM with char-subword-word tree-structure representation for Chinese named entity recognition. Science China Information Science, 2020, 63(10):1-15. [[文件:Hierarchical_LSTM_with_char-subword-word_tree-structure_representation_for_Chinese_named_entity_recognition.pdf]]&lt;br /&gt;
&lt;br /&gt;
=== Conference Papers In English ===&lt;br /&gt;
&lt;br /&gt;
* Ying Li, Zhenghua Li* and Min Zhang. Semi-supervised Domain Adaptation for Dependency Parsing via Improved Contextualized Word Representations. Proceedings of COLING-2020. pp. 3806–3817. Barcelona, Spain (Online), 8-13 Dec. 2020.[https://www.aclweb.org/anthology/2020.coling-main.338.pdf pdf] [[文件:Liying-2020.coling-main.338.pdf]]&lt;br /&gt;
&lt;br /&gt;
* Qingrong Xia, Rui Wang, Zhenghua Li, Yue Zhang and Min Zhang*. Semantic Role Labeling with Heterogeneous Syntactic Knowledge. Proceedings of COLING-2020. pp. 2979-2990. Barcelona, Spain (Online), 8-13 Dec. 2020. ([https://www.aclweb.org/anthology/2020.coling-main.266.pdf pdf])([[文件:Xiaqingrong-2020.coling-main.266.pdf]])([[文件:Poster-SRL-HDP.pdf]])([[文件:SRL-HDP.pptx]])&lt;br /&gt;
&lt;br /&gt;
* Chen Gong, Zhenghua Li*, Bowei Zou and Min Zhang. Multi-grained Chinese Word Segmentation with Weakly Labeled Data. Proceedings of COLING-2020. pp. 2026–2036. Barcelona, Spain (Online), 8-13 Dec. 2020. [https://www.aclweb.org/anthology/D17-1072.pdf pdf][[文件:Gongchen-2020.coling-main.183.pdf]]&lt;br /&gt;
&lt;br /&gt;
* Lijie Wang, Ao Zhang, Kun Wu, Ke Sun, Zhenghua Li, Hua Wu, Min Zhang and Haifeng Wang. DuSQL: A Large-Scale and Pragmatic Chinese Text-to-SQL Dataset. Proceedings of EMNLP-2020. pp. 6923-6935. Online, 16-20 Nov. 2020. [https://www.aclweb.org/anthology/2020.emnlp-main.562.pdf pdf][[文件:2020.emnlp-main.562.pdf]]&lt;br /&gt;
&lt;br /&gt;
* Houquan Zhou, Yu Zhang, Zhenghua Li, and Min Zhang. Is POS Tagging Necessary or Even Helpful for Neural Dependency Parsing? Proceedings of NLPCC-2020, pp. 179--191. Zhengzhou, China, 14 Oct. - 18 Oct. 2020. ([http://hlt.suda.edu.cn/LA/papers/nlpcc-ijpmo.pdf pdf]) ([http://hlt.suda.edu.cn/LA/papers/nlpcc-ijpmo-official.pdf pdf-official]) ([http://hlt.suda.edu.cn/LA/papers/nlpcc-ijpmo-official-w-content.pdf pdf-official-w-content]) &amp;lt;font color=&amp;quot;#FF0000&amp;quot;&amp;gt;&amp;lt;b&amp;gt;(best paper!)&amp;lt;/b&amp;gt;&amp;lt;/font&amp;gt; &lt;br /&gt;
&lt;br /&gt;
* Yu Zhao, Mingyue Zhou, Zhenghua Li, and Min Zhang. Dependency Parsing with Noisy Multi-Annotation Data. Proceedings of NLPCC-2020, pp. 120-131. Zhengzhou, China, 14 Oct. - 18 Oct. 2020. ([http://hlt.suda.edu.cn/images/e/e5/212_Final_Manuscript_%281%29.pdf pdf]）([http://hlt.suda.edu.cn/LA/papers/nlpcc-yzhao-official.pdf pdf-official]) ([http://hlt.suda.edu.cn/LA/papers/nlpcc-yzhao-official-w-content.pdf pdf-official-w-content])&lt;br /&gt;
&lt;br /&gt;
* Yu Zhang, Houquan Zhou, Zhenghua Li. 2020. Fast and Accurate Neural CRF Constituency Parsing. Proceedings of IJCAI-2020, pp. 4046-4053. Yokohama, Japan, 11-17 Jul. 2020. [https://www.ijcai.org/Proceedings/2020/0560.pdf pdf-official] [http://hlt.suda.edu.cn/LA/papers/0560.pdf pdf] [[http://hlt.suda.edu.cn/LA/videos/V5.mp4 video(5 min version)]] [[http://hlt.suda.edu.cn/LA/videos/V10.mp4 video(10 min version)]] [[http://hlt.suda.edu.cn/LA/videos/V15.mp4 video(15 min version)]]&lt;br /&gt;
&lt;br /&gt;
* Yu Zhang, Zhenghua Li, Min Zhang. 2020. Efficient Second-Order TreeCRF for Neural Dependency Parsing. Proceedings of ACL-2020, pp. 3295-3305. Seattle, America, 5-10 Jul. 2020. [[https://www.aclweb.org/anthology/2020.acl-main.302.pdf pdf-official]] [[http://hlt.suda.edu.cn/LA/papers/2020.acl-main.302.pdf pdf]] [[http://hlt.suda.edu.cn/LA/videos/2020-12-28%2022-21-45.mp4 video]]&lt;br /&gt;
** A very good paper: Timothy Dozat, Christopher D. Manning. ICLR-2017. Deep Biaffine Attention for Neural Dependency Parsing. [https://arxiv.org/abs/1611.01734 arxiv]&lt;br /&gt;
&lt;br /&gt;
* Bo Zhang, Yue Zhang, Rui Wang, Zhenghua Li, Min Zhang. Syntax-Aware Opinion Role Labeling with Dependency Graph Convolutional Networks. Proceedings of ACL-2020, pp. 3249-3258. Seattle, America, 5-10 Jul. 2020. [https://www.aclweb.org/anthology/2020.acl-main.297.pdf pdf] [[文件:Zhangbo-acl2020-ppt-5-24.pdf]]&lt;br /&gt;
&lt;br /&gt;
== before 2020 ==&lt;br /&gt;
* Meishan Zhang, Zhenghua Li, Guohong Fu and Min Zhang. Syntax-Enhanced Neural Machine Translation with Syntax-Aware Word Representations. In Proceedings of the NAACL-2019. pp. 1151–1161. Seattle, America, 5-10 Jun. 2019. [https://www.aclweb.org/anthology/N19-1118.pdf pdf]&lt;br /&gt;
* Bowen Wu, Jiayuan Chao, Baoxun Wang, Zhenghua Li and Min Zhang. Abstractive Summarization via Continuous Copy. EMNLP-2019 Workshop Summarization Submission. Aug 20, 2019. (not accepted)&lt;br /&gt;
&lt;br /&gt;
[http://hlt.suda.edu.cn/~zhli/en.html  &amp;lt;font color=&amp;quot;#FF0000&amp;quot;&amp;gt;&amp;lt;b&amp;gt;更早的论文，请点击此&amp;lt;/b&amp;gt;&amp;lt;/font&amp;gt;]&lt;br /&gt;
&lt;br /&gt;
== 202? Template == &lt;br /&gt;
=== Talks and Misc. ===&lt;br /&gt;
=== Journal/Conference Papers in Chinese ===&lt;br /&gt;
=== Journal Papers In English===&lt;br /&gt;
=== Conference Papers In English===&lt;/div&gt;</summary>
		<author><name>Zhli</name></author>
	</entry>
	<entry>
		<id>http://hlt.suda.edu.cn/index.php?title=LA-paper-report-talk-etc&amp;diff=6167</id>
		<title>LA-paper-report-talk-etc</title>
		<link rel="alternate" type="text/html" href="http://hlt.suda.edu.cn/index.php?title=LA-paper-report-talk-etc&amp;diff=6167"/>
		<updated>2026-01-26T06:47:37Z</updated>

		<summary type="html">&lt;p&gt;Zhli：/* Talks（报告） */&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;请大家按照规则不断完善此页面。包含pdf ppt codes等。论文按年度，先中文、再英文；先期刊、再会议；先录用时间、后发表（开会）时间。尽量用英文吧。&lt;br /&gt;
&lt;br /&gt;
文献格式和内容与内部wiki保持一致（尽量避免重复劳动）&lt;br /&gt;
* pdf ppt等附件都可以放到外网可以访问的地方，放一个地方，避免重复&lt;br /&gt;
* 基金号等信息，这个页面上删掉，不要写&lt;br /&gt;
&lt;br /&gt;
== bib and abstract ==&lt;br /&gt;
&lt;br /&gt;
[http://hlt.suda.edu.cn/index.php/LA-paper-report-talk-bib bib]&lt;br /&gt;
&lt;br /&gt;
摘要和基金信息请看内部wiki&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
== Talks（报告） ==&lt;br /&gt;
&lt;br /&gt;
* '''视频尽可能都放在了哔哩哔哩上了（搜用户名：LAGroup）'''&lt;br /&gt;
* 2024年11月24日受南师大李斌老师邀请做报告（大模型时代如何做研究：一些思考）【文本纠错任务上的大模型相关工作，作为例子】&lt;br /&gt;
* 2023年4月8日受北语杨天麟老师邀请做报告（大模型时代句法语义研究何去何从）&lt;br /&gt;
* 2022年11月29日受复旦邱锡鹏老师邀请做报告（基于适配句法知识的文本纠错）&lt;br /&gt;
* 2022年11月11日受邀对COLING-2022 Best Paper做英文报告&lt;br /&gt;
* 2022年8月27日，受邀在江苏省人工智能大会上做报告（汉语文本纠错近年进展：数据集和模型）&lt;br /&gt;
&lt;br /&gt;
* 2021.7.27：《数据标注师资培训》(哈工大大数据集团)&lt;br /&gt;
** [http://hlt.suda.edu.cn/LA/videos/2021-07-26-1+X数据标注师资培训.mp4 培训视频] [https://mp.weixin.qq.com/s/T2HS90jrHs-ly8aCbwj-Eg 数据标注师资培训介绍]&lt;br /&gt;
&lt;br /&gt;
* 2021.4.20：《基于树形条件随机场的句法分析》(CCF-NLP走进高校-西湖大学)&lt;br /&gt;
** [http://hlt.suda.edu.cn/LA/videos/2021-04-20%2015-28-23.mp4 talk video] [http://hlt.suda.edu.cn/LA/ppt/视频对应-基于treecrf的句法分析-2021-04-20-13-55.pdf ppt(视频对应版)] [http://hlt.suda.edu.cn/LA/ppt/修改错误-基于treecrf的句法分析-2021-04-20-17-45.pdf ppt(修正版)]&lt;br /&gt;
&lt;br /&gt;
* 2021.3：《人工智能与脑机接口》慕课 （15章）[https://hikeweb.zhihuishu.com/studyResource/index?courseId=10431947 .]&lt;br /&gt;
** [http://hlt.suda.edu.cn/LA/videos/15-1_nlp.mp4 NLP基础介绍]&lt;br /&gt;
** [http://hlt.suda.edu.cn/LA/videos/15-2_labelling.mp4 数据标注简介]　　&lt;br /&gt;
&lt;br /&gt;
* 2020.10：《神经网络》慕课 - 面向自然语言处理的神经网络 （13章）&lt;br /&gt;
** [http://hlt.suda.edu.cn/~zhli/NLP-DL/13.1.mp4 第1节：从离散特征到连续稠密向量表示]&lt;br /&gt;
** [http://hlt.suda.edu.cn/~zhli/NLP-DL/13.2.mp4 第2节：表示学习]&lt;br /&gt;
** [http://hlt.suda.edu.cn/~zhli/NLP-DL/13.3.mp4 第3节：序列标注问题]&lt;br /&gt;
** [http://hlt.suda.edu.cn/~zhli/NLP-DL/13.4.mp4 第4节：句法树解析问题]&lt;br /&gt;
&lt;br /&gt;
* 2020.8.15: I have given a talk on data annotation at AI+EDUCATION SUB-FORUM at AI-EXPO (2020 GLOBAL AI PRODUCT AND APPLICATION EXPO)  &lt;br /&gt;
** [http://hlt.suda.edu.cn/~zhli/20200816_AI_data_annotating.mp4 talk video]&lt;br /&gt;
** [https://www.ai-expo.org.cn/?content/416= AI+教育发展分论坛-全球人工智能产品应用博览会]&lt;br /&gt;
&lt;br /&gt;
* 2019年9月28日句法标注培训（LA组介绍）：&lt;br /&gt;
** [http://hlt.suda.edu.cn/~zhli/2019-9-train/LAGroup.mp4 mp4视频] [http://hlt.suda.edu.cn/~zhli/2019-9-train/zhenghua-2019-9-28-LAGroup.pdf pdf]&lt;br /&gt;
&lt;br /&gt;
== Competition or Shared Tasks == &lt;br /&gt;
&lt;br /&gt;
* 刘亚慧、乔子恒、李正华、龚晨、张民. 2025.8. CCL-2025 第三届汉语框架语义解析评测, 二等奖 [https://tianchi.aliyun.com/competition/entrance/532338/rankingList 比赛榜单]，[http://cips-cl.org/static/CCL2025/cclEval/taskResults/index.html 评测结果]&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
* 周厚全，乔子恒，蒋浩辰，刘雨萌. 金山办公2024算法挑战赛-中文文本智能校对大赛，第一名，一等奖&lt;br /&gt;
&lt;br /&gt;
* 刘亚慧、龚晨、张民. 2024.8. CCL-2024 第二届汉语框架语义解析（开放赛道）, 一等奖 [https://aclanthology.org/2024.ccl-3.3.pdf 官方评测报告.pdf] ， [https://tianchi.aliyun.com/competition/entrance/532179/rankingList 比赛榜单]&lt;br /&gt;
&lt;br /&gt;
* 王学彬, 李正华. 2024.5. 第一届古汉语断句标点评测（EvaHan2024）评测，二等奖*（COLING-2024 workshop）&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
* 辜仰淦，周仕林，李正华. 2023年8月. CCL中文抽象语义表示解析评测（一等奖）[https://aclanthology.org/2023.ccl-3.5 官网评测报告]&lt;br /&gt;
&lt;br /&gt;
* 蒋浩辰，刘雨萌，周厚全，乔子恒，章波，李辰，李正华，张民. CCL汉语学习者文本纠错评测（封闭、开放双赛道第一）. 2023年8月. [https://aclanthology.org/2023.ccl-3.25.pdf S&amp;amp;A-CCL2023评测报告.pdf]&lt;br /&gt;
** [http://cuge.baai.ac.cn/#/ccl/2023/cltc 比赛榜单]&lt;br /&gt;
&lt;br /&gt;
* 刘亚慧，李正华，张民. CCL汉语框架语义解析评测(三等奖). 2023年8月.  [https://aclanthology.org/2023.ccl-3.9.pdf 官网评测报告.pdf]， [https://tianchi.aliyun.com/competition/entrance/532083/rankingList 比赛榜单]&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
* 2022.12法研杯第一名 CAIL-2022 法律文本纠错&lt;br /&gt;
&lt;br /&gt;
* 我们组织了两届跨领域句法分析评测：CCL-2021和NLPCC-2019&lt;br /&gt;
&lt;br /&gt;
* 李嘉诚，沈嘉钰，包祖贻，章波，章岳，李辰，李正华. S&amp;amp;A团队CGED-7评测报告（识别，定位，纠正层第一）. 2021年12月. [[文件:S&amp;amp;A团队CGED-7评测报告.pdf]]&lt;br /&gt;
** [http://nlg.cipsc.org.cn/evaluation.html 比赛主页] [https://zhuanlan.zhihu.com/p/444117518 知乎总结]&lt;br /&gt;
&lt;br /&gt;
* 章岳，包祖贻，章波，李辰，李嘉诚，李正华. S&amp;amp;A队CTC2021评测报告（检错、纠错、总分三赛道第一）. 2021年9月.[[文件:S&amp;amp;A-CTC2021评测报告.pdf]]&lt;br /&gt;
** [https://2021aichina.caai.cn/track?id=5 比赛主页] [https://github.com/destwang/CTC2021 github榜单]&lt;br /&gt;
&lt;br /&gt;
== Awards == &lt;br /&gt;
* 2024. 第三届全国大模型智能生成大会（CIPS-LMG 2024）优秀海报奖（EMNLP-2024论文）&lt;br /&gt;
* 2023. CCF-NLPCC“青年新锐学者” （Young Outstanding Scientist Award）&lt;br /&gt;
* 2022. SudaNLP团队张宇同学的硕士论文《基于树形条件随机场的高阶句法分析》被评选为2022年度江苏省优秀学术型硕士学位论文 [http://hlt.suda.edu.cn/index.php/Zhangyu-jiangsu-outstanding-paper wechat-sudanlp-news]&lt;br /&gt;
* 2022. Coling '''best paper'''&lt;br /&gt;
* 2021. 章波，江苏省优秀学术型硕士论文；同时获江苏省计算机学会优秀硕士论文《面向依存句法的树库转化与应用研究》&lt;br /&gt;
* 2020. NLPCC best paper&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
== 同学必须深入学习的东西 ==&lt;br /&gt;
&lt;br /&gt;
[http://hlt.suda.edu.cn/index.php/LA-to-sudy-list LAGroup 同学必须深入学习的东西] 慢慢完善&lt;br /&gt;
&lt;br /&gt;
== 2025 == &lt;br /&gt;
&lt;br /&gt;
=== Journal/Conference Papers in Chinese ===&lt;br /&gt;
&lt;br /&gt;
* [期刊发表后更新下] 严福康, 章岳, 李正华*. 2023. 基于网络词典的现代汉语词义消歧数据集构建. 第二十二届中国计算语言学大会.[[文件:基于网络词典的现代汉语词义消歧数据集构建_CCL_严福康.pdf]]&lt;br /&gt;
&lt;br /&gt;
* [期刊发表后更新下] 杨浩苹, 夏庆荣, 李正华*, 王睿. 基于GCN的异构句法驱动汉语语义角色标注. 计算机应用与软件. [2022年录用] [还未正式发表 知网上找不到，期号卷号未知.] '''以后不投这个期刊了'''. [[文件:基于GCN的异构句法驱动汉语语义角色标注.pdf]]&lt;br /&gt;
&lt;br /&gt;
=== Papers in English ===&lt;br /&gt;
&lt;br /&gt;
* Yahui Liu, Zhenghua Li, Chen Gong*, Shilin Zhou，Min Zhang. Annotation error detection in painstakingly annotated data: Part-of-speech tagging as a case study. Expert Systems With Applications (ESWA), 2025,290:128374. [https://www.sciencedirect.com/science/article/pii/S0957417425019931 official] [Journal]&lt;br /&gt;
&lt;br /&gt;
* Ziyan Zhang, Yang Hou, Chen Gong*, Zhenghua Li. Self-Correction Makes LLMs Better Parsers. In Findings of EMNLP 2025, Suzhou, China. [https://arxiv.org/abs/2504.14165 Arxiv].&lt;br /&gt;
&lt;br /&gt;
* Houquan Zhou, Bo Zhang, Zhenghua Li*, Ming Yan, and Min Zhang. 2025. A Training-free LLM-based Approach to General Chinese Character Error Correction. In Proceedings of ACL, pages 13827–13852, Vienna, Austria. Association for Computational Linguistics. [https://aclanthology.org/2025.acl-long.678.pdf official] July 27 - August 1&lt;br /&gt;
* Ziheng Qiao, Houquan Zhou, Zhenghua Li*. Mixture of Small and Large Models for Chinese Spelling Check. ACL, pages 28298–28311, Vienna, Austria. [https://aclanthology.org/2025.acl-long.1372.pdf acl-anthology]&lt;br /&gt;
* Ziheng Qiao, Houquan Zhou, Yumeng Liu, Zhenghua Li*, Min Zhang, Bo Zhang, Chen Li, Ji Zhang, Fei Huang. DISC: Plug-and-Play Decoding Intervention with Similarity of Characters for Chinese Spelling Check. ACL, pages 28312–28324, Vienna, Austria. [https://aclanthology.org/2025.acl-long.1373.pdf acl-anthology]&lt;br /&gt;
* Yang Hou, Zhenghua Li*. Dynamic Head Selection for Neural Lexicalized Constituency Parsing. In Proceedings of ACL 2025, pages 16141–16155, Vienna, Austria. [https://aclanthology.org/2025.acl-long.786.pdf acl-anthology]&lt;br /&gt;
* Yang Hou, Zhenghua Li*. Span-based Semantic Role Labeling as Lexicalized Constituency Tree Parsing. In Findings of ACL 2025, pages 10701–10713, Vienna, Austria. [https://aclanthology.org/2025.findings-acl.557.pdf acl-anthology]&lt;br /&gt;
* Yanggan Gu, Junzhuo Li, Sirui Huang, Xin Zou, Zhenghua Li*, Xuming Hu*. Capturing Nuanced Preferences: Preference-Aligned Distillation for Small Language Models. In Findings of ACL 2025, pages 15959–15973, Vienna, Austria. [https://aclanthology.org/2025.findings-acl.822.pdf acl-anthology]&lt;br /&gt;
&lt;br /&gt;
* Xuebin Wang, Lei Zhang, Zhenghua Li*, Shilin Zhou, Chen Gong, Yang Hou. Mining Word Boundaries from Speech-Text Parallel Data for Cross-domain Chinese Word Segmentation. [https://arxiv.org/abs/2412.09045 Arxiv]. COLING. January 19–24, 2025. Abu Dhabi, UAE. pages 1247–1257&lt;br /&gt;
* Ziyan Zhang, Yang Hou, Chen Gong*, Zhenghua Li. Data Augmentation for Cross-domain Parsing via Lightweight LLM Generation and Tree Hybridization. [[文件:Data_Augmentation_for_Cross-domain_Parsing_via_Lightweight_LLM_Generation_and_Tree_Hybridization.pdf]]. COLING. 19 January, 2025. Abu Dhabi, UAE.&lt;br /&gt;
* Xi Ma, Yang Hou, Xuebin Wang, Zhenghua Li. A Probabilistic Toolkit for Multi-grained Word Segmentation in Chinese. [[文件:A_Probabilistic_Toolkit_for_Multi-grained_Word_Segmentation_in_Chinese.pdf]]. COLING Demonstration (demo paper). 19 January, 2025. Abu Dhabi, UAE.&lt;br /&gt;
&lt;br /&gt;
== 2024 == &lt;br /&gt;
&lt;br /&gt;
=== Journal/Conference Papers in Chinese ===&lt;br /&gt;
&lt;br /&gt;
* 崔秀莲, 严福康, 李正华*. CCKS-2023. 基于实例的词性标注数据错误检测. 2023全国知识图谱与语义计算大会CCKS&lt;br /&gt;
** 转发：山西大学学报 2024年4月 47卷2期 47(2)，pp251−259. [[文件:Cxl-山西大学学报-基于实例的词性标注数据错误检测.pdf]]&lt;br /&gt;
&lt;br /&gt;
=== Conference Papers in English ===&lt;br /&gt;
&lt;br /&gt;
* Houquan Zhou, Zhenghua Li*, Bo Zhang, Chen Li, Shaopeng Lai, Ji Zhang, Fei Huang, Min Zhang. 2024. A Simple yet Effective Training-free Prompt-free Approach to Chinese Spelling Correction Based on Large Language Models. EMNLP. pp 17446–17467. [https://arxiv.org/abs/2410.04027 arxiv] [https://aclanthology.org/2024.emnlp-main.966.pdf acl-anthology] November 12-16 Miami, Florida (USA)&lt;br /&gt;
&lt;br /&gt;
* Xuebin Wang, Zhenghua Li*. 2024. Two Sequence Labeling Approaches to Sentence Segmentation and Punctuation Prediction for Classic Chinese Texts. [https://aclanthology.org/2024.lt4hala-1.28/ Acl-anthology] the Third Workshop on Language Technologies for Historical and Ancient Languages (LT4HALA) @ LREC-COLING-2024. pages 237–241    25 May, 2024   Torino (Italia) Turin (Italy)&lt;br /&gt;
&lt;br /&gt;
* Yumeng Liu, Zhenghua Li*, Haochen Jiang, Bo Zhang, Chen Li, Ji Zhang. 2024. Towards Better Utilization of Multi-Reference Training Data for Chinese Grammatical Error Correction. Findings of ACL. [https://github.com/ymliucs/MrGEC code][https://aclanthology.org/2024.findings-acl.180 paper]&lt;br /&gt;
* Yang Hou and Zhenghua Li*. 2024. Character-Level Chinese Dependency Parsing via Modeling Latent Intra-Word Structure. ACL-findings. [[文件:2024.findings-acl.173.pdf]], [[文件:2024.findings-acl.173.slide.pdf]], [[文件:2024.findings-acl.173.poster.pdf]]&lt;br /&gt;
* Shilin Zhou, Zhenghua Li, Chen Gong*, Lei Zhang, Yu Hong, Min Zhang. 2024. Chinese Spoken Named Entity Recognition in Real-world Scenarios: Dataset and Approaches. Findings of ACL. [[文件:ACL2024_rwcsner.pdf]]，[[文件:Rwcs_poster.pdf]] &lt;br /&gt;
* Shilin Zhou, Zhenghua Li*, Yu Hong, Min Zhang, Zhefeng Wang, Baoxing Huai. 2024. CopyNE: Better Contextual ASR by Copying Named Entities. ACL. [[文件:ACL2024_copyne.pdf]]，[[文件:copyne_poster.pdf]] [https://aclanthology.org/2024.acl-long.147.pdf acl-anthology] Bangkok, Thailand 2024.8.11-16 pp. 2675–2686 &lt;br /&gt;
&lt;br /&gt;
* Yanggan Gu, Yang Hou, Zhefeng Wang, Xinyu Duan and Zhenghua Li*. 2024. High-order Joint Constituency and Dependency Parsing. COLING. [[文件:2024.lrec-main.713.pdf]]，[[文件:2024.lrec-main.713.poster.pdf]] pages 8144–8154 20-25 May, 2024. Torino (Italia)&lt;br /&gt;
* Chenhui Dou, Chen Gong*, Zhenghua Li, Zhefeng Wang, baoxing Huai and Min Zhang. 2024. Improving Chinese Named Entity Recognition with Multi-grained Words and Part-of-Speech Tags via Joint Modeling. COLING.[[文件:2024.lrec-main.765.pdf]]，[[文件:2024.lrec-main.765.poster.pdf]] pages 8732–8742&lt;br /&gt;
20-25 May, 2024. Torino (Italia) Turin (Italy)&lt;br /&gt;
&lt;br /&gt;
== 2023 == &lt;br /&gt;
&lt;br /&gt;
=== Conference Papers in English ===&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
* Houquan Zhou, Yumeng Liu, Zhenghua Li*, Min Zhang, Bo Zhang, Chen Li, Ji Zhang, Fei Huang. 2023. Improving Seq2Seq Grammatical Error Correction via Decoding Interventions. Findings of '''EMNLP''', pages 7393–7405. [https://arxiv.org/abs/2310.14534 arxiv][https://github.com/Jacob-Zhou/gecdi code][https://www.semanticscholar.org/paper/Improving-Seq2Seq-Grammatical-Error-Correction-via-Zhou-Liu/4711f26c0295fed15161b6145800b3df1ab9c0f6 citation]&lt;br /&gt;
&lt;br /&gt;
* Yue Zhang, Leyang Cui, Enbo Zhao, Wei Bi, Shuming Shi. 2023. RobustGEC: Robust Grammatical Error Correction Against Subtle Context Perturbation. EMNLP 2023.[https://arxiv.org/pdf/2310.07299.pdf arxiv] [https://github.com/hillzhang1999/RobustGEC code]  pages 16780–16793; December 6-10, 2023&lt;br /&gt;
&lt;br /&gt;
* Saihao Huang, Lijie Wang, Zhenghua Li*, Zeyang Liu, Chenhui Dou, Fukang Yan, Xinyan Xiao, Hua Wu, and Min Zhang. 2023. SeSQL: A High-Quality Large-Scale Session-Level Chinese Text-to-SQL Dataset. NLPCC 2023, pages 537-550.[[文件:SeSQL_A_High-Quality_Large-Scale_Session-Level_Chinese_Text-to-SQL_Dataset.pdf]] [https://arxiv.org/abs/2208.12711 arxiv]&lt;br /&gt;
&lt;br /&gt;
* Yue Zhang, Bo Zhang, Haochen Jiang, Zhenghua Li*, Chen Li, Fei Huang, Min Zhang. 2023. NaSGEC: Multi-Domain Chinese Grammatical Error Correction for Native Speaker Texts. Findings of ACL 2023. pp 9935-9951. [https://aclanthology.org/2023.findings-acl.630.pdf official] [https://arxiv.org/pdf/2305.16023.pdf arxiv] [https://github.com/HillZhang1999/NaSGEC code]&lt;br /&gt;
&lt;br /&gt;
== 2022 == &lt;br /&gt;
&lt;br /&gt;
=== Journal/Conference Papers in Chinese ===&lt;br /&gt;
&lt;br /&gt;
* 章岳, 黄赛豪, 陆凯华, 李正华*. 2022年1月.  基于模板的中文上下位关系抽取方法. 计算机应用与软件: 39卷1期 pp126-134. [[文件:Hypernym-zhangyue-2022.pdf]]&lt;br /&gt;
* 周仕林, 龚晨*, 李正华, 张民. 基于转移的快速精准的语义依存图分析. 山西大学学报(自然科学版): 45卷4期 pp1-13. [[文件:slzhou_transition_based_sdp.pdf]]&lt;br /&gt;
* 李帅克，李英，李正华*，张民. 基于tri-training的跨领域依存句法分析. 厦门大学学报（自然科学版）：61卷4期 pp638-645. [[https://kns.cnki.net/kcms/detail/detail.aspx?dbcode=CAPJ&amp;amp;dbname=CAPJLAST&amp;amp;filename=XDZK20220509009&amp;amp;uniplatform=NZKPT&amp;amp;v=flne8EoBUv7LYNkuiwSttcXiOfGBPAB_0VtzLHktpwsjrP5-NEfM9rivUOARi0ae 知网抢先版链接]][[文件:基于tri-training的跨领域依存句法分析 李帅克.pdf]]&lt;br /&gt;
* 周明月，龚晨，李正华*，张民. 2022.数据标注方法比较研究：以依存句法树标注为例. 清华大学学报（自然科学版）：62卷5期 pp908-916. [[http://jst.tsinghuajournals.com/CN/10.16511/j.cnki.qhdxxb.2022.22.010 电子版]] [[文件:数据标注方法比较研究.pdf | pdf]]&lt;br /&gt;
* 彭雪, 李正华*, 张民. 2022. 基于语言模型微调的跨领域依存句法分析. 计算机应用与软件:39卷07期, pp141-146. [[文件:彭雪-基于语言模型微调的跨领域依存句法分析.pdf]]&lt;br /&gt;
* 李嘉诚, 沈嘉钰, 龚 晨, 李正华*, 张 民. 2022.  基于指针网络融入混淆集知识的中文语法纠错 中文信息学报:36卷04期,pp29-38. [[文件:基于指针网络融入混淆集知识的中文语法纠错.pdf]]&lt;br /&gt;
&lt;br /&gt;
=== Journal Papers in English ===&lt;br /&gt;
&lt;br /&gt;
* Chen Gong, Zhenghua Li* and Min Zhang. Neural Coupled Sequence Labeling for Heterogeneous Annotation Conversion. IEEE/ACM Transactions on Audio, Speech and Language Processing, 2022, 30:1624-1636.[https://ieeexplore.ieee.org/document/9750873?source=authoralert official]&lt;br /&gt;
&lt;br /&gt;
=== Conference Papers In English ===&lt;br /&gt;
&lt;br /&gt;
* Yue Zhang, Bo Zhang, Zhenghua Li*, Zuyi Bao, Chen Li, and Min Zhang. 2022. SynGEC: Syntax-Enhanced Grammatical Error Correction with a Tailored GEC-Oriented Parser. In '''EMNLP''', pages 2518–2531.  [https://arxiv.org/pdf/2210.12484 arxiv][https://aclanthology.org/2022.emnlp-main.162.pdf official pdf][https://underline.io/events/342/sessions/13833/lecture/66146-syngec-syntax-enhanced-grammatical-error-correction-with-a-tailored-gec-oriented-parser video]&lt;br /&gt;
* Yu Zhang, Qingrong Xia, Shilin Zhou, Yong Jiang, Guohong Fu*, Min Zhang. 2022. Semantic Role Labeling as Dependency Parsing: Exploring Latent Tree Structures inside Arguments. In '''COLING''', pages 4212–4227. [https://arxiv.org/abs/2110.06865 arxiv] [https://aclanthology.org/2022.coling-1.370/ official pdf] [https://underline.io/events/360/posters/13239/poster/60359-semantic-role-labeling-as-dependency-parsing-exploring-latent-tree-structures-inside-arguments video] &lt;br /&gt;
* Shilin Zhou, Qingrong Xia, Zhenghua Li*, Yu Zhang, Yu Hong, and Min Zhang. 2022. Fast and Accurate End-to-End Span-based Semantic Role Labeling as Word-based Graph Parsing. In '''COLING''', pages 4160–4171. [https://arxiv.org/pdf/2112.02970.pdf arxiv] [https://aclanthology.org/2022.coling-1.365/ official pdf] [https://underline.io/events/360/sessions/13099/lecture/60364-fast-and-accurate-end-to-end-span-based-semantic-role-labeling-as-word-based-graph-parsing video] &amp;lt;font color=&amp;quot;#FF0000&amp;quot;&amp;gt;&amp;lt;b&amp;gt;(best paper!)&amp;lt;/b&amp;gt;&amp;lt;/font&amp;gt;&lt;br /&gt;
* Yahui Liu, Haoping Yang, Chen Gong*, Qingrong Xia, Zhenghua Li, Min Zhang. 2022. MuCPAD: A Multi-Domain Chinese Predicate-Argument Dataset. In '''NAACL''', pages 1707-1717. [http://arxiv.org/abs/2205.06703 arxiv][https://aclanthology.org/2022.naacl-main.123.pdf official pdf][https://underline.io/events/325/posters/11804/poster/54059-mucpad-a-multi-domain-chinese-predicate-argument-dataset video]&lt;br /&gt;
* Yue Zhang, Zhenghua Li*, Zuyi Bao, Jiacheng Li, Bo Zhang, Chen Li, Fei Huang, Min Zhang. 2022. MuCGEC: a Multi-Reference Multi-Source Evaluation Dataset for Chinese Grammatical Error Correction. In '''NAACL''', pages 3118–3130. [https://arxiv.org/abs/2204.10994 arxiv][https://aclanthology.org/2022.naacl-main.227.pdf official pdf][https://underline.io/events/325/sessions/11391/lecture/53888-mucgec-a-multi-reference-multi-source-evaluation-dataset-for-chinese-grammatical-error-correction video]&lt;br /&gt;
* Ying Li, Shuaike Li, Min Zhang. 2022. Semi-supervised Domain Adaptation for Dependency Parsing with Dynamic Matching Network. In '''ACL 2022'', pages 1035--1045. [https://aclanthology.org/2022.acl-long.74.pdf official-pdf] [http://hlt.suda.edu.cn/index.php/%E6%96%87%E4%BB%B6:Liying_ACL2022_camera_ready.pdf camera ready pdf] [https://underline.io/lecture/52551-long-semi-supervised-domain-adaptation-for-dependency-parsing-with-dynamic-matching-network video].&lt;br /&gt;
* Houquan Zhou, Yang Li, Zhenghua Li, and Min Zhang. 2022. Bridging Pre-trained Language Models and Hand-crafted Features for Unsupervised POS Tagging. In Findings of the Association for Computational Linguistics: ACL 2022, pages 3276–3290, Dublin, Ireland. Association for Computational Linguistics. [http://hlt.suda.edu.cn/LA/papers/acl-findings-hqzhou-bridging.pdf pdf] [https://arxiv.org/pdf/2203.10315 camera ready pdf] [https://aclanthology.org/2022.findings-acl.259.pdf official pdf] [https://underline.io/lecture/49965-findings-bridging-pre-trained-language-models-and-hand-crafted-features-for-unsupervised-pos-tagging video]&lt;br /&gt;
&lt;br /&gt;
== 2021 == &lt;br /&gt;
&lt;br /&gt;
=== Journal/Conference Papers in Chinese ===&lt;br /&gt;
&lt;br /&gt;
* 吴锟，周夏冰，李正华，梁兴伟，陈文亮. 中文知识库问答中的路径选择. 中文信息学报（CCKS会议推荐）. 2021, 35(9):113-122.[[文件:中文知识库问答中的路径选择 吴锟.pdf]]&lt;br /&gt;
&lt;br /&gt;
=== Conference Papers In English ===&lt;br /&gt;
* Yang Hou, Houquan Zhou, Zhenghua Li*, Yu Zhang, Min Zhang, Zhefeng Wang, Baoxing Huai, Nicholas Jing Yuan. A Coarse-to-Fine Labeling Framework for Joint Word Segmentation,  POS Tagging, and Constituent Parsing. Proceedings of CoNLL-2021, pp. 290–299. Punta Cana, Dominican Republic (Online), 10-11 Nov. 2021. [[文件:CoNLL_2021_yhou_official_version.pdf]]&lt;br /&gt;
&lt;br /&gt;
* Kun Wu, Lijie Wang, Zhenghua Li, Ao Zhang, Xinyan Xiao, Hua Wu, Min Zhang, Haifeng Wang. Data Augmentation with Hierarchical SQL-to-Question Generation for Cross-Domain Text-to-SQL Parsing. Proceedings of EMNLP-2021, pp. 8974--8983. Punta Cana, Dominican Republic (Online), 7-11 Nov. 2021. [[文件:EMNLP2021_camera_ready_Data_Augmentation_with_Hierarchical_SQL_to_Question_Generation_forCross_domain_Text_to_SQL_Parsing-09101500.pdf ‎]]&lt;br /&gt;
&lt;br /&gt;
* Qingrong Xia, Zhenghua Li*, Rui Wang, Min Zhang. Stacked AMR Parsing with Silver Data. Proceedings of EMNLP-2021 Findings, pp. 4729--4738. Punta Cana, Dominican Republic (Online), 7-11 Nov. 2021. [[文件:EMNLP_2021_Stacked_AMR_Parsing_with_Silver_Data.pdf]]&lt;br /&gt;
&lt;br /&gt;
* Ying Li, Meishan Zhang, Zhenghua Li*, Min Zhang, Zhefeng Wang, Baoxing Huai, Nicholas Jing Yuan. APGN: Adversarial and Parameter Generation Networks for Multi-Source Cross-Domain Dependency Parsing. Proceedings of EMNLP-2021 Findings, pp. 1727–1733. Punta Cana, Dominican Republic (Online), 7-11 Nov. 2021. [[文件:EMNLP_2021_yli_camera_ready.pdf]]&lt;br /&gt;
&lt;br /&gt;
* Chen Gong, Saihao Huang, Houquan Zhou, Zhenghua Li*, Min Zhang, Zhefeng Wang, Baoxing Huai, Nicholas Jing Yuan. An In-depth Study on Internal Structure of Chinese Words. Proceedings of ACL-2021, pp. 5823–5833. Online, Virtual Event, 1-6 Aug. 2021. [[文件:2021.acl-long.452.pdf]]&lt;br /&gt;
&lt;br /&gt;
* Qingrong Xia, Bo Zhang, Rui Wang, Zhenghua Li*, Yue Zhang, Fei Huang, Luo Si, Min Zhang. 2021. A Unified Span-Based Approach for Opinion Mining with Syntactic Constituents. Proceedings of NAACL-2021, pp. 1795-1804. Mexico City, Mexico (Online), 6-11 June. 2021. [[文件:2021.naacl-main.144.pdf]]&lt;br /&gt;
&lt;br /&gt;
== 2020 == &lt;br /&gt;
&lt;br /&gt;
=== Journal Papers in Chinese ===&lt;br /&gt;
&lt;br /&gt;
* 陆凯华, 李正华, 张民. 2020. 汉语上下位关系分类数据集构建和基准方法比较. 厦门大学学报(自然科学版). 2020, 59 (06): 1004-1010 [[文件:汉语上下位关系分类数据集构建和基准方法比较_陆凯华.pdf]]&lt;br /&gt;
* 刘亚慧, 杨浩苹, 李正华, 张民. 2020. 一种轻量级的语义角色标注规范. 中文信息学报. 2020, 34(4):10-20 [http://jcip.cipsc.org.cn/CN/Y2020/V34/I4/10 offical.pdf]&lt;br /&gt;
&lt;br /&gt;
=== Journal Papers In English===&lt;br /&gt;
* Chen Gong, Zhenghua Li, Qingrong Xia, Wenliang Chen and Min Zhang. Hierarchical LSTM with char-subword-word tree-structure representation for Chinese named entity recognition. Science China Information Science, 2020, 63(10):1-15. [[文件:Hierarchical_LSTM_with_char-subword-word_tree-structure_representation_for_Chinese_named_entity_recognition.pdf]]&lt;br /&gt;
&lt;br /&gt;
=== Conference Papers In English ===&lt;br /&gt;
&lt;br /&gt;
* Ying Li, Zhenghua Li* and Min Zhang. Semi-supervised Domain Adaptation for Dependency Parsing via Improved Contextualized Word Representations. Proceedings of COLING-2020. pp. 3806–3817. Barcelona, Spain (Online), 8-13 Dec. 2020.[https://www.aclweb.org/anthology/2020.coling-main.338.pdf pdf] [[文件:Liying-2020.coling-main.338.pdf]]&lt;br /&gt;
&lt;br /&gt;
* Qingrong Xia, Rui Wang, Zhenghua Li, Yue Zhang and Min Zhang*. Semantic Role Labeling with Heterogeneous Syntactic Knowledge. Proceedings of COLING-2020. pp. 2979-2990. Barcelona, Spain (Online), 8-13 Dec. 2020. ([https://www.aclweb.org/anthology/2020.coling-main.266.pdf pdf])([[文件:Xiaqingrong-2020.coling-main.266.pdf]])([[文件:Poster-SRL-HDP.pdf]])([[文件:SRL-HDP.pptx]])&lt;br /&gt;
&lt;br /&gt;
* Chen Gong, Zhenghua Li*, Bowei Zou and Min Zhang. Multi-grained Chinese Word Segmentation with Weakly Labeled Data. Proceedings of COLING-2020. pp. 2026–2036. Barcelona, Spain (Online), 8-13 Dec. 2020. [https://www.aclweb.org/anthology/D17-1072.pdf pdf][[文件:Gongchen-2020.coling-main.183.pdf]]&lt;br /&gt;
&lt;br /&gt;
* Lijie Wang, Ao Zhang, Kun Wu, Ke Sun, Zhenghua Li, Hua Wu, Min Zhang and Haifeng Wang. DuSQL: A Large-Scale and Pragmatic Chinese Text-to-SQL Dataset. Proceedings of EMNLP-2020. pp. 6923-6935. Online, 16-20 Nov. 2020. [https://www.aclweb.org/anthology/2020.emnlp-main.562.pdf pdf][[文件:2020.emnlp-main.562.pdf]]&lt;br /&gt;
&lt;br /&gt;
* Houquan Zhou, Yu Zhang, Zhenghua Li, and Min Zhang. Is POS Tagging Necessary or Even Helpful for Neural Dependency Parsing? Proceedings of NLPCC-2020, pp. 179--191. Zhengzhou, China, 14 Oct. - 18 Oct. 2020. ([http://hlt.suda.edu.cn/LA/papers/nlpcc-ijpmo.pdf pdf]) ([http://hlt.suda.edu.cn/LA/papers/nlpcc-ijpmo-official.pdf pdf-official]) ([http://hlt.suda.edu.cn/LA/papers/nlpcc-ijpmo-official-w-content.pdf pdf-official-w-content]) &amp;lt;font color=&amp;quot;#FF0000&amp;quot;&amp;gt;&amp;lt;b&amp;gt;(best paper!)&amp;lt;/b&amp;gt;&amp;lt;/font&amp;gt; &lt;br /&gt;
&lt;br /&gt;
* Yu Zhao, Mingyue Zhou, Zhenghua Li, and Min Zhang. Dependency Parsing with Noisy Multi-Annotation Data. Proceedings of NLPCC-2020, pp. 120-131. Zhengzhou, China, 14 Oct. - 18 Oct. 2020. ([http://hlt.suda.edu.cn/images/e/e5/212_Final_Manuscript_%281%29.pdf pdf]）([http://hlt.suda.edu.cn/LA/papers/nlpcc-yzhao-official.pdf pdf-official]) ([http://hlt.suda.edu.cn/LA/papers/nlpcc-yzhao-official-w-content.pdf pdf-official-w-content])&lt;br /&gt;
&lt;br /&gt;
* Yu Zhang, Houquan Zhou, Zhenghua Li. 2020. Fast and Accurate Neural CRF Constituency Parsing. Proceedings of IJCAI-2020, pp. 4046-4053. Yokohama, Japan, 11-17 Jul. 2020. [https://www.ijcai.org/Proceedings/2020/0560.pdf pdf-official] [http://hlt.suda.edu.cn/LA/papers/0560.pdf pdf] [[http://hlt.suda.edu.cn/LA/videos/V5.mp4 video(5 min version)]] [[http://hlt.suda.edu.cn/LA/videos/V10.mp4 video(10 min version)]] [[http://hlt.suda.edu.cn/LA/videos/V15.mp4 video(15 min version)]]&lt;br /&gt;
&lt;br /&gt;
* Yu Zhang, Zhenghua Li, Min Zhang. 2020. Efficient Second-Order TreeCRF for Neural Dependency Parsing. Proceedings of ACL-2020, pp. 3295-3305. Seattle, America, 5-10 Jul. 2020. [[https://www.aclweb.org/anthology/2020.acl-main.302.pdf pdf-official]] [[http://hlt.suda.edu.cn/LA/papers/2020.acl-main.302.pdf pdf]] [[http://hlt.suda.edu.cn/LA/videos/2020-12-28%2022-21-45.mp4 video]]&lt;br /&gt;
** A very good paper: Timothy Dozat, Christopher D. Manning. ICLR-2017. Deep Biaffine Attention for Neural Dependency Parsing. [https://arxiv.org/abs/1611.01734 arxiv]&lt;br /&gt;
&lt;br /&gt;
* Bo Zhang, Yue Zhang, Rui Wang, Zhenghua Li, Min Zhang. Syntax-Aware Opinion Role Labeling with Dependency Graph Convolutional Networks. Proceedings of ACL-2020, pp. 3249-3258. Seattle, America, 5-10 Jul. 2020. [https://www.aclweb.org/anthology/2020.acl-main.297.pdf pdf] [[文件:Zhangbo-acl2020-ppt-5-24.pdf]]&lt;br /&gt;
&lt;br /&gt;
== before 2020 ==&lt;br /&gt;
* Meishan Zhang, Zhenghua Li, Guohong Fu and Min Zhang. Syntax-Enhanced Neural Machine Translation with Syntax-Aware Word Representations. In Proceedings of the NAACL-2019. pp. 1151–1161. Seattle, America, 5-10 Jun. 2019. [https://www.aclweb.org/anthology/N19-1118.pdf pdf]&lt;br /&gt;
* Bowen Wu, Jiayuan Chao, Baoxun Wang, Zhenghua Li and Min Zhang. Abstractive Summarization via Continuous Copy. EMNLP-2019 Workshop Summarization Submission. Aug 20, 2019. (not accepted)&lt;br /&gt;
&lt;br /&gt;
[http://hlt.suda.edu.cn/~zhli/en.html  &amp;lt;font color=&amp;quot;#FF0000&amp;quot;&amp;gt;&amp;lt;b&amp;gt;更早的论文，请点击此&amp;lt;/b&amp;gt;&amp;lt;/font&amp;gt;]&lt;br /&gt;
&lt;br /&gt;
== 202? Template == &lt;br /&gt;
=== Talks and Misc. ===&lt;br /&gt;
=== Journal/Conference Papers in Chinese ===&lt;br /&gt;
=== Journal Papers In English===&lt;br /&gt;
=== Conference Papers In English===&lt;/div&gt;</summary>
		<author><name>Zhli</name></author>
	</entry>
	<entry>
		<id>http://hlt.suda.edu.cn/index.php?title=Linux-2025-fall&amp;diff=6166</id>
		<title>Linux-2025-fall</title>
		<link rel="alternate" type="text/html" href="http://hlt.suda.edu.cn/index.php?title=Linux-2025-fall&amp;diff=6166"/>
		<updated>2026-01-13T01:34:08Z</updated>

		<summary type="html">&lt;p&gt;Zhli：/* 批试卷用到的 */&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;&lt;br /&gt;
== 课程安排 ==&lt;br /&gt;
* 老师: [http://web.suda.edu.cn/zhli13/ 李正华]&lt;br /&gt;
* 助教：周昊喆、郑书禾&lt;br /&gt;
* 计23计科1班，计23计科2班（大三上）&lt;br /&gt;
* 专业选修课&lt;br /&gt;
* 上课时间和地点&lt;br /&gt;
** 理论课：周一 3-4节 9:55-11:30 逸夫楼334  【1-17周】&lt;br /&gt;
** 实践课：周三 1-2节 8:00-9:35 理工楼243 【单周】&lt;br /&gt;
** 没上课的情况记录：&lt;br /&gt;
* 平时10%（考勤等）、实验成绩30%（实验报告、随堂考试）、期末60%（闭卷）&lt;br /&gt;
&lt;br /&gt;
== 注意事项 ==&lt;br /&gt;
* &amp;lt;span style=&amp;quot;color: #ff0000;&amp;quot;&amp;gt;上机课做学习无关的事情，发现则平时和实验成绩为0 &amp;lt;/span&amp;gt;&lt;br /&gt;
&lt;br /&gt;
== 自学资料 ==&lt;br /&gt;
&lt;br /&gt;
* [http://hlt.suda.edu.cn/index.php/Linux-video-notes 2018年春季上课视频和笔记]&lt;br /&gt;
* [http://hlt.suda.edu.cn/index.php/Linux-2024-spring 2024年上课板书]&lt;br /&gt;
&lt;br /&gt;
== 参考书 ==&lt;br /&gt;
&lt;br /&gt;
* Unix &amp;amp; Linux大学教程 哈恩(Harley Hahn) (作者), 张杰良 (译者) 【基础内容、讲得比较细；图书馆可以借】&lt;br /&gt;
&lt;br /&gt;
* 跟阿铭学Linux 李世明 人民邮电出版社 【难度适中，我们只学前半部分】&lt;br /&gt;
&lt;br /&gt;
* 鸟哥的Linux私房菜 基础学习篇(第三版)【我觉得讲得比较深，想深入学的同学可以考虑用】&lt;br /&gt;
&lt;br /&gt;
== 板书和笔记 ==&lt;br /&gt;
=== TODO ===&lt;br /&gt;
find &lt;br /&gt;
&lt;br /&gt;
top ps kill fg bg 等&lt;br /&gt;
&lt;br /&gt;
11.24  12.1/8/15/22【五次课】&lt;br /&gt;
&lt;br /&gt;
=== Lesson 15（2025.12.15；第16周）===&lt;br /&gt;
&amp;lt;gallery&amp;gt;&lt;br /&gt;
Linux-2025-fall-15-merged.jpg&lt;br /&gt;
&amp;lt;/gallery&amp;gt;&lt;br /&gt;
*find、xargs&lt;br /&gt;
*用户管理&lt;br /&gt;
*压缩、解压缩&lt;br /&gt;
*进程管理&lt;br /&gt;
*随机数生成&lt;br /&gt;
*所用到的指令：&lt;br /&gt;
 1996  find . -mmin -20&lt;br /&gt;
 1997  find . -mmin -20 -name '*.txt'&lt;br /&gt;
 1998  cat a.txt | ls&lt;br /&gt;
 2000  find . -name '*.txt'&lt;br /&gt;
 2002  find . -name '*.txt' | ls -l&lt;br /&gt;
 2003  find . -name '*.txt' -type f -size +5K | du -sh&lt;br /&gt;
 2007  find . -maxdepth 1 -name 'a*.txt'&lt;br /&gt;
 2008  find . -maxdepth 1 -name 'aa*.txt'&lt;br /&gt;
 2010  find . -maxdepth 1 -name 'aa*.txt' -exec ls -l '{}' \;&lt;br /&gt;
 2011  ls aaaa\ bbbb.txt &lt;br /&gt;
 2012  ls -l aaaa\ bbbb.txt &lt;br /&gt;
 2013  ls -l 'aaaa bbbb.txt' &lt;br /&gt;
 2014  find . -maxdepth 1 -name 'aa*.txt' -exec ls -l '{}' +&lt;br /&gt;
&lt;br /&gt;
=== Lesson 14（2025.12.08；第15周）===&lt;br /&gt;
&amp;lt;gallery&amp;gt;&lt;br /&gt;
Linux-2025-fall-14-merged.jpg&lt;br /&gt;
&amp;lt;/gallery&amp;gt;&lt;br /&gt;
*权限&lt;br /&gt;
*时间戳&lt;br /&gt;
*符号链接与硬链接&lt;br /&gt;
*所用到的指令：&lt;br /&gt;
 1998  ls -l a.txt&lt;br /&gt;
 1999  chomd 777 a.txt&lt;br /&gt;
 2000  chmod 777 a.txt&lt;br /&gt;
 2001  ls -l&lt;br /&gt;
 2002  ls -l a.txt&lt;br /&gt;
 2003  ls -l 664 a.txt&lt;br /&gt;
 2004  chmod 664 a.txt&lt;br /&gt;
 2005  ls -l a.txt&lt;br /&gt;
 2006  man umask&lt;br /&gt;
 2007  man 3 umask&lt;br /&gt;
 2008  vi aaa.txt&lt;br /&gt;
 2009  ls -l aaa.txt&lt;br /&gt;
 2010  man chown&lt;br /&gt;
 2011  ls -i /&lt;br /&gt;
 2012  ls -id /&lt;br /&gt;
 2013  stat a.txt&lt;br /&gt;
 2014  cat a.txt&lt;br /&gt;
 2015  stat a.txt&lt;br /&gt;
 2016  chmod o+x a.txt&lt;br /&gt;
 2017  ls -l a.txt&lt;br /&gt;
 2018  stat a.txt&lt;br /&gt;
 2019  echo &amp;quot;hi&amp;quot; &amp;gt; a.txt&lt;br /&gt;
 2020  stat a.txt&lt;br /&gt;
 2021  vi a.txt&lt;br /&gt;
 2022  stat a.txt&lt;br /&gt;
 2023  ls -l a.txt&lt;br /&gt;
 2024  chmod +x a.txt&lt;br /&gt;
 2025  ls -lu a.txt&lt;br /&gt;
 2026  ls -lc a.txt&lt;br /&gt;
 2027  cat a.txt&lt;br /&gt;
 2028  ls -lu a.txt&lt;br /&gt;
 2029  date&lt;br /&gt;
 2030  cat a.txt&lt;br /&gt;
 2031  ls -lu a.txt&lt;br /&gt;
 2032  ls -l a.txt&lt;br /&gt;
 2033  cat a.txt&lt;br /&gt;
 2034  ls -lu a.txt&lt;br /&gt;
 2035  stat&lt;br /&gt;
 2036  stat a.txt&lt;br /&gt;
 2037  cat a.txt&lt;br /&gt;
 2038  stat a.txt&lt;br /&gt;
 2039  less a.txt&lt;br /&gt;
 2040  stat a.txt&lt;br /&gt;
 2041  vi a.txt&lt;br /&gt;
 2042  stat a.txt&lt;br /&gt;
 2043  stat en.dev.autotagMIRA.conll.dep&lt;br /&gt;
 2044  head -n 2 en.dev.autotagMIRA.conll.dep&lt;br /&gt;
 2045  stat en.dev.autotagMIRA.conll.dep&lt;br /&gt;
 2046  ls -lu en.dev.autotagMIRA.conll.dep&lt;br /&gt;
 2047  ls -s xxx/a.txt sln_a.txt&lt;br /&gt;
 2048  ln -s xxx/a.txt sln_a.txt&lt;br /&gt;
 2049  rm sln_a.txt &lt;br /&gt;
 2050  ln -s xxx/a.txt sln_a.txt&lt;br /&gt;
 2051  ls -l sln_a.txt xxx/a.txt&lt;br /&gt;
 2052  ls -li sln_a.txt xxx/a.txt&lt;br /&gt;
 2053  ls&lt;br /&gt;
 2054  ls linux/&lt;br /&gt;
 2055  ln -s /home/zhli/linux/awk/ sln_awk &lt;br /&gt;
 2056* &lt;br /&gt;
 2057  ln -s /home/zhli/linux/awk/ sln_awk2 &lt;br /&gt;
 2058  ls -lid sln_a*&lt;br /&gt;
 2059  ulink sln_awk2/&lt;br /&gt;
 2060  rm sln_awk2&lt;br /&gt;
 2061  ls -lid sln_a*&lt;br /&gt;
 2062  vi sln_awk/test.txt &lt;br /&gt;
 2063  ls -lid sln_awk&lt;br /&gt;
 2064  ls -lid sln_awk/&lt;br /&gt;
 2065  ls -lid sln_awk linux/awk/&lt;br /&gt;
 2066  ls a*.txt&lt;br /&gt;
 2067  ls -l a*.txt&lt;br /&gt;
 2068  ls -li a*.txt&lt;br /&gt;
 2069  rm a_link.txt &lt;br /&gt;
 2070  rm a_bak.txt &lt;br /&gt;
 2071  ls -ltc&lt;br /&gt;
 2072  ls -li a.txt&lt;br /&gt;
 2073  ln a.txt a2.txt&lt;br /&gt;
 2074  ln a.txt a_hardlink.txt&lt;br /&gt;
 2075  ls -li a.txt a_hardlink.txt &lt;br /&gt;
 2076  ls -d linux&lt;br /&gt;
 2077  ls -dl linux&lt;br /&gt;
 2078  mkdir linux/new_dir&lt;br /&gt;
 2079  ls -dl linux&lt;br /&gt;
 2080  history&lt;br /&gt;
&lt;br /&gt;
=== Lesson 13（2025.12.01；第14周）===&lt;br /&gt;
&amp;lt;gallery&amp;gt;&lt;br /&gt;
Linux-2025-fall-13-merged_v1.jpg&lt;br /&gt;
&amp;lt;/gallery&amp;gt;&lt;br /&gt;
*机械硬盘，文件系统 inode，block，superblock&lt;br /&gt;
*挂载 mount&lt;br /&gt;
&lt;br /&gt;
=== Lesson 12（2025.11.24；第13周）【随堂考试 3 道题】===&lt;br /&gt;
&amp;lt;gallery&amp;gt;&lt;br /&gt;
文件:Linux-2025-fall-12-merged.jpg&lt;br /&gt;
&amp;lt;/gallery&amp;gt;&lt;br /&gt;
&lt;br /&gt;
*shell编程（循环，函数，命令行参数）&lt;br /&gt;
*所用到的指令&lt;br /&gt;
&lt;br /&gt;
 1997  for x in `ls`; do echo $x; done&lt;br /&gt;
 1998  a=(Ab Cd 12 34)&lt;br /&gt;
 1999  for x in a; do echo $x; done&lt;br /&gt;
 2000  for x in (Ab Cd 12 34)&lt;br /&gt;
 2001  echo ${a[@]}&lt;br /&gt;
 2002  for x in ${a[@]}; do echo $x; done&lt;br /&gt;
 2004  find . -name '*func*'&lt;br /&gt;
 2005  cp func-202405.sh func-202511.sh &lt;br /&gt;
 2006  vi func-202&lt;br /&gt;
 2007  vi func-202511.sh &lt;br /&gt;
 2008  cat func-202511.sh &lt;br /&gt;
 2009  bash func-202511.sh&lt;br /&gt;
&lt;br /&gt;
=== Lesson 11（2025.11.17；第12周）===&lt;br /&gt;
&amp;lt;gallery&amp;gt;&lt;br /&gt;
Linux-2025-fall-11-merged_all.jpg&lt;br /&gt;
&amp;lt;/gallery&amp;gt;&lt;br /&gt;
&lt;br /&gt;
*shell编程，变量，环境变量&lt;br /&gt;
*test命令&lt;br /&gt;
*变量运算&lt;br /&gt;
*所用到的指令&lt;br /&gt;
&lt;br /&gt;
 1993  x=5&lt;br /&gt;
 1994  y = 3&lt;br /&gt;
 1995  y=3&lt;br /&gt;
 1996  echo $x+$y&lt;br /&gt;
 1997  echo ${x3}&lt;br /&gt;
 1998  echo $x3&lt;br /&gt;
 1999  echo $x35&lt;br /&gt;
 2000  echo $x_3&lt;br /&gt;
 2001  echo $x10&lt;br /&gt;
 2002  echo ${x1}0&lt;br /&gt;
 2003  echo $(($x+$y))&lt;br /&gt;
 2004  man let&lt;br /&gt;
 2005  help let&lt;br /&gt;
 2006  let z=x+y&lt;br /&gt;
 2007  echo $z&lt;br /&gt;
 2008  a=(Ab Cd 12 34)&lt;br /&gt;
 2009  echo $a&lt;br /&gt;
 2010  echo ${a[0]}&lt;br /&gt;
 2011  echo ${a[1]}&lt;br /&gt;
 2012  echo ${#a[@]}&lt;br /&gt;
 2013  bash&lt;br /&gt;
 2014  echo $x&lt;br /&gt;
 2015  export x&lt;br /&gt;
 2016  echo $x&lt;br /&gt;
 2017  bash&lt;br /&gt;
 2018  echo $x&lt;br /&gt;
 2019  bash&lt;br /&gt;
 2020  test 9 -gt 7&lt;br /&gt;
 2021  echo $?&lt;br /&gt;
 2022  test 9 -gt 19&lt;br /&gt;
 2023  echo $?&lt;br /&gt;
 2024  [ 9 -gt 19 ]&lt;br /&gt;
 2025  echo $?&lt;br /&gt;
 2026  [ -z $x ]&lt;br /&gt;
 2027  echo $?&lt;br /&gt;
 2028  echo $x&lt;br /&gt;
 2029  [ -z x ]&lt;br /&gt;
 2030  echo $?&lt;br /&gt;
 2031  [ -z '' ]&lt;br /&gt;
 2032  echo $?&lt;br /&gt;
 2033  [ 9 -gt 7 -a 9 -gt 19 ]&lt;br /&gt;
 2034  echo $?&lt;br /&gt;
 2035  [ 9 -gt 7 ] &amp;amp;&amp;amp; [ 9 -gt 19 ]&lt;br /&gt;
 2036  echo $?&lt;br /&gt;
 2037  help test&lt;br /&gt;
 2038  w&lt;br /&gt;
 2039  x=`ls /bin`&lt;br /&gt;
 2040  echo $x&lt;br /&gt;
 2041  y=$(ls /bin)&lt;br /&gt;
 2042  echo $y&lt;br /&gt;
 2043  echo ${#x}&lt;br /&gt;
 2044  read -p 'xxx: ' x&lt;br /&gt;
 2045  echo $x&lt;br /&gt;
 2046  read -p 'xxx: ' x&lt;br /&gt;
 2047  echo $x&lt;br /&gt;
 2048  help read&lt;br /&gt;
 2049  read x y&lt;br /&gt;
 2050  echo $x $y&lt;br /&gt;
 2051  echo $x&lt;br /&gt;
 2052  echo $y&lt;br /&gt;
&lt;br /&gt;
=== Lesson 10（2025.11.10；第11周）===&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
&amp;lt;gallery&amp;gt;&lt;br /&gt;
Linux-2025-fall-10-merged.jpg&lt;br /&gt;
&amp;lt;/gallery&amp;gt;&lt;br /&gt;
&lt;br /&gt;
*sed命令&lt;br /&gt;
*awk命令&lt;br /&gt;
* 所使用到的命令&lt;br /&gt;
 1992  egrep 'hello' a.txt &lt;br /&gt;
 1993  egrep -n 'hello' a.txt &lt;br /&gt;
 1994  egrep -no 'hello' a.txt &lt;br /&gt;
 1995  egrep 'hello'&lt;br /&gt;
 1996  egrep '\w\w\w' &lt;br /&gt;
 1997  egrep '[[:punct:]]' &lt;br /&gt;
 1998  egrep '[[:digit:]]' &lt;br /&gt;
 1999  egrep '[a-z]*'&lt;br /&gt;
 2000  egrep '[a-z]{3}'&lt;br /&gt;
 2001  man egrep&lt;br /&gt;
 2002  egrep '(abc)|(ABC)' &lt;br /&gt;
 2003  egrep '^[0-9]{3}'&lt;br /&gt;
 2004  egrep '^.....$'&lt;br /&gt;
 2005  ls (a|b).txt&lt;br /&gt;
 2006  ls a|b.txt&lt;br /&gt;
 2007  egrep '[a-z]{3}\1' &lt;br /&gt;
 2008  egrep '([a-z]{3})\1' &lt;br /&gt;
 2009  tr 'a-z' 'A-Z'&lt;br /&gt;
 2010  tr 'za-y' 'A-Z'&lt;br /&gt;
 2011  man tr&lt;br /&gt;
 2012  tr -d 'a-z' &lt;br /&gt;
 2013  tr -s 'a-z'&lt;br /&gt;
 2014  tr -s -C 'a-z'&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
测试样例如下：&lt;br /&gt;
&amp;lt;gallery&amp;gt;&lt;br /&gt;
Linux-2025-fall-10-test.png&lt;br /&gt;
&amp;lt;/gallery&amp;gt;&lt;br /&gt;
&lt;br /&gt;
awk常用内置函数：&lt;br /&gt;
&amp;lt;gallery&amp;gt;&lt;br /&gt;
Linux-2025-fall-10-awk.jpg&lt;br /&gt;
&amp;lt;/gallery&amp;gt;&lt;br /&gt;
&lt;br /&gt;
=== Lesson 9（2025.11.3；第10周）===&lt;br /&gt;
&amp;lt;gallery&amp;gt;&lt;br /&gt;
Linux-2025-fall-9-merged.jpg&lt;br /&gt;
&amp;lt;/gallery&amp;gt;&lt;br /&gt;
*正则表达式&lt;br /&gt;
*tr命令&lt;br /&gt;
* 所使用到的命令&lt;br /&gt;
 1992  egrep 'hello' a.txt &lt;br /&gt;
 1993  egrep -n 'hello' a.txt &lt;br /&gt;
 1994  egrep -no 'hello' a.txt &lt;br /&gt;
 1995  egrep 'hello'&lt;br /&gt;
 1996  egrep '\w\w\w' &lt;br /&gt;
 1997  egrep '[[:punct:]]' &lt;br /&gt;
 1998  egrep '[[:digit:]]' &lt;br /&gt;
 1999  egrep '[a-z]*'&lt;br /&gt;
 2000  egrep '[a-z]{3}'&lt;br /&gt;
 2001  man egrep&lt;br /&gt;
 2002  egrep '(abc)|(ABC)' &lt;br /&gt;
 2003  egrep '^[0-9]{3}'&lt;br /&gt;
 2004  egrep '^.....$'&lt;br /&gt;
 2005  ls (a|b).txt&lt;br /&gt;
 2006  ls a|b.txt&lt;br /&gt;
 2007  egrep '[a-z]{3}\1' &lt;br /&gt;
 2008  egrep '([a-z]{3})\1' &lt;br /&gt;
 2009  tr 'a-z' 'A-Z'&lt;br /&gt;
 2010  tr 'za-y' 'A-Z'&lt;br /&gt;
 2011  man tr&lt;br /&gt;
 2012  tr -d 'a-z' &lt;br /&gt;
 2013  tr -s 'a-z'&lt;br /&gt;
 2014  tr -s -C 'a-z'&lt;br /&gt;
&lt;br /&gt;
* 命令演示截图&lt;br /&gt;
&amp;lt;gallery&amp;gt;&lt;br /&gt;
Linux-2025-fall-9-(2)-merged.jpg&lt;br /&gt;
&amp;lt;/gallery&amp;gt;&lt;br /&gt;
&lt;br /&gt;
=== Lesson 8（2025.10.27；第9周）===&lt;br /&gt;
&amp;lt;gallery&amp;gt;&lt;br /&gt;
Linux-2025-fall-8-merged-.jpg&lt;br /&gt;
&amp;lt;/gallery&amp;gt;&lt;br /&gt;
*重定向输入，重定向输出&lt;br /&gt;
*前台运行程序与后台运行程序&lt;br /&gt;
*Linux哲学&lt;br /&gt;
*管道的应用，以及sort，uniq，wc，egrep命令等。&lt;br /&gt;
* 所使用到的命令&lt;br /&gt;
 1990  ls &amp;gt; a.txt&lt;br /&gt;
 1991  vi a.txt &lt;br /&gt;
 1992  ls /root &amp;gt; a.txt&lt;br /&gt;
 1993  vi a.txt&lt;br /&gt;
 1994  help fg&lt;br /&gt;
 1995  vi a.txt&lt;br /&gt;
 1996  less a.txt &lt;br /&gt;
 1997  bg&lt;br /&gt;
 1998  jobs&lt;br /&gt;
 1999  fg 1&lt;br /&gt;
 2000  cat &lt;br /&gt;
 2001  vi a.txt &lt;br /&gt;
 2002  cat a.txt &lt;br /&gt;
 2003  cat &amp;lt; a.txt&lt;br /&gt;
 2004  find . -name 'words'&lt;br /&gt;
 2005  vi words&lt;br /&gt;
 2006  find . -name 'name'&lt;br /&gt;
 2007  find . -name '*name*'&lt;br /&gt;
 2008  vi names&lt;br /&gt;
 2009  mv names names.txt&lt;br /&gt;
 2010  cat names &lt;br /&gt;
 2011  cat names.txt &lt;br /&gt;
 2012  cat names.txt | sort &lt;br /&gt;
 2013  cat names.txt | sort | uniq&lt;br /&gt;
 2014  cat names.txt | sort | uniq -c&lt;br /&gt;
 2015  cat names.txt | sort | uniq -c | sort -n -k 1&lt;br /&gt;
 2016  cat names.txt | sort | uniq -c | sort -rn -k 1&lt;br /&gt;
 2017  vi names.txt &lt;br /&gt;
 2018  cat names.txt | sort | uniq -c | sort -rn -k 1&lt;br /&gt;
 2019  man sort&lt;br /&gt;
 2020  vi names.txt &lt;br /&gt;
 2021  cat names.txt | tee names2.txt | sort&lt;br /&gt;
 2022  vi names2.txt &lt;br /&gt;
 2023  man tee&lt;br /&gt;
 2024  sort a.txt&lt;br /&gt;
 2025  sort names.txt &lt;br /&gt;
 2026  sort names.txt | uniq &lt;br /&gt;
 2027  sort names.txt | uniq | wc&lt;br /&gt;
 2028  sort names.txt | uniq | wc -l&lt;br /&gt;
 2029  sort -u names.txt&lt;br /&gt;
 2030  man egrep&lt;br /&gt;
 2031  egrep '.....' words | less&lt;br /&gt;
 2032  egrep '^.....$' words | less&lt;br /&gt;
 2033  egrep -n '^.....$' words | less&lt;br /&gt;
 2034  egrep 'wat' words&lt;br /&gt;
 2035  egrep -o 'wat' words&lt;br /&gt;
 2036  find /etc/ -name '*words*'&lt;br /&gt;
&lt;br /&gt;
* 管道测试样例&lt;br /&gt;
Zhenghua&amp;lt;br&amp;gt;&lt;br /&gt;
Zhenghua&amp;lt;br&amp;gt;&lt;br /&gt;
Zhangsan&amp;lt;br&amp;gt;&lt;br /&gt;
Lisi&amp;lt;br&amp;gt;&lt;br /&gt;
Lily&amp;lt;br&amp;gt;&lt;br /&gt;
Zhenghua&amp;lt;br&amp;gt;&lt;br /&gt;
Zhenghua&amp;lt;br&amp;gt;&lt;br /&gt;
Lisi&amp;lt;br&amp;gt;&lt;br /&gt;
Zhangsan&amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
=== Lesson 7（2025.10.20；第8周）【随堂考试 4 道题】===&lt;br /&gt;
&amp;lt;gallery&amp;gt;&lt;br /&gt;
Linux-2025-fall-7-merged.jpg&lt;br /&gt;
&amp;lt;/gallery&amp;gt;&lt;br /&gt;
*复习vi&lt;br /&gt;
*通配符的概念，使用方法&lt;br /&gt;
*重定向输入&lt;br /&gt;
&lt;br /&gt;
=== Lesson 6（2025.10.13；第7周）===&lt;br /&gt;
&amp;lt;gallery&amp;gt;&lt;br /&gt;
Linux-2025-fall-6-merged.jpg&lt;br /&gt;
&amp;lt;/gallery&amp;gt;&lt;br /&gt;
*普通（命令）模式下，移动光标，删除，复制粘贴，替换，撤销等操作&lt;br /&gt;
&lt;br /&gt;
=== Lesson 5（2025.9.29；第5周）===&lt;br /&gt;
&amp;lt;gallery&amp;gt;&lt;br /&gt;
Linux-2025-fall-5-merged.jpg&lt;br /&gt;
&amp;lt;/gallery&amp;gt;&lt;br /&gt;
*cp，mkdir, mv, rm等命令的使用&lt;br /&gt;
*内部命令与外部命令的区别&lt;br /&gt;
*vi的介绍。&lt;br /&gt;
* 所使用到的命令&lt;br /&gt;
 1990  type rm mkdir ls cd pwd&lt;br /&gt;
 1991  alias lm='ls -la --color=never'&lt;br /&gt;
 1992  lm &lt;br /&gt;
 1993  ls -la&lt;br /&gt;
 1994  echo $PATH&lt;br /&gt;
&lt;br /&gt;
=== Lesson 4（2025.9.22；第4周）【随堂考试 3 道题】===&lt;br /&gt;
&lt;br /&gt;
&amp;lt;gallery&amp;gt;&lt;br /&gt;
Linux-2025-fall-4-merged.jpg&lt;br /&gt;
&amp;lt;/gallery&amp;gt;&lt;br /&gt;
*shell使用技巧（快捷键进行检索，终止进程等）&lt;br /&gt;
*文件查看（cat，head，tail，less，hexdump命令等）&lt;br /&gt;
*文件操作（cp命令）&lt;br /&gt;
* 所使用到的命令&lt;br /&gt;
 1991  history &lt;br /&gt;
 1992  history | egrep 'man'&lt;br /&gt;
 1993  man printf&lt;br /&gt;
 1994  man ls&lt;br /&gt;
 1995  ls&lt;br /&gt;
 1996* &lt;br /&gt;
 1997  history | egrep 'man'&lt;br /&gt;
 1998  less en.dev.autotagMIRA.conll.dep&lt;br /&gt;
 1999  man hexdump &lt;br /&gt;
 2000  hexdump -c en.dev.autotagMIRA.conll.dep&lt;br /&gt;
 2001  hexdump -c en.dev.autotagMIRA.conll.dep | less&lt;br /&gt;
 2002  hexdump en.dev.autotagMIRA.conll.dep | less&lt;br /&gt;
 2003  hexdump -c en.dev.autotagMIRA.conll.dep | less&lt;br /&gt;
 2004  man cp&lt;br /&gt;
&lt;br /&gt;
=== Lesson 3（2025.9.15；第3周）===&lt;br /&gt;
&amp;lt;gallery&amp;gt;&lt;br /&gt;
Linux-2025-fall-3-merged.jpg&lt;br /&gt;
&amp;lt;/gallery&amp;gt;&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
*man ls的使用方法&lt;br /&gt;
*man man（man的基本使用）&lt;br /&gt;
* 所使用到的命令&lt;br /&gt;
  1991  ls&lt;br /&gt;
  1992  ls /&lt;br /&gt;
  1993  whereis ls&lt;br /&gt;
  1994  vi /etc[防ban去掉]/hosts&lt;br /&gt;
  1995  cd xxx&lt;br /&gt;
  1996  ls -a&lt;br /&gt;
  1997  cd .&lt;br /&gt;
  1998  cd ..&lt;br /&gt;
  1999  man ls&lt;br /&gt;
  2000  ls&lt;br /&gt;
  2001  ls --color=never&lt;br /&gt;
  2002  man ls&lt;br /&gt;
  2003  ls Documents&lt;br /&gt;
  2004  ls -d Documents&lt;br /&gt;
  2005  ls -ld Documents&lt;br /&gt;
  2006  pwd&lt;br /&gt;
  2007  ls -l&lt;br /&gt;
  2008  ls -lh&lt;br /&gt;
  2009  ls -lS&lt;br /&gt;
  2010  ls -ltc | less&lt;br /&gt;
  2011  ls -lta | less&lt;br /&gt;
  2012  ls -lt | less&lt;br /&gt;
  2013  man ls&lt;br /&gt;
  2014  man man&lt;br /&gt;
  2015  man printf&lt;br /&gt;
  2016  man 3 printf&lt;br /&gt;
  2017  printf '%30d%20.3f' 232 2.2323232&lt;br /&gt;
  2018  printf '%30d%20.3f\n' 232 2.2323232 &lt;br /&gt;
  2019  printf '%-30d%-20.3f\n' 232 2.2323232 &lt;br /&gt;
  2020  man -k print&lt;br /&gt;
  2021  man -k print[efgh]&lt;br /&gt;
  2022  man -k print[e][r]&lt;br /&gt;
&lt;br /&gt;
=== Lesson 2（2025.9.8；第2周）===&lt;br /&gt;
&amp;lt;gallery&amp;gt;&lt;br /&gt;
文件:Linux-2025-fall-2-merged.jpg&lt;br /&gt;
&amp;lt;/gallery&amp;gt;&lt;br /&gt;
* shell基本使用、shell的概念、父shell、子shell&lt;br /&gt;
* 命令语法、ls命令&lt;br /&gt;
* 命令行参数、python中sys.argv&lt;br /&gt;
* 所使用到的命令&lt;br /&gt;
 1988  ps afx | egrep bash&lt;br /&gt;
 1989  echo $$&lt;br /&gt;
 1990  exit&lt;br /&gt;
 1991  ls&lt;br /&gt;
 1992  ps afx | egrep bash&lt;br /&gt;
 1993  bc&lt;br /&gt;
 1994  sudo su&lt;br /&gt;
 1995  ls&lt;br /&gt;
 1996  ls -l&lt;br /&gt;
 1997  ls -a&lt;br /&gt;
 1998  ls --all&lt;br /&gt;
 1999  ls -la&lt;br /&gt;
 2000  ls Downloads/ Documents xxx&lt;br /&gt;
&lt;br /&gt;
=== Lesson 1（2025.9.1；第1周） ===&lt;br /&gt;
&lt;br /&gt;
&amp;lt;gallery&amp;gt;&lt;br /&gt;
Linux-2025-fall-1-merged.jpg&lt;br /&gt;
&amp;lt;/gallery&amp;gt;&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
* 课程介绍、个人介绍&lt;br /&gt;
* Linux安装&lt;br /&gt;
* 图形界面、文字界面&lt;br /&gt;
* 所使用到的命令&lt;br /&gt;
 1987  uname -a&lt;br /&gt;
 1988  ps afx | egrep gnome&lt;br /&gt;
 1989  init 3&lt;br /&gt;
 1990  sudo init 3&lt;br /&gt;
 1991  w&lt;br /&gt;
 1992  who&lt;br /&gt;
 1993  man who&lt;br /&gt;
 1994  w&lt;br /&gt;
 1995  who&lt;br /&gt;
 1996  vi a.txt&lt;br /&gt;
 1997  bash&lt;/div&gt;</summary>
		<author><name>Zhli</name></author>
	</entry>
	<entry>
		<id>http://hlt.suda.edu.cn/index.php?title=Linux-2025-fall&amp;diff=6165</id>
		<title>Linux-2025-fall</title>
		<link rel="alternate" type="text/html" href="http://hlt.suda.edu.cn/index.php?title=Linux-2025-fall&amp;diff=6165"/>
		<updated>2026-01-12T05:02:38Z</updated>

		<summary type="html">&lt;p&gt;Zhli：/* 批试卷用到的 */&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;&lt;br /&gt;
== 课程安排 ==&lt;br /&gt;
* 老师: [http://web.suda.edu.cn/zhli13/ 李正华]&lt;br /&gt;
* 助教：周昊喆、郑书禾&lt;br /&gt;
* 计23计科1班，计23计科2班（大三上）&lt;br /&gt;
* 专业选修课&lt;br /&gt;
* 上课时间和地点&lt;br /&gt;
** 理论课：周一 3-4节 9:55-11:30 逸夫楼334  【1-17周】&lt;br /&gt;
** 实践课：周三 1-2节 8:00-9:35 理工楼243 【单周】&lt;br /&gt;
** 没上课的情况记录：&lt;br /&gt;
* 平时10%（考勤等）、实验成绩30%（实验报告、随堂考试）、期末60%（闭卷）&lt;br /&gt;
&lt;br /&gt;
== 注意事项 ==&lt;br /&gt;
* &amp;lt;span style=&amp;quot;color: #ff0000;&amp;quot;&amp;gt;上机课做学习无关的事情，发现则平时和实验成绩为0 &amp;lt;/span&amp;gt;&lt;br /&gt;
&lt;br /&gt;
== 自学资料 ==&lt;br /&gt;
&lt;br /&gt;
* [http://hlt.suda.edu.cn/index.php/Linux-video-notes 2018年春季上课视频和笔记]&lt;br /&gt;
* [http://hlt.suda.edu.cn/index.php/Linux-2024-spring 2024年上课板书]&lt;br /&gt;
&lt;br /&gt;
== 参考书 ==&lt;br /&gt;
&lt;br /&gt;
* Unix &amp;amp; Linux大学教程 哈恩(Harley Hahn) (作者), 张杰良 (译者) 【基础内容、讲得比较细；图书馆可以借】&lt;br /&gt;
&lt;br /&gt;
* 跟阿铭学Linux 李世明 人民邮电出版社 【难度适中，我们只学前半部分】&lt;br /&gt;
&lt;br /&gt;
* 鸟哥的Linux私房菜 基础学习篇(第三版)【我觉得讲得比较深，想深入学的同学可以考虑用】&lt;br /&gt;
&lt;br /&gt;
== 批试卷用到的 ==&lt;br /&gt;
&lt;br /&gt;
 &amp;lt;nowiki&amp;gt;&lt;br /&gt;
&lt;br /&gt;
awk 'BEGIN {FS=&amp;quot;,&amp;quot;;OFS=&amp;quot;#&amp;quot;}; {print $1, $2}' a.txt&lt;br /&gt;
&lt;br /&gt;
awk -F',' 'BEGIN {OFS=&amp;quot;#&amp;quot;}; {print $1, $2}' a.txt&lt;br /&gt;
&lt;br /&gt;
b=($(cat a.txt)) 【外面的()必须有，否则 b 就不是一个数组了。而是一个字符串了】&lt;br /&gt;
&lt;br /&gt;
a=($(echo 'a b')) 【a 是一个数组了】&lt;br /&gt;
&lt;br /&gt;
sed 's/a/A/g' &amp;lt;&amp;lt;&amp;lt; 'aaa'  字符串的重定向，很有用，应该讲！&lt;br /&gt;
&lt;br /&gt;
a=($(sed 's/,/ /g' &amp;lt;&amp;lt;&amp;lt; 'a,b')) 【a 是数组了】&lt;br /&gt;
&lt;br /&gt;
while read name; do echo $name; done &amp;lt; a.txt  【read 和重定向的配合】&lt;br /&gt;
&lt;br /&gt;
while read -d ',' name; do echo $name; done &amp;lt; a.txt 【-d 是 delimiter，默认是换行符，没遇到一个 delimiter，就会返回一个，最后一个元素后面必须有 delimiter】&lt;br /&gt;
a.txt: a,b,c,&lt;br /&gt;
&lt;br /&gt;
read -a arr &amp;lt;&amp;lt;&amp;lt; 'a b c'  【读入数组，arr 会包含三个元素，默认空白符为分隔符】&lt;br /&gt;
&lt;br /&gt;
awk 中变量直接写，不用取值符，如 print x, y, z&lt;br /&gt;
&lt;br /&gt;
awk -F'\n\r' '{print NF}' a.txt  【每一行一个记录，每个记录只有一个 field，因此会输出多个 1，一行对应一个】&lt;br /&gt;
&lt;br /&gt;
IFS=',' read -a arr &amp;lt;&amp;lt;&amp;lt; $x  【默认是空格，IFS 可以改】【不会跨行的】&lt;br /&gt;
IFS='\n' read -a arr &amp;lt; a.txt 【不会跨行的，只会处理第一行？？】&lt;br /&gt;
&lt;br /&gt;
read x y z &amp;lt;&amp;lt;&amp;lt; '1 2 3' 【第三个变量】&lt;br /&gt;
&lt;br /&gt;
read -a arr &amp;lt; a.txt 【只处理第一行】&lt;br /&gt;
IFS=','&lt;br /&gt;
while read -a arr; do echo ${arr[1]}; done &amp;lt; a.txt 【每一行输出一次】&lt;br /&gt;
&lt;br /&gt;
arr+=(3) 【数组增加一个元素】&lt;br /&gt;
&lt;br /&gt;
&amp;lt;/nowiki&amp;gt;&lt;br /&gt;
&lt;br /&gt;
== 板书和笔记 ==&lt;br /&gt;
=== TODO ===&lt;br /&gt;
find &lt;br /&gt;
&lt;br /&gt;
top ps kill fg bg 等&lt;br /&gt;
&lt;br /&gt;
11.24  12.1/8/15/22【五次课】&lt;br /&gt;
&lt;br /&gt;
=== Lesson 15（2025.12.15；第16周）===&lt;br /&gt;
&amp;lt;gallery&amp;gt;&lt;br /&gt;
Linux-2025-fall-15-merged.jpg&lt;br /&gt;
&amp;lt;/gallery&amp;gt;&lt;br /&gt;
*find、xargs&lt;br /&gt;
*用户管理&lt;br /&gt;
*压缩、解压缩&lt;br /&gt;
*进程管理&lt;br /&gt;
*随机数生成&lt;br /&gt;
*所用到的指令：&lt;br /&gt;
 1996  find . -mmin -20&lt;br /&gt;
 1997  find . -mmin -20 -name '*.txt'&lt;br /&gt;
 1998  cat a.txt | ls&lt;br /&gt;
 2000  find . -name '*.txt'&lt;br /&gt;
 2002  find . -name '*.txt' | ls -l&lt;br /&gt;
 2003  find . -name '*.txt' -type f -size +5K | du -sh&lt;br /&gt;
 2007  find . -maxdepth 1 -name 'a*.txt'&lt;br /&gt;
 2008  find . -maxdepth 1 -name 'aa*.txt'&lt;br /&gt;
 2010  find . -maxdepth 1 -name 'aa*.txt' -exec ls -l '{}' \;&lt;br /&gt;
 2011  ls aaaa\ bbbb.txt &lt;br /&gt;
 2012  ls -l aaaa\ bbbb.txt &lt;br /&gt;
 2013  ls -l 'aaaa bbbb.txt' &lt;br /&gt;
 2014  find . -maxdepth 1 -name 'aa*.txt' -exec ls -l '{}' +&lt;br /&gt;
&lt;br /&gt;
=== Lesson 14（2025.12.08；第15周）===&lt;br /&gt;
&amp;lt;gallery&amp;gt;&lt;br /&gt;
Linux-2025-fall-14-merged.jpg&lt;br /&gt;
&amp;lt;/gallery&amp;gt;&lt;br /&gt;
*权限&lt;br /&gt;
*时间戳&lt;br /&gt;
*符号链接与硬链接&lt;br /&gt;
*所用到的指令：&lt;br /&gt;
 1998  ls -l a.txt&lt;br /&gt;
 1999  chomd 777 a.txt&lt;br /&gt;
 2000  chmod 777 a.txt&lt;br /&gt;
 2001  ls -l&lt;br /&gt;
 2002  ls -l a.txt&lt;br /&gt;
 2003  ls -l 664 a.txt&lt;br /&gt;
 2004  chmod 664 a.txt&lt;br /&gt;
 2005  ls -l a.txt&lt;br /&gt;
 2006  man umask&lt;br /&gt;
 2007  man 3 umask&lt;br /&gt;
 2008  vi aaa.txt&lt;br /&gt;
 2009  ls -l aaa.txt&lt;br /&gt;
 2010  man chown&lt;br /&gt;
 2011  ls -i /&lt;br /&gt;
 2012  ls -id /&lt;br /&gt;
 2013  stat a.txt&lt;br /&gt;
 2014  cat a.txt&lt;br /&gt;
 2015  stat a.txt&lt;br /&gt;
 2016  chmod o+x a.txt&lt;br /&gt;
 2017  ls -l a.txt&lt;br /&gt;
 2018  stat a.txt&lt;br /&gt;
 2019  echo &amp;quot;hi&amp;quot; &amp;gt; a.txt&lt;br /&gt;
 2020  stat a.txt&lt;br /&gt;
 2021  vi a.txt&lt;br /&gt;
 2022  stat a.txt&lt;br /&gt;
 2023  ls -l a.txt&lt;br /&gt;
 2024  chmod +x a.txt&lt;br /&gt;
 2025  ls -lu a.txt&lt;br /&gt;
 2026  ls -lc a.txt&lt;br /&gt;
 2027  cat a.txt&lt;br /&gt;
 2028  ls -lu a.txt&lt;br /&gt;
 2029  date&lt;br /&gt;
 2030  cat a.txt&lt;br /&gt;
 2031  ls -lu a.txt&lt;br /&gt;
 2032  ls -l a.txt&lt;br /&gt;
 2033  cat a.txt&lt;br /&gt;
 2034  ls -lu a.txt&lt;br /&gt;
 2035  stat&lt;br /&gt;
 2036  stat a.txt&lt;br /&gt;
 2037  cat a.txt&lt;br /&gt;
 2038  stat a.txt&lt;br /&gt;
 2039  less a.txt&lt;br /&gt;
 2040  stat a.txt&lt;br /&gt;
 2041  vi a.txt&lt;br /&gt;
 2042  stat a.txt&lt;br /&gt;
 2043  stat en.dev.autotagMIRA.conll.dep&lt;br /&gt;
 2044  head -n 2 en.dev.autotagMIRA.conll.dep&lt;br /&gt;
 2045  stat en.dev.autotagMIRA.conll.dep&lt;br /&gt;
 2046  ls -lu en.dev.autotagMIRA.conll.dep&lt;br /&gt;
 2047  ls -s xxx/a.txt sln_a.txt&lt;br /&gt;
 2048  ln -s xxx/a.txt sln_a.txt&lt;br /&gt;
 2049  rm sln_a.txt &lt;br /&gt;
 2050  ln -s xxx/a.txt sln_a.txt&lt;br /&gt;
 2051  ls -l sln_a.txt xxx/a.txt&lt;br /&gt;
 2052  ls -li sln_a.txt xxx/a.txt&lt;br /&gt;
 2053  ls&lt;br /&gt;
 2054  ls linux/&lt;br /&gt;
 2055  ln -s /home/zhli/linux/awk/ sln_awk &lt;br /&gt;
 2056* &lt;br /&gt;
 2057  ln -s /home/zhli/linux/awk/ sln_awk2 &lt;br /&gt;
 2058  ls -lid sln_a*&lt;br /&gt;
 2059  ulink sln_awk2/&lt;br /&gt;
 2060  rm sln_awk2&lt;br /&gt;
 2061  ls -lid sln_a*&lt;br /&gt;
 2062  vi sln_awk/test.txt &lt;br /&gt;
 2063  ls -lid sln_awk&lt;br /&gt;
 2064  ls -lid sln_awk/&lt;br /&gt;
 2065  ls -lid sln_awk linux/awk/&lt;br /&gt;
 2066  ls a*.txt&lt;br /&gt;
 2067  ls -l a*.txt&lt;br /&gt;
 2068  ls -li a*.txt&lt;br /&gt;
 2069  rm a_link.txt &lt;br /&gt;
 2070  rm a_bak.txt &lt;br /&gt;
 2071  ls -ltc&lt;br /&gt;
 2072  ls -li a.txt&lt;br /&gt;
 2073  ln a.txt a2.txt&lt;br /&gt;
 2074  ln a.txt a_hardlink.txt&lt;br /&gt;
 2075  ls -li a.txt a_hardlink.txt &lt;br /&gt;
 2076  ls -d linux&lt;br /&gt;
 2077  ls -dl linux&lt;br /&gt;
 2078  mkdir linux/new_dir&lt;br /&gt;
 2079  ls -dl linux&lt;br /&gt;
 2080  history&lt;br /&gt;
&lt;br /&gt;
=== Lesson 13（2025.12.01；第14周）===&lt;br /&gt;
&amp;lt;gallery&amp;gt;&lt;br /&gt;
Linux-2025-fall-13-merged_v1.jpg&lt;br /&gt;
&amp;lt;/gallery&amp;gt;&lt;br /&gt;
*机械硬盘，文件系统 inode，block，superblock&lt;br /&gt;
*挂载 mount&lt;br /&gt;
&lt;br /&gt;
=== Lesson 12（2025.11.24；第13周）【随堂考试 3 道题】===&lt;br /&gt;
&amp;lt;gallery&amp;gt;&lt;br /&gt;
文件:Linux-2025-fall-12-merged.jpg&lt;br /&gt;
&amp;lt;/gallery&amp;gt;&lt;br /&gt;
&lt;br /&gt;
*shell编程（循环，函数，命令行参数）&lt;br /&gt;
*所用到的指令&lt;br /&gt;
&lt;br /&gt;
 1997  for x in `ls`; do echo $x; done&lt;br /&gt;
 1998  a=(Ab Cd 12 34)&lt;br /&gt;
 1999  for x in a; do echo $x; done&lt;br /&gt;
 2000  for x in (Ab Cd 12 34)&lt;br /&gt;
 2001  echo ${a[@]}&lt;br /&gt;
 2002  for x in ${a[@]}; do echo $x; done&lt;br /&gt;
 2004  find . -name '*func*'&lt;br /&gt;
 2005  cp func-202405.sh func-202511.sh &lt;br /&gt;
 2006  vi func-202&lt;br /&gt;
 2007  vi func-202511.sh &lt;br /&gt;
 2008  cat func-202511.sh &lt;br /&gt;
 2009  bash func-202511.sh&lt;br /&gt;
&lt;br /&gt;
=== Lesson 11（2025.11.17；第12周）===&lt;br /&gt;
&amp;lt;gallery&amp;gt;&lt;br /&gt;
Linux-2025-fall-11-merged_all.jpg&lt;br /&gt;
&amp;lt;/gallery&amp;gt;&lt;br /&gt;
&lt;br /&gt;
*shell编程，变量，环境变量&lt;br /&gt;
*test命令&lt;br /&gt;
*变量运算&lt;br /&gt;
*所用到的指令&lt;br /&gt;
&lt;br /&gt;
 1993  x=5&lt;br /&gt;
 1994  y = 3&lt;br /&gt;
 1995  y=3&lt;br /&gt;
 1996  echo $x+$y&lt;br /&gt;
 1997  echo ${x3}&lt;br /&gt;
 1998  echo $x3&lt;br /&gt;
 1999  echo $x35&lt;br /&gt;
 2000  echo $x_3&lt;br /&gt;
 2001  echo $x10&lt;br /&gt;
 2002  echo ${x1}0&lt;br /&gt;
 2003  echo $(($x+$y))&lt;br /&gt;
 2004  man let&lt;br /&gt;
 2005  help let&lt;br /&gt;
 2006  let z=x+y&lt;br /&gt;
 2007  echo $z&lt;br /&gt;
 2008  a=(Ab Cd 12 34)&lt;br /&gt;
 2009  echo $a&lt;br /&gt;
 2010  echo ${a[0]}&lt;br /&gt;
 2011  echo ${a[1]}&lt;br /&gt;
 2012  echo ${#a[@]}&lt;br /&gt;
 2013  bash&lt;br /&gt;
 2014  echo $x&lt;br /&gt;
 2015  export x&lt;br /&gt;
 2016  echo $x&lt;br /&gt;
 2017  bash&lt;br /&gt;
 2018  echo $x&lt;br /&gt;
 2019  bash&lt;br /&gt;
 2020  test 9 -gt 7&lt;br /&gt;
 2021  echo $?&lt;br /&gt;
 2022  test 9 -gt 19&lt;br /&gt;
 2023  echo $?&lt;br /&gt;
 2024  [ 9 -gt 19 ]&lt;br /&gt;
 2025  echo $?&lt;br /&gt;
 2026  [ -z $x ]&lt;br /&gt;
 2027  echo $?&lt;br /&gt;
 2028  echo $x&lt;br /&gt;
 2029  [ -z x ]&lt;br /&gt;
 2030  echo $?&lt;br /&gt;
 2031  [ -z '' ]&lt;br /&gt;
 2032  echo $?&lt;br /&gt;
 2033  [ 9 -gt 7 -a 9 -gt 19 ]&lt;br /&gt;
 2034  echo $?&lt;br /&gt;
 2035  [ 9 -gt 7 ] &amp;amp;&amp;amp; [ 9 -gt 19 ]&lt;br /&gt;
 2036  echo $?&lt;br /&gt;
 2037  help test&lt;br /&gt;
 2038  w&lt;br /&gt;
 2039  x=`ls /bin`&lt;br /&gt;
 2040  echo $x&lt;br /&gt;
 2041  y=$(ls /bin)&lt;br /&gt;
 2042  echo $y&lt;br /&gt;
 2043  echo ${#x}&lt;br /&gt;
 2044  read -p 'xxx: ' x&lt;br /&gt;
 2045  echo $x&lt;br /&gt;
 2046  read -p 'xxx: ' x&lt;br /&gt;
 2047  echo $x&lt;br /&gt;
 2048  help read&lt;br /&gt;
 2049  read x y&lt;br /&gt;
 2050  echo $x $y&lt;br /&gt;
 2051  echo $x&lt;br /&gt;
 2052  echo $y&lt;br /&gt;
&lt;br /&gt;
=== Lesson 10（2025.11.10；第11周）===&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
&amp;lt;gallery&amp;gt;&lt;br /&gt;
Linux-2025-fall-10-merged.jpg&lt;br /&gt;
&amp;lt;/gallery&amp;gt;&lt;br /&gt;
&lt;br /&gt;
*sed命令&lt;br /&gt;
*awk命令&lt;br /&gt;
* 所使用到的命令&lt;br /&gt;
 1992  egrep 'hello' a.txt &lt;br /&gt;
 1993  egrep -n 'hello' a.txt &lt;br /&gt;
 1994  egrep -no 'hello' a.txt &lt;br /&gt;
 1995  egrep 'hello'&lt;br /&gt;
 1996  egrep '\w\w\w' &lt;br /&gt;
 1997  egrep '[[:punct:]]' &lt;br /&gt;
 1998  egrep '[[:digit:]]' &lt;br /&gt;
 1999  egrep '[a-z]*'&lt;br /&gt;
 2000  egrep '[a-z]{3}'&lt;br /&gt;
 2001  man egrep&lt;br /&gt;
 2002  egrep '(abc)|(ABC)' &lt;br /&gt;
 2003  egrep '^[0-9]{3}'&lt;br /&gt;
 2004  egrep '^.....$'&lt;br /&gt;
 2005  ls (a|b).txt&lt;br /&gt;
 2006  ls a|b.txt&lt;br /&gt;
 2007  egrep '[a-z]{3}\1' &lt;br /&gt;
 2008  egrep '([a-z]{3})\1' &lt;br /&gt;
 2009  tr 'a-z' 'A-Z'&lt;br /&gt;
 2010  tr 'za-y' 'A-Z'&lt;br /&gt;
 2011  man tr&lt;br /&gt;
 2012  tr -d 'a-z' &lt;br /&gt;
 2013  tr -s 'a-z'&lt;br /&gt;
 2014  tr -s -C 'a-z'&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
测试样例如下：&lt;br /&gt;
&amp;lt;gallery&amp;gt;&lt;br /&gt;
Linux-2025-fall-10-test.png&lt;br /&gt;
&amp;lt;/gallery&amp;gt;&lt;br /&gt;
&lt;br /&gt;
awk常用内置函数：&lt;br /&gt;
&amp;lt;gallery&amp;gt;&lt;br /&gt;
Linux-2025-fall-10-awk.jpg&lt;br /&gt;
&amp;lt;/gallery&amp;gt;&lt;br /&gt;
&lt;br /&gt;
=== Lesson 9（2025.11.3；第10周）===&lt;br /&gt;
&amp;lt;gallery&amp;gt;&lt;br /&gt;
Linux-2025-fall-9-merged.jpg&lt;br /&gt;
&amp;lt;/gallery&amp;gt;&lt;br /&gt;
*正则表达式&lt;br /&gt;
*tr命令&lt;br /&gt;
* 所使用到的命令&lt;br /&gt;
 1992  egrep 'hello' a.txt &lt;br /&gt;
 1993  egrep -n 'hello' a.txt &lt;br /&gt;
 1994  egrep -no 'hello' a.txt &lt;br /&gt;
 1995  egrep 'hello'&lt;br /&gt;
 1996  egrep '\w\w\w' &lt;br /&gt;
 1997  egrep '[[:punct:]]' &lt;br /&gt;
 1998  egrep '[[:digit:]]' &lt;br /&gt;
 1999  egrep '[a-z]*'&lt;br /&gt;
 2000  egrep '[a-z]{3}'&lt;br /&gt;
 2001  man egrep&lt;br /&gt;
 2002  egrep '(abc)|(ABC)' &lt;br /&gt;
 2003  egrep '^[0-9]{3}'&lt;br /&gt;
 2004  egrep '^.....$'&lt;br /&gt;
 2005  ls (a|b).txt&lt;br /&gt;
 2006  ls a|b.txt&lt;br /&gt;
 2007  egrep '[a-z]{3}\1' &lt;br /&gt;
 2008  egrep '([a-z]{3})\1' &lt;br /&gt;
 2009  tr 'a-z' 'A-Z'&lt;br /&gt;
 2010  tr 'za-y' 'A-Z'&lt;br /&gt;
 2011  man tr&lt;br /&gt;
 2012  tr -d 'a-z' &lt;br /&gt;
 2013  tr -s 'a-z'&lt;br /&gt;
 2014  tr -s -C 'a-z'&lt;br /&gt;
&lt;br /&gt;
* 命令演示截图&lt;br /&gt;
&amp;lt;gallery&amp;gt;&lt;br /&gt;
Linux-2025-fall-9-(2)-merged.jpg&lt;br /&gt;
&amp;lt;/gallery&amp;gt;&lt;br /&gt;
&lt;br /&gt;
=== Lesson 8（2025.10.27；第9周）===&lt;br /&gt;
&amp;lt;gallery&amp;gt;&lt;br /&gt;
Linux-2025-fall-8-merged-.jpg&lt;br /&gt;
&amp;lt;/gallery&amp;gt;&lt;br /&gt;
*重定向输入，重定向输出&lt;br /&gt;
*前台运行程序与后台运行程序&lt;br /&gt;
*Linux哲学&lt;br /&gt;
*管道的应用，以及sort，uniq，wc，egrep命令等。&lt;br /&gt;
* 所使用到的命令&lt;br /&gt;
 1990  ls &amp;gt; a.txt&lt;br /&gt;
 1991  vi a.txt &lt;br /&gt;
 1992  ls /root &amp;gt; a.txt&lt;br /&gt;
 1993  vi a.txt&lt;br /&gt;
 1994  help fg&lt;br /&gt;
 1995  vi a.txt&lt;br /&gt;
 1996  less a.txt &lt;br /&gt;
 1997  bg&lt;br /&gt;
 1998  jobs&lt;br /&gt;
 1999  fg 1&lt;br /&gt;
 2000  cat &lt;br /&gt;
 2001  vi a.txt &lt;br /&gt;
 2002  cat a.txt &lt;br /&gt;
 2003  cat &amp;lt; a.txt&lt;br /&gt;
 2004  find . -name 'words'&lt;br /&gt;
 2005  vi words&lt;br /&gt;
 2006  find . -name 'name'&lt;br /&gt;
 2007  find . -name '*name*'&lt;br /&gt;
 2008  vi names&lt;br /&gt;
 2009  mv names names.txt&lt;br /&gt;
 2010  cat names &lt;br /&gt;
 2011  cat names.txt &lt;br /&gt;
 2012  cat names.txt | sort &lt;br /&gt;
 2013  cat names.txt | sort | uniq&lt;br /&gt;
 2014  cat names.txt | sort | uniq -c&lt;br /&gt;
 2015  cat names.txt | sort | uniq -c | sort -n -k 1&lt;br /&gt;
 2016  cat names.txt | sort | uniq -c | sort -rn -k 1&lt;br /&gt;
 2017  vi names.txt &lt;br /&gt;
 2018  cat names.txt | sort | uniq -c | sort -rn -k 1&lt;br /&gt;
 2019  man sort&lt;br /&gt;
 2020  vi names.txt &lt;br /&gt;
 2021  cat names.txt | tee names2.txt | sort&lt;br /&gt;
 2022  vi names2.txt &lt;br /&gt;
 2023  man tee&lt;br /&gt;
 2024  sort a.txt&lt;br /&gt;
 2025  sort names.txt &lt;br /&gt;
 2026  sort names.txt | uniq &lt;br /&gt;
 2027  sort names.txt | uniq | wc&lt;br /&gt;
 2028  sort names.txt | uniq | wc -l&lt;br /&gt;
 2029  sort -u names.txt&lt;br /&gt;
 2030  man egrep&lt;br /&gt;
 2031  egrep '.....' words | less&lt;br /&gt;
 2032  egrep '^.....$' words | less&lt;br /&gt;
 2033  egrep -n '^.....$' words | less&lt;br /&gt;
 2034  egrep 'wat' words&lt;br /&gt;
 2035  egrep -o 'wat' words&lt;br /&gt;
 2036  find /etc/ -name '*words*'&lt;br /&gt;
&lt;br /&gt;
* 管道测试样例&lt;br /&gt;
Zhenghua&amp;lt;br&amp;gt;&lt;br /&gt;
Zhenghua&amp;lt;br&amp;gt;&lt;br /&gt;
Zhangsan&amp;lt;br&amp;gt;&lt;br /&gt;
Lisi&amp;lt;br&amp;gt;&lt;br /&gt;
Lily&amp;lt;br&amp;gt;&lt;br /&gt;
Zhenghua&amp;lt;br&amp;gt;&lt;br /&gt;
Zhenghua&amp;lt;br&amp;gt;&lt;br /&gt;
Lisi&amp;lt;br&amp;gt;&lt;br /&gt;
Zhangsan&amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
=== Lesson 7（2025.10.20；第8周）【随堂考试 4 道题】===&lt;br /&gt;
&amp;lt;gallery&amp;gt;&lt;br /&gt;
Linux-2025-fall-7-merged.jpg&lt;br /&gt;
&amp;lt;/gallery&amp;gt;&lt;br /&gt;
*复习vi&lt;br /&gt;
*通配符的概念，使用方法&lt;br /&gt;
*重定向输入&lt;br /&gt;
&lt;br /&gt;
=== Lesson 6（2025.10.13；第7周）===&lt;br /&gt;
&amp;lt;gallery&amp;gt;&lt;br /&gt;
Linux-2025-fall-6-merged.jpg&lt;br /&gt;
&amp;lt;/gallery&amp;gt;&lt;br /&gt;
*普通（命令）模式下，移动光标，删除，复制粘贴，替换，撤销等操作&lt;br /&gt;
&lt;br /&gt;
=== Lesson 5（2025.9.29；第5周）===&lt;br /&gt;
&amp;lt;gallery&amp;gt;&lt;br /&gt;
Linux-2025-fall-5-merged.jpg&lt;br /&gt;
&amp;lt;/gallery&amp;gt;&lt;br /&gt;
*cp，mkdir, mv, rm等命令的使用&lt;br /&gt;
*内部命令与外部命令的区别&lt;br /&gt;
*vi的介绍。&lt;br /&gt;
* 所使用到的命令&lt;br /&gt;
 1990  type rm mkdir ls cd pwd&lt;br /&gt;
 1991  alias lm='ls -la --color=never'&lt;br /&gt;
 1992  lm &lt;br /&gt;
 1993  ls -la&lt;br /&gt;
 1994  echo $PATH&lt;br /&gt;
&lt;br /&gt;
=== Lesson 4（2025.9.22；第4周）【随堂考试 3 道题】===&lt;br /&gt;
&lt;br /&gt;
&amp;lt;gallery&amp;gt;&lt;br /&gt;
Linux-2025-fall-4-merged.jpg&lt;br /&gt;
&amp;lt;/gallery&amp;gt;&lt;br /&gt;
*shell使用技巧（快捷键进行检索，终止进程等）&lt;br /&gt;
*文件查看（cat，head，tail，less，hexdump命令等）&lt;br /&gt;
*文件操作（cp命令）&lt;br /&gt;
* 所使用到的命令&lt;br /&gt;
 1991  history &lt;br /&gt;
 1992  history | egrep 'man'&lt;br /&gt;
 1993  man printf&lt;br /&gt;
 1994  man ls&lt;br /&gt;
 1995  ls&lt;br /&gt;
 1996* &lt;br /&gt;
 1997  history | egrep 'man'&lt;br /&gt;
 1998  less en.dev.autotagMIRA.conll.dep&lt;br /&gt;
 1999  man hexdump &lt;br /&gt;
 2000  hexdump -c en.dev.autotagMIRA.conll.dep&lt;br /&gt;
 2001  hexdump -c en.dev.autotagMIRA.conll.dep | less&lt;br /&gt;
 2002  hexdump en.dev.autotagMIRA.conll.dep | less&lt;br /&gt;
 2003  hexdump -c en.dev.autotagMIRA.conll.dep | less&lt;br /&gt;
 2004  man cp&lt;br /&gt;
&lt;br /&gt;
=== Lesson 3（2025.9.15；第3周）===&lt;br /&gt;
&amp;lt;gallery&amp;gt;&lt;br /&gt;
Linux-2025-fall-3-merged.jpg&lt;br /&gt;
&amp;lt;/gallery&amp;gt;&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
*man ls的使用方法&lt;br /&gt;
*man man（man的基本使用）&lt;br /&gt;
* 所使用到的命令&lt;br /&gt;
  1991  ls&lt;br /&gt;
  1992  ls /&lt;br /&gt;
  1993  whereis ls&lt;br /&gt;
  1994  vi /etc[防ban去掉]/hosts&lt;br /&gt;
  1995  cd xxx&lt;br /&gt;
  1996  ls -a&lt;br /&gt;
  1997  cd .&lt;br /&gt;
  1998  cd ..&lt;br /&gt;
  1999  man ls&lt;br /&gt;
  2000  ls&lt;br /&gt;
  2001  ls --color=never&lt;br /&gt;
  2002  man ls&lt;br /&gt;
  2003  ls Documents&lt;br /&gt;
  2004  ls -d Documents&lt;br /&gt;
  2005  ls -ld Documents&lt;br /&gt;
  2006  pwd&lt;br /&gt;
  2007  ls -l&lt;br /&gt;
  2008  ls -lh&lt;br /&gt;
  2009  ls -lS&lt;br /&gt;
  2010  ls -ltc | less&lt;br /&gt;
  2011  ls -lta | less&lt;br /&gt;
  2012  ls -lt | less&lt;br /&gt;
  2013  man ls&lt;br /&gt;
  2014  man man&lt;br /&gt;
  2015  man printf&lt;br /&gt;
  2016  man 3 printf&lt;br /&gt;
  2017  printf '%30d%20.3f' 232 2.2323232&lt;br /&gt;
  2018  printf '%30d%20.3f\n' 232 2.2323232 &lt;br /&gt;
  2019  printf '%-30d%-20.3f\n' 232 2.2323232 &lt;br /&gt;
  2020  man -k print&lt;br /&gt;
  2021  man -k print[efgh]&lt;br /&gt;
  2022  man -k print[e][r]&lt;br /&gt;
&lt;br /&gt;
=== Lesson 2（2025.9.8；第2周）===&lt;br /&gt;
&amp;lt;gallery&amp;gt;&lt;br /&gt;
文件:Linux-2025-fall-2-merged.jpg&lt;br /&gt;
&amp;lt;/gallery&amp;gt;&lt;br /&gt;
* shell基本使用、shell的概念、父shell、子shell&lt;br /&gt;
* 命令语法、ls命令&lt;br /&gt;
* 命令行参数、python中sys.argv&lt;br /&gt;
* 所使用到的命令&lt;br /&gt;
 1988  ps afx | egrep bash&lt;br /&gt;
 1989  echo $$&lt;br /&gt;
 1990  exit&lt;br /&gt;
 1991  ls&lt;br /&gt;
 1992  ps afx | egrep bash&lt;br /&gt;
 1993  bc&lt;br /&gt;
 1994  sudo su&lt;br /&gt;
 1995  ls&lt;br /&gt;
 1996  ls -l&lt;br /&gt;
 1997  ls -a&lt;br /&gt;
 1998  ls --all&lt;br /&gt;
 1999  ls -la&lt;br /&gt;
 2000  ls Downloads/ Documents xxx&lt;br /&gt;
&lt;br /&gt;
=== Lesson 1（2025.9.1；第1周） ===&lt;br /&gt;
&lt;br /&gt;
&amp;lt;gallery&amp;gt;&lt;br /&gt;
Linux-2025-fall-1-merged.jpg&lt;br /&gt;
&amp;lt;/gallery&amp;gt;&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
* 课程介绍、个人介绍&lt;br /&gt;
* Linux安装&lt;br /&gt;
* 图形界面、文字界面&lt;br /&gt;
* 所使用到的命令&lt;br /&gt;
 1987  uname -a&lt;br /&gt;
 1988  ps afx | egrep gnome&lt;br /&gt;
 1989  init 3&lt;br /&gt;
 1990  sudo init 3&lt;br /&gt;
 1991  w&lt;br /&gt;
 1992  who&lt;br /&gt;
 1993  man who&lt;br /&gt;
 1994  w&lt;br /&gt;
 1995  who&lt;br /&gt;
 1996  vi a.txt&lt;br /&gt;
 1997  bash&lt;/div&gt;</summary>
		<author><name>Zhli</name></author>
	</entry>
	<entry>
		<id>http://hlt.suda.edu.cn/index.php?title=Linux-2025-fall&amp;diff=6164</id>
		<title>Linux-2025-fall</title>
		<link rel="alternate" type="text/html" href="http://hlt.suda.edu.cn/index.php?title=Linux-2025-fall&amp;diff=6164"/>
		<updated>2026-01-12T05:01:04Z</updated>

		<summary type="html">&lt;p&gt;Zhli：/* 批试卷用到的 */&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;&lt;br /&gt;
== 课程安排 ==&lt;br /&gt;
* 老师: [http://web.suda.edu.cn/zhli13/ 李正华]&lt;br /&gt;
* 助教：周昊喆、郑书禾&lt;br /&gt;
* 计23计科1班，计23计科2班（大三上）&lt;br /&gt;
* 专业选修课&lt;br /&gt;
* 上课时间和地点&lt;br /&gt;
** 理论课：周一 3-4节 9:55-11:30 逸夫楼334  【1-17周】&lt;br /&gt;
** 实践课：周三 1-2节 8:00-9:35 理工楼243 【单周】&lt;br /&gt;
** 没上课的情况记录：&lt;br /&gt;
* 平时10%（考勤等）、实验成绩30%（实验报告、随堂考试）、期末60%（闭卷）&lt;br /&gt;
&lt;br /&gt;
== 注意事项 ==&lt;br /&gt;
* &amp;lt;span style=&amp;quot;color: #ff0000;&amp;quot;&amp;gt;上机课做学习无关的事情，发现则平时和实验成绩为0 &amp;lt;/span&amp;gt;&lt;br /&gt;
&lt;br /&gt;
== 自学资料 ==&lt;br /&gt;
&lt;br /&gt;
* [http://hlt.suda.edu.cn/index.php/Linux-video-notes 2018年春季上课视频和笔记]&lt;br /&gt;
* [http://hlt.suda.edu.cn/index.php/Linux-2024-spring 2024年上课板书]&lt;br /&gt;
&lt;br /&gt;
== 参考书 ==&lt;br /&gt;
&lt;br /&gt;
* Unix &amp;amp; Linux大学教程 哈恩(Harley Hahn) (作者), 张杰良 (译者) 【基础内容、讲得比较细；图书馆可以借】&lt;br /&gt;
&lt;br /&gt;
* 跟阿铭学Linux 李世明 人民邮电出版社 【难度适中，我们只学前半部分】&lt;br /&gt;
&lt;br /&gt;
* 鸟哥的Linux私房菜 基础学习篇(第三版)【我觉得讲得比较深，想深入学的同学可以考虑用】&lt;br /&gt;
&lt;br /&gt;
== 批试卷用到的 ==&lt;br /&gt;
&lt;br /&gt;
 &amp;lt;nowiki&amp;gt;&lt;br /&gt;
&lt;br /&gt;
awk 'BEGIN {FS=&amp;quot;,&amp;quot;;OFS=&amp;quot;#&amp;quot;}; {print $1, $2}' a.txt&lt;br /&gt;
&lt;br /&gt;
awk -F',' 'BEGIN {OFS=&amp;quot;#&amp;quot;}; {print $1, $2}' a.txt&lt;br /&gt;
&lt;br /&gt;
b=($(cat a.txt)) 【外面的()必须有，否则 b 就不是一个数组了。而是一个字符串了】&lt;br /&gt;
&lt;br /&gt;
a=($(echo 'a b')) 【a 是一个数组了】&lt;br /&gt;
&lt;br /&gt;
sed 's/a/A/g' &amp;lt;&amp;lt;&amp;lt; 'aaa'  字符串的重定向，很有用，应该讲！&lt;br /&gt;
&lt;br /&gt;
a=($(sed 's/,/ /g' &amp;lt;&amp;lt;&amp;lt; 'a,b')) 【a 是数组了】&lt;br /&gt;
&lt;br /&gt;
while read name; do echo $name; done &amp;lt; a.txt  【read 和重定向的配合】&lt;br /&gt;
&lt;br /&gt;
while read -d ',' name; do echo $name; done &amp;lt; a.txt 【-d 是 delimiter，默认是换行符，没遇到一个 delimiter，就会返回一个，最后一个元素后面必须有 delimiter】&lt;br /&gt;
a.txt: a,b,c,&lt;br /&gt;
&lt;br /&gt;
read -a arr &amp;lt;&amp;lt;&amp;lt; 'a b c'  【读入数组，arr 会包含三个元素，默认空白符为分隔符】&lt;br /&gt;
&lt;br /&gt;
awk 中变量直接写，不用取值符，如 print x, y, z&lt;br /&gt;
&lt;br /&gt;
awk -F'\n\r' '{print NF}' a.txt  【每一行一个记录，每个记录只有一个 field，因此会输出多个 1，一行对应一个】&lt;br /&gt;
&lt;br /&gt;
IFS=',' read -a arr &amp;lt;&amp;lt;&amp;lt; $x  【默认是空格，IFS 可以改】【不会跨行的】&lt;br /&gt;
IFS='\n' read -a arr &amp;lt; a.txt 【不会跨行的，只会处理第一行？？】&lt;br /&gt;
&lt;br /&gt;
read x y z &amp;lt;&amp;lt;&amp;lt; '1 2 3' 【第三个变量】&lt;br /&gt;
&lt;br /&gt;
read -a arr &amp;lt; a.txt 只处理第一行&lt;br /&gt;
IFS=','&lt;br /&gt;
while read -a arr; do echo ${arr[1]}; done &amp;lt; a.txt 【每一行输出一次】&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
&amp;lt;/nowiki&amp;gt;&lt;br /&gt;
&lt;br /&gt;
== 板书和笔记 ==&lt;br /&gt;
=== TODO ===&lt;br /&gt;
find &lt;br /&gt;
&lt;br /&gt;
top ps kill fg bg 等&lt;br /&gt;
&lt;br /&gt;
11.24  12.1/8/15/22【五次课】&lt;br /&gt;
&lt;br /&gt;
=== Lesson 15（2025.12.15；第16周）===&lt;br /&gt;
&amp;lt;gallery&amp;gt;&lt;br /&gt;
Linux-2025-fall-15-merged.jpg&lt;br /&gt;
&amp;lt;/gallery&amp;gt;&lt;br /&gt;
*find、xargs&lt;br /&gt;
*用户管理&lt;br /&gt;
*压缩、解压缩&lt;br /&gt;
*进程管理&lt;br /&gt;
*随机数生成&lt;br /&gt;
*所用到的指令：&lt;br /&gt;
 1996  find . -mmin -20&lt;br /&gt;
 1997  find . -mmin -20 -name '*.txt'&lt;br /&gt;
 1998  cat a.txt | ls&lt;br /&gt;
 2000  find . -name '*.txt'&lt;br /&gt;
 2002  find . -name '*.txt' | ls -l&lt;br /&gt;
 2003  find . -name '*.txt' -type f -size +5K | du -sh&lt;br /&gt;
 2007  find . -maxdepth 1 -name 'a*.txt'&lt;br /&gt;
 2008  find . -maxdepth 1 -name 'aa*.txt'&lt;br /&gt;
 2010  find . -maxdepth 1 -name 'aa*.txt' -exec ls -l '{}' \;&lt;br /&gt;
 2011  ls aaaa\ bbbb.txt &lt;br /&gt;
 2012  ls -l aaaa\ bbbb.txt &lt;br /&gt;
 2013  ls -l 'aaaa bbbb.txt' &lt;br /&gt;
 2014  find . -maxdepth 1 -name 'aa*.txt' -exec ls -l '{}' +&lt;br /&gt;
&lt;br /&gt;
=== Lesson 14（2025.12.08；第15周）===&lt;br /&gt;
&amp;lt;gallery&amp;gt;&lt;br /&gt;
Linux-2025-fall-14-merged.jpg&lt;br /&gt;
&amp;lt;/gallery&amp;gt;&lt;br /&gt;
*权限&lt;br /&gt;
*时间戳&lt;br /&gt;
*符号链接与硬链接&lt;br /&gt;
*所用到的指令：&lt;br /&gt;
 1998  ls -l a.txt&lt;br /&gt;
 1999  chomd 777 a.txt&lt;br /&gt;
 2000  chmod 777 a.txt&lt;br /&gt;
 2001  ls -l&lt;br /&gt;
 2002  ls -l a.txt&lt;br /&gt;
 2003  ls -l 664 a.txt&lt;br /&gt;
 2004  chmod 664 a.txt&lt;br /&gt;
 2005  ls -l a.txt&lt;br /&gt;
 2006  man umask&lt;br /&gt;
 2007  man 3 umask&lt;br /&gt;
 2008  vi aaa.txt&lt;br /&gt;
 2009  ls -l aaa.txt&lt;br /&gt;
 2010  man chown&lt;br /&gt;
 2011  ls -i /&lt;br /&gt;
 2012  ls -id /&lt;br /&gt;
 2013  stat a.txt&lt;br /&gt;
 2014  cat a.txt&lt;br /&gt;
 2015  stat a.txt&lt;br /&gt;
 2016  chmod o+x a.txt&lt;br /&gt;
 2017  ls -l a.txt&lt;br /&gt;
 2018  stat a.txt&lt;br /&gt;
 2019  echo &amp;quot;hi&amp;quot; &amp;gt; a.txt&lt;br /&gt;
 2020  stat a.txt&lt;br /&gt;
 2021  vi a.txt&lt;br /&gt;
 2022  stat a.txt&lt;br /&gt;
 2023  ls -l a.txt&lt;br /&gt;
 2024  chmod +x a.txt&lt;br /&gt;
 2025  ls -lu a.txt&lt;br /&gt;
 2026  ls -lc a.txt&lt;br /&gt;
 2027  cat a.txt&lt;br /&gt;
 2028  ls -lu a.txt&lt;br /&gt;
 2029  date&lt;br /&gt;
 2030  cat a.txt&lt;br /&gt;
 2031  ls -lu a.txt&lt;br /&gt;
 2032  ls -l a.txt&lt;br /&gt;
 2033  cat a.txt&lt;br /&gt;
 2034  ls -lu a.txt&lt;br /&gt;
 2035  stat&lt;br /&gt;
 2036  stat a.txt&lt;br /&gt;
 2037  cat a.txt&lt;br /&gt;
 2038  stat a.txt&lt;br /&gt;
 2039  less a.txt&lt;br /&gt;
 2040  stat a.txt&lt;br /&gt;
 2041  vi a.txt&lt;br /&gt;
 2042  stat a.txt&lt;br /&gt;
 2043  stat en.dev.autotagMIRA.conll.dep&lt;br /&gt;
 2044  head -n 2 en.dev.autotagMIRA.conll.dep&lt;br /&gt;
 2045  stat en.dev.autotagMIRA.conll.dep&lt;br /&gt;
 2046  ls -lu en.dev.autotagMIRA.conll.dep&lt;br /&gt;
 2047  ls -s xxx/a.txt sln_a.txt&lt;br /&gt;
 2048  ln -s xxx/a.txt sln_a.txt&lt;br /&gt;
 2049  rm sln_a.txt &lt;br /&gt;
 2050  ln -s xxx/a.txt sln_a.txt&lt;br /&gt;
 2051  ls -l sln_a.txt xxx/a.txt&lt;br /&gt;
 2052  ls -li sln_a.txt xxx/a.txt&lt;br /&gt;
 2053  ls&lt;br /&gt;
 2054  ls linux/&lt;br /&gt;
 2055  ln -s /home/zhli/linux/awk/ sln_awk &lt;br /&gt;
 2056* &lt;br /&gt;
 2057  ln -s /home/zhli/linux/awk/ sln_awk2 &lt;br /&gt;
 2058  ls -lid sln_a*&lt;br /&gt;
 2059  ulink sln_awk2/&lt;br /&gt;
 2060  rm sln_awk2&lt;br /&gt;
 2061  ls -lid sln_a*&lt;br /&gt;
 2062  vi sln_awk/test.txt &lt;br /&gt;
 2063  ls -lid sln_awk&lt;br /&gt;
 2064  ls -lid sln_awk/&lt;br /&gt;
 2065  ls -lid sln_awk linux/awk/&lt;br /&gt;
 2066  ls a*.txt&lt;br /&gt;
 2067  ls -l a*.txt&lt;br /&gt;
 2068  ls -li a*.txt&lt;br /&gt;
 2069  rm a_link.txt &lt;br /&gt;
 2070  rm a_bak.txt &lt;br /&gt;
 2071  ls -ltc&lt;br /&gt;
 2072  ls -li a.txt&lt;br /&gt;
 2073  ln a.txt a2.txt&lt;br /&gt;
 2074  ln a.txt a_hardlink.txt&lt;br /&gt;
 2075  ls -li a.txt a_hardlink.txt &lt;br /&gt;
 2076  ls -d linux&lt;br /&gt;
 2077  ls -dl linux&lt;br /&gt;
 2078  mkdir linux/new_dir&lt;br /&gt;
 2079  ls -dl linux&lt;br /&gt;
 2080  history&lt;br /&gt;
&lt;br /&gt;
=== Lesson 13（2025.12.01；第14周）===&lt;br /&gt;
&amp;lt;gallery&amp;gt;&lt;br /&gt;
Linux-2025-fall-13-merged_v1.jpg&lt;br /&gt;
&amp;lt;/gallery&amp;gt;&lt;br /&gt;
*机械硬盘，文件系统 inode，block，superblock&lt;br /&gt;
*挂载 mount&lt;br /&gt;
&lt;br /&gt;
=== Lesson 12（2025.11.24；第13周）【随堂考试 3 道题】===&lt;br /&gt;
&amp;lt;gallery&amp;gt;&lt;br /&gt;
文件:Linux-2025-fall-12-merged.jpg&lt;br /&gt;
&amp;lt;/gallery&amp;gt;&lt;br /&gt;
&lt;br /&gt;
*shell编程（循环，函数，命令行参数）&lt;br /&gt;
*所用到的指令&lt;br /&gt;
&lt;br /&gt;
 1997  for x in `ls`; do echo $x; done&lt;br /&gt;
 1998  a=(Ab Cd 12 34)&lt;br /&gt;
 1999  for x in a; do echo $x; done&lt;br /&gt;
 2000  for x in (Ab Cd 12 34)&lt;br /&gt;
 2001  echo ${a[@]}&lt;br /&gt;
 2002  for x in ${a[@]}; do echo $x; done&lt;br /&gt;
 2004  find . -name '*func*'&lt;br /&gt;
 2005  cp func-202405.sh func-202511.sh &lt;br /&gt;
 2006  vi func-202&lt;br /&gt;
 2007  vi func-202511.sh &lt;br /&gt;
 2008  cat func-202511.sh &lt;br /&gt;
 2009  bash func-202511.sh&lt;br /&gt;
&lt;br /&gt;
=== Lesson 11（2025.11.17；第12周）===&lt;br /&gt;
&amp;lt;gallery&amp;gt;&lt;br /&gt;
Linux-2025-fall-11-merged_all.jpg&lt;br /&gt;
&amp;lt;/gallery&amp;gt;&lt;br /&gt;
&lt;br /&gt;
*shell编程，变量，环境变量&lt;br /&gt;
*test命令&lt;br /&gt;
*变量运算&lt;br /&gt;
*所用到的指令&lt;br /&gt;
&lt;br /&gt;
 1993  x=5&lt;br /&gt;
 1994  y = 3&lt;br /&gt;
 1995  y=3&lt;br /&gt;
 1996  echo $x+$y&lt;br /&gt;
 1997  echo ${x3}&lt;br /&gt;
 1998  echo $x3&lt;br /&gt;
 1999  echo $x35&lt;br /&gt;
 2000  echo $x_3&lt;br /&gt;
 2001  echo $x10&lt;br /&gt;
 2002  echo ${x1}0&lt;br /&gt;
 2003  echo $(($x+$y))&lt;br /&gt;
 2004  man let&lt;br /&gt;
 2005  help let&lt;br /&gt;
 2006  let z=x+y&lt;br /&gt;
 2007  echo $z&lt;br /&gt;
 2008  a=(Ab Cd 12 34)&lt;br /&gt;
 2009  echo $a&lt;br /&gt;
 2010  echo ${a[0]}&lt;br /&gt;
 2011  echo ${a[1]}&lt;br /&gt;
 2012  echo ${#a[@]}&lt;br /&gt;
 2013  bash&lt;br /&gt;
 2014  echo $x&lt;br /&gt;
 2015  export x&lt;br /&gt;
 2016  echo $x&lt;br /&gt;
 2017  bash&lt;br /&gt;
 2018  echo $x&lt;br /&gt;
 2019  bash&lt;br /&gt;
 2020  test 9 -gt 7&lt;br /&gt;
 2021  echo $?&lt;br /&gt;
 2022  test 9 -gt 19&lt;br /&gt;
 2023  echo $?&lt;br /&gt;
 2024  [ 9 -gt 19 ]&lt;br /&gt;
 2025  echo $?&lt;br /&gt;
 2026  [ -z $x ]&lt;br /&gt;
 2027  echo $?&lt;br /&gt;
 2028  echo $x&lt;br /&gt;
 2029  [ -z x ]&lt;br /&gt;
 2030  echo $?&lt;br /&gt;
 2031  [ -z '' ]&lt;br /&gt;
 2032  echo $?&lt;br /&gt;
 2033  [ 9 -gt 7 -a 9 -gt 19 ]&lt;br /&gt;
 2034  echo $?&lt;br /&gt;
 2035  [ 9 -gt 7 ] &amp;amp;&amp;amp; [ 9 -gt 19 ]&lt;br /&gt;
 2036  echo $?&lt;br /&gt;
 2037  help test&lt;br /&gt;
 2038  w&lt;br /&gt;
 2039  x=`ls /bin`&lt;br /&gt;
 2040  echo $x&lt;br /&gt;
 2041  y=$(ls /bin)&lt;br /&gt;
 2042  echo $y&lt;br /&gt;
 2043  echo ${#x}&lt;br /&gt;
 2044  read -p 'xxx: ' x&lt;br /&gt;
 2045  echo $x&lt;br /&gt;
 2046  read -p 'xxx: ' x&lt;br /&gt;
 2047  echo $x&lt;br /&gt;
 2048  help read&lt;br /&gt;
 2049  read x y&lt;br /&gt;
 2050  echo $x $y&lt;br /&gt;
 2051  echo $x&lt;br /&gt;
 2052  echo $y&lt;br /&gt;
&lt;br /&gt;
=== Lesson 10（2025.11.10；第11周）===&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
&amp;lt;gallery&amp;gt;&lt;br /&gt;
Linux-2025-fall-10-merged.jpg&lt;br /&gt;
&amp;lt;/gallery&amp;gt;&lt;br /&gt;
&lt;br /&gt;
*sed命令&lt;br /&gt;
*awk命令&lt;br /&gt;
* 所使用到的命令&lt;br /&gt;
 1992  egrep 'hello' a.txt &lt;br /&gt;
 1993  egrep -n 'hello' a.txt &lt;br /&gt;
 1994  egrep -no 'hello' a.txt &lt;br /&gt;
 1995  egrep 'hello'&lt;br /&gt;
 1996  egrep '\w\w\w' &lt;br /&gt;
 1997  egrep '[[:punct:]]' &lt;br /&gt;
 1998  egrep '[[:digit:]]' &lt;br /&gt;
 1999  egrep '[a-z]*'&lt;br /&gt;
 2000  egrep '[a-z]{3}'&lt;br /&gt;
 2001  man egrep&lt;br /&gt;
 2002  egrep '(abc)|(ABC)' &lt;br /&gt;
 2003  egrep '^[0-9]{3}'&lt;br /&gt;
 2004  egrep '^.....$'&lt;br /&gt;
 2005  ls (a|b).txt&lt;br /&gt;
 2006  ls a|b.txt&lt;br /&gt;
 2007  egrep '[a-z]{3}\1' &lt;br /&gt;
 2008  egrep '([a-z]{3})\1' &lt;br /&gt;
 2009  tr 'a-z' 'A-Z'&lt;br /&gt;
 2010  tr 'za-y' 'A-Z'&lt;br /&gt;
 2011  man tr&lt;br /&gt;
 2012  tr -d 'a-z' &lt;br /&gt;
 2013  tr -s 'a-z'&lt;br /&gt;
 2014  tr -s -C 'a-z'&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
测试样例如下：&lt;br /&gt;
&amp;lt;gallery&amp;gt;&lt;br /&gt;
Linux-2025-fall-10-test.png&lt;br /&gt;
&amp;lt;/gallery&amp;gt;&lt;br /&gt;
&lt;br /&gt;
awk常用内置函数：&lt;br /&gt;
&amp;lt;gallery&amp;gt;&lt;br /&gt;
Linux-2025-fall-10-awk.jpg&lt;br /&gt;
&amp;lt;/gallery&amp;gt;&lt;br /&gt;
&lt;br /&gt;
=== Lesson 9（2025.11.3；第10周）===&lt;br /&gt;
&amp;lt;gallery&amp;gt;&lt;br /&gt;
Linux-2025-fall-9-merged.jpg&lt;br /&gt;
&amp;lt;/gallery&amp;gt;&lt;br /&gt;
*正则表达式&lt;br /&gt;
*tr命令&lt;br /&gt;
* 所使用到的命令&lt;br /&gt;
 1992  egrep 'hello' a.txt &lt;br /&gt;
 1993  egrep -n 'hello' a.txt &lt;br /&gt;
 1994  egrep -no 'hello' a.txt &lt;br /&gt;
 1995  egrep 'hello'&lt;br /&gt;
 1996  egrep '\w\w\w' &lt;br /&gt;
 1997  egrep '[[:punct:]]' &lt;br /&gt;
 1998  egrep '[[:digit:]]' &lt;br /&gt;
 1999  egrep '[a-z]*'&lt;br /&gt;
 2000  egrep '[a-z]{3}'&lt;br /&gt;
 2001  man egrep&lt;br /&gt;
 2002  egrep '(abc)|(ABC)' &lt;br /&gt;
 2003  egrep '^[0-9]{3}'&lt;br /&gt;
 2004  egrep '^.....$'&lt;br /&gt;
 2005  ls (a|b).txt&lt;br /&gt;
 2006  ls a|b.txt&lt;br /&gt;
 2007  egrep '[a-z]{3}\1' &lt;br /&gt;
 2008  egrep '([a-z]{3})\1' &lt;br /&gt;
 2009  tr 'a-z' 'A-Z'&lt;br /&gt;
 2010  tr 'za-y' 'A-Z'&lt;br /&gt;
 2011  man tr&lt;br /&gt;
 2012  tr -d 'a-z' &lt;br /&gt;
 2013  tr -s 'a-z'&lt;br /&gt;
 2014  tr -s -C 'a-z'&lt;br /&gt;
&lt;br /&gt;
* 命令演示截图&lt;br /&gt;
&amp;lt;gallery&amp;gt;&lt;br /&gt;
Linux-2025-fall-9-(2)-merged.jpg&lt;br /&gt;
&amp;lt;/gallery&amp;gt;&lt;br /&gt;
&lt;br /&gt;
=== Lesson 8（2025.10.27；第9周）===&lt;br /&gt;
&amp;lt;gallery&amp;gt;&lt;br /&gt;
Linux-2025-fall-8-merged-.jpg&lt;br /&gt;
&amp;lt;/gallery&amp;gt;&lt;br /&gt;
*重定向输入，重定向输出&lt;br /&gt;
*前台运行程序与后台运行程序&lt;br /&gt;
*Linux哲学&lt;br /&gt;
*管道的应用，以及sort，uniq，wc，egrep命令等。&lt;br /&gt;
* 所使用到的命令&lt;br /&gt;
 1990  ls &amp;gt; a.txt&lt;br /&gt;
 1991  vi a.txt &lt;br /&gt;
 1992  ls /root &amp;gt; a.txt&lt;br /&gt;
 1993  vi a.txt&lt;br /&gt;
 1994  help fg&lt;br /&gt;
 1995  vi a.txt&lt;br /&gt;
 1996  less a.txt &lt;br /&gt;
 1997  bg&lt;br /&gt;
 1998  jobs&lt;br /&gt;
 1999  fg 1&lt;br /&gt;
 2000  cat &lt;br /&gt;
 2001  vi a.txt &lt;br /&gt;
 2002  cat a.txt &lt;br /&gt;
 2003  cat &amp;lt; a.txt&lt;br /&gt;
 2004  find . -name 'words'&lt;br /&gt;
 2005  vi words&lt;br /&gt;
 2006  find . -name 'name'&lt;br /&gt;
 2007  find . -name '*name*'&lt;br /&gt;
 2008  vi names&lt;br /&gt;
 2009  mv names names.txt&lt;br /&gt;
 2010  cat names &lt;br /&gt;
 2011  cat names.txt &lt;br /&gt;
 2012  cat names.txt | sort &lt;br /&gt;
 2013  cat names.txt | sort | uniq&lt;br /&gt;
 2014  cat names.txt | sort | uniq -c&lt;br /&gt;
 2015  cat names.txt | sort | uniq -c | sort -n -k 1&lt;br /&gt;
 2016  cat names.txt | sort | uniq -c | sort -rn -k 1&lt;br /&gt;
 2017  vi names.txt &lt;br /&gt;
 2018  cat names.txt | sort | uniq -c | sort -rn -k 1&lt;br /&gt;
 2019  man sort&lt;br /&gt;
 2020  vi names.txt &lt;br /&gt;
 2021  cat names.txt | tee names2.txt | sort&lt;br /&gt;
 2022  vi names2.txt &lt;br /&gt;
 2023  man tee&lt;br /&gt;
 2024  sort a.txt&lt;br /&gt;
 2025  sort names.txt &lt;br /&gt;
 2026  sort names.txt | uniq &lt;br /&gt;
 2027  sort names.txt | uniq | wc&lt;br /&gt;
 2028  sort names.txt | uniq | wc -l&lt;br /&gt;
 2029  sort -u names.txt&lt;br /&gt;
 2030  man egrep&lt;br /&gt;
 2031  egrep '.....' words | less&lt;br /&gt;
 2032  egrep '^.....$' words | less&lt;br /&gt;
 2033  egrep -n '^.....$' words | less&lt;br /&gt;
 2034  egrep 'wat' words&lt;br /&gt;
 2035  egrep -o 'wat' words&lt;br /&gt;
 2036  find /etc/ -name '*words*'&lt;br /&gt;
&lt;br /&gt;
* 管道测试样例&lt;br /&gt;
Zhenghua&amp;lt;br&amp;gt;&lt;br /&gt;
Zhenghua&amp;lt;br&amp;gt;&lt;br /&gt;
Zhangsan&amp;lt;br&amp;gt;&lt;br /&gt;
Lisi&amp;lt;br&amp;gt;&lt;br /&gt;
Lily&amp;lt;br&amp;gt;&lt;br /&gt;
Zhenghua&amp;lt;br&amp;gt;&lt;br /&gt;
Zhenghua&amp;lt;br&amp;gt;&lt;br /&gt;
Lisi&amp;lt;br&amp;gt;&lt;br /&gt;
Zhangsan&amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
=== Lesson 7（2025.10.20；第8周）【随堂考试 4 道题】===&lt;br /&gt;
&amp;lt;gallery&amp;gt;&lt;br /&gt;
Linux-2025-fall-7-merged.jpg&lt;br /&gt;
&amp;lt;/gallery&amp;gt;&lt;br /&gt;
*复习vi&lt;br /&gt;
*通配符的概念，使用方法&lt;br /&gt;
*重定向输入&lt;br /&gt;
&lt;br /&gt;
=== Lesson 6（2025.10.13；第7周）===&lt;br /&gt;
&amp;lt;gallery&amp;gt;&lt;br /&gt;
Linux-2025-fall-6-merged.jpg&lt;br /&gt;
&amp;lt;/gallery&amp;gt;&lt;br /&gt;
*普通（命令）模式下，移动光标，删除，复制粘贴，替换，撤销等操作&lt;br /&gt;
&lt;br /&gt;
=== Lesson 5（2025.9.29；第5周）===&lt;br /&gt;
&amp;lt;gallery&amp;gt;&lt;br /&gt;
Linux-2025-fall-5-merged.jpg&lt;br /&gt;
&amp;lt;/gallery&amp;gt;&lt;br /&gt;
*cp，mkdir, mv, rm等命令的使用&lt;br /&gt;
*内部命令与外部命令的区别&lt;br /&gt;
*vi的介绍。&lt;br /&gt;
* 所使用到的命令&lt;br /&gt;
 1990  type rm mkdir ls cd pwd&lt;br /&gt;
 1991  alias lm='ls -la --color=never'&lt;br /&gt;
 1992  lm &lt;br /&gt;
 1993  ls -la&lt;br /&gt;
 1994  echo $PATH&lt;br /&gt;
&lt;br /&gt;
=== Lesson 4（2025.9.22；第4周）【随堂考试 3 道题】===&lt;br /&gt;
&lt;br /&gt;
&amp;lt;gallery&amp;gt;&lt;br /&gt;
Linux-2025-fall-4-merged.jpg&lt;br /&gt;
&amp;lt;/gallery&amp;gt;&lt;br /&gt;
*shell使用技巧（快捷键进行检索，终止进程等）&lt;br /&gt;
*文件查看（cat，head，tail，less，hexdump命令等）&lt;br /&gt;
*文件操作（cp命令）&lt;br /&gt;
* 所使用到的命令&lt;br /&gt;
 1991  history &lt;br /&gt;
 1992  history | egrep 'man'&lt;br /&gt;
 1993  man printf&lt;br /&gt;
 1994  man ls&lt;br /&gt;
 1995  ls&lt;br /&gt;
 1996* &lt;br /&gt;
 1997  history | egrep 'man'&lt;br /&gt;
 1998  less en.dev.autotagMIRA.conll.dep&lt;br /&gt;
 1999  man hexdump &lt;br /&gt;
 2000  hexdump -c en.dev.autotagMIRA.conll.dep&lt;br /&gt;
 2001  hexdump -c en.dev.autotagMIRA.conll.dep | less&lt;br /&gt;
 2002  hexdump en.dev.autotagMIRA.conll.dep | less&lt;br /&gt;
 2003  hexdump -c en.dev.autotagMIRA.conll.dep | less&lt;br /&gt;
 2004  man cp&lt;br /&gt;
&lt;br /&gt;
=== Lesson 3（2025.9.15；第3周）===&lt;br /&gt;
&amp;lt;gallery&amp;gt;&lt;br /&gt;
Linux-2025-fall-3-merged.jpg&lt;br /&gt;
&amp;lt;/gallery&amp;gt;&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
*man ls的使用方法&lt;br /&gt;
*man man（man的基本使用）&lt;br /&gt;
* 所使用到的命令&lt;br /&gt;
  1991  ls&lt;br /&gt;
  1992  ls /&lt;br /&gt;
  1993  whereis ls&lt;br /&gt;
  1994  vi /etc[防ban去掉]/hosts&lt;br /&gt;
  1995  cd xxx&lt;br /&gt;
  1996  ls -a&lt;br /&gt;
  1997  cd .&lt;br /&gt;
  1998  cd ..&lt;br /&gt;
  1999  man ls&lt;br /&gt;
  2000  ls&lt;br /&gt;
  2001  ls --color=never&lt;br /&gt;
  2002  man ls&lt;br /&gt;
  2003  ls Documents&lt;br /&gt;
  2004  ls -d Documents&lt;br /&gt;
  2005  ls -ld Documents&lt;br /&gt;
  2006  pwd&lt;br /&gt;
  2007  ls -l&lt;br /&gt;
  2008  ls -lh&lt;br /&gt;
  2009  ls -lS&lt;br /&gt;
  2010  ls -ltc | less&lt;br /&gt;
  2011  ls -lta | less&lt;br /&gt;
  2012  ls -lt | less&lt;br /&gt;
  2013  man ls&lt;br /&gt;
  2014  man man&lt;br /&gt;
  2015  man printf&lt;br /&gt;
  2016  man 3 printf&lt;br /&gt;
  2017  printf '%30d%20.3f' 232 2.2323232&lt;br /&gt;
  2018  printf '%30d%20.3f\n' 232 2.2323232 &lt;br /&gt;
  2019  printf '%-30d%-20.3f\n' 232 2.2323232 &lt;br /&gt;
  2020  man -k print&lt;br /&gt;
  2021  man -k print[efgh]&lt;br /&gt;
  2022  man -k print[e][r]&lt;br /&gt;
&lt;br /&gt;
=== Lesson 2（2025.9.8；第2周）===&lt;br /&gt;
&amp;lt;gallery&amp;gt;&lt;br /&gt;
文件:Linux-2025-fall-2-merged.jpg&lt;br /&gt;
&amp;lt;/gallery&amp;gt;&lt;br /&gt;
* shell基本使用、shell的概念、父shell、子shell&lt;br /&gt;
* 命令语法、ls命令&lt;br /&gt;
* 命令行参数、python中sys.argv&lt;br /&gt;
* 所使用到的命令&lt;br /&gt;
 1988  ps afx | egrep bash&lt;br /&gt;
 1989  echo $$&lt;br /&gt;
 1990  exit&lt;br /&gt;
 1991  ls&lt;br /&gt;
 1992  ps afx | egrep bash&lt;br /&gt;
 1993  bc&lt;br /&gt;
 1994  sudo su&lt;br /&gt;
 1995  ls&lt;br /&gt;
 1996  ls -l&lt;br /&gt;
 1997  ls -a&lt;br /&gt;
 1998  ls --all&lt;br /&gt;
 1999  ls -la&lt;br /&gt;
 2000  ls Downloads/ Documents xxx&lt;br /&gt;
&lt;br /&gt;
=== Lesson 1（2025.9.1；第1周） ===&lt;br /&gt;
&lt;br /&gt;
&amp;lt;gallery&amp;gt;&lt;br /&gt;
Linux-2025-fall-1-merged.jpg&lt;br /&gt;
&amp;lt;/gallery&amp;gt;&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
* 课程介绍、个人介绍&lt;br /&gt;
* Linux安装&lt;br /&gt;
* 图形界面、文字界面&lt;br /&gt;
* 所使用到的命令&lt;br /&gt;
 1987  uname -a&lt;br /&gt;
 1988  ps afx | egrep gnome&lt;br /&gt;
 1989  init 3&lt;br /&gt;
 1990  sudo init 3&lt;br /&gt;
 1991  w&lt;br /&gt;
 1992  who&lt;br /&gt;
 1993  man who&lt;br /&gt;
 1994  w&lt;br /&gt;
 1995  who&lt;br /&gt;
 1996  vi a.txt&lt;br /&gt;
 1997  bash&lt;/div&gt;</summary>
		<author><name>Zhli</name></author>
	</entry>
	<entry>
		<id>http://hlt.suda.edu.cn/index.php?title=Linux-2025-fall&amp;diff=6163</id>
		<title>Linux-2025-fall</title>
		<link rel="alternate" type="text/html" href="http://hlt.suda.edu.cn/index.php?title=Linux-2025-fall&amp;diff=6163"/>
		<updated>2026-01-12T04:42:32Z</updated>

		<summary type="html">&lt;p&gt;Zhli：/* 批试卷用到的 */&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;&lt;br /&gt;
== 课程安排 ==&lt;br /&gt;
* 老师: [http://web.suda.edu.cn/zhli13/ 李正华]&lt;br /&gt;
* 助教：周昊喆、郑书禾&lt;br /&gt;
* 计23计科1班，计23计科2班（大三上）&lt;br /&gt;
* 专业选修课&lt;br /&gt;
* 上课时间和地点&lt;br /&gt;
** 理论课：周一 3-4节 9:55-11:30 逸夫楼334  【1-17周】&lt;br /&gt;
** 实践课：周三 1-2节 8:00-9:35 理工楼243 【单周】&lt;br /&gt;
** 没上课的情况记录：&lt;br /&gt;
* 平时10%（考勤等）、实验成绩30%（实验报告、随堂考试）、期末60%（闭卷）&lt;br /&gt;
&lt;br /&gt;
== 注意事项 ==&lt;br /&gt;
* &amp;lt;span style=&amp;quot;color: #ff0000;&amp;quot;&amp;gt;上机课做学习无关的事情，发现则平时和实验成绩为0 &amp;lt;/span&amp;gt;&lt;br /&gt;
&lt;br /&gt;
== 自学资料 ==&lt;br /&gt;
&lt;br /&gt;
* [http://hlt.suda.edu.cn/index.php/Linux-video-notes 2018年春季上课视频和笔记]&lt;br /&gt;
* [http://hlt.suda.edu.cn/index.php/Linux-2024-spring 2024年上课板书]&lt;br /&gt;
&lt;br /&gt;
== 参考书 ==&lt;br /&gt;
&lt;br /&gt;
* Unix &amp;amp; Linux大学教程 哈恩(Harley Hahn) (作者), 张杰良 (译者) 【基础内容、讲得比较细；图书馆可以借】&lt;br /&gt;
&lt;br /&gt;
* 跟阿铭学Linux 李世明 人民邮电出版社 【难度适中，我们只学前半部分】&lt;br /&gt;
&lt;br /&gt;
* 鸟哥的Linux私房菜 基础学习篇(第三版)【我觉得讲得比较深，想深入学的同学可以考虑用】&lt;br /&gt;
&lt;br /&gt;
== 批试卷用到的 ==&lt;br /&gt;
&lt;br /&gt;
 &amp;lt;nowiki&amp;gt;&lt;br /&gt;
&lt;br /&gt;
awk 'BEGIN {FS=&amp;quot;,&amp;quot;;OFS=&amp;quot;#&amp;quot;}; {print $1, $2}' a.txt&lt;br /&gt;
&lt;br /&gt;
awk -F',' 'BEGIN {OFS=&amp;quot;#&amp;quot;}; {print $1, $2}' a.txt&lt;br /&gt;
&lt;br /&gt;
b=($(cat a.txt)) 【外面的()必须有，否则 b 就不是一个数组了。而是一个字符串了】&lt;br /&gt;
&lt;br /&gt;
a=($(echo 'a b')) 【a 是一个数组了】&lt;br /&gt;
&lt;br /&gt;
sed 's/a/A/g' &amp;lt;&amp;lt;&amp;lt; 'aaa'  字符串的重定向，很有用，应该讲！&lt;br /&gt;
&lt;br /&gt;
a=($(sed 's/,/ /g' &amp;lt;&amp;lt;&amp;lt; 'a,b')) 【a 是数组了】&lt;br /&gt;
&lt;br /&gt;
while read name; do echo $name; done &amp;lt; a.txt  【read 和重定向的配合】&lt;br /&gt;
&lt;br /&gt;
while read -d ',' name; do echo $name; done &amp;lt; a.txt 【-d 是 delimiter，默认是换行符，没遇到一个 delimiter，就会返回一个，最后一个元素后面必须有 delimiter】&lt;br /&gt;
a.txt: a,b,c,&lt;br /&gt;
&lt;br /&gt;
read -a arr &amp;lt;&amp;lt;&amp;lt; 'a b c'  【读入数组，arr 会包含三个元素，默认空白符为分隔符】&lt;br /&gt;
&lt;br /&gt;
awk 中变量直接写，不用取值符，如 print x, y, z&lt;br /&gt;
&lt;br /&gt;
awk -F'\n\r' '{print NF}' a.txt  【每一行一个记录，每个记录只有一个 field，因此会输出多个 1，一行对应一个】&lt;br /&gt;
&lt;br /&gt;
IFS=',' read -a arr &amp;lt;&amp;lt;&amp;lt; $x  【默认是空格，IFS 可以改】【不会跨行的】&lt;br /&gt;
IFS='\n' read -a arr &amp;lt; a.txt 【不会跨行的，只会处理第一行？？】&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
&amp;lt;/nowiki&amp;gt;&lt;br /&gt;
&lt;br /&gt;
== 板书和笔记 ==&lt;br /&gt;
=== TODO ===&lt;br /&gt;
find &lt;br /&gt;
&lt;br /&gt;
top ps kill fg bg 等&lt;br /&gt;
&lt;br /&gt;
11.24  12.1/8/15/22【五次课】&lt;br /&gt;
&lt;br /&gt;
=== Lesson 15（2025.12.15；第16周）===&lt;br /&gt;
&amp;lt;gallery&amp;gt;&lt;br /&gt;
Linux-2025-fall-15-merged.jpg&lt;br /&gt;
&amp;lt;/gallery&amp;gt;&lt;br /&gt;
*find、xargs&lt;br /&gt;
*用户管理&lt;br /&gt;
*压缩、解压缩&lt;br /&gt;
*进程管理&lt;br /&gt;
*随机数生成&lt;br /&gt;
*所用到的指令：&lt;br /&gt;
 1996  find . -mmin -20&lt;br /&gt;
 1997  find . -mmin -20 -name '*.txt'&lt;br /&gt;
 1998  cat a.txt | ls&lt;br /&gt;
 2000  find . -name '*.txt'&lt;br /&gt;
 2002  find . -name '*.txt' | ls -l&lt;br /&gt;
 2003  find . -name '*.txt' -type f -size +5K | du -sh&lt;br /&gt;
 2007  find . -maxdepth 1 -name 'a*.txt'&lt;br /&gt;
 2008  find . -maxdepth 1 -name 'aa*.txt'&lt;br /&gt;
 2010  find . -maxdepth 1 -name 'aa*.txt' -exec ls -l '{}' \;&lt;br /&gt;
 2011  ls aaaa\ bbbb.txt &lt;br /&gt;
 2012  ls -l aaaa\ bbbb.txt &lt;br /&gt;
 2013  ls -l 'aaaa bbbb.txt' &lt;br /&gt;
 2014  find . -maxdepth 1 -name 'aa*.txt' -exec ls -l '{}' +&lt;br /&gt;
&lt;br /&gt;
=== Lesson 14（2025.12.08；第15周）===&lt;br /&gt;
&amp;lt;gallery&amp;gt;&lt;br /&gt;
Linux-2025-fall-14-merged.jpg&lt;br /&gt;
&amp;lt;/gallery&amp;gt;&lt;br /&gt;
*权限&lt;br /&gt;
*时间戳&lt;br /&gt;
*符号链接与硬链接&lt;br /&gt;
*所用到的指令：&lt;br /&gt;
 1998  ls -l a.txt&lt;br /&gt;
 1999  chomd 777 a.txt&lt;br /&gt;
 2000  chmod 777 a.txt&lt;br /&gt;
 2001  ls -l&lt;br /&gt;
 2002  ls -l a.txt&lt;br /&gt;
 2003  ls -l 664 a.txt&lt;br /&gt;
 2004  chmod 664 a.txt&lt;br /&gt;
 2005  ls -l a.txt&lt;br /&gt;
 2006  man umask&lt;br /&gt;
 2007  man 3 umask&lt;br /&gt;
 2008  vi aaa.txt&lt;br /&gt;
 2009  ls -l aaa.txt&lt;br /&gt;
 2010  man chown&lt;br /&gt;
 2011  ls -i /&lt;br /&gt;
 2012  ls -id /&lt;br /&gt;
 2013  stat a.txt&lt;br /&gt;
 2014  cat a.txt&lt;br /&gt;
 2015  stat a.txt&lt;br /&gt;
 2016  chmod o+x a.txt&lt;br /&gt;
 2017  ls -l a.txt&lt;br /&gt;
 2018  stat a.txt&lt;br /&gt;
 2019  echo &amp;quot;hi&amp;quot; &amp;gt; a.txt&lt;br /&gt;
 2020  stat a.txt&lt;br /&gt;
 2021  vi a.txt&lt;br /&gt;
 2022  stat a.txt&lt;br /&gt;
 2023  ls -l a.txt&lt;br /&gt;
 2024  chmod +x a.txt&lt;br /&gt;
 2025  ls -lu a.txt&lt;br /&gt;
 2026  ls -lc a.txt&lt;br /&gt;
 2027  cat a.txt&lt;br /&gt;
 2028  ls -lu a.txt&lt;br /&gt;
 2029  date&lt;br /&gt;
 2030  cat a.txt&lt;br /&gt;
 2031  ls -lu a.txt&lt;br /&gt;
 2032  ls -l a.txt&lt;br /&gt;
 2033  cat a.txt&lt;br /&gt;
 2034  ls -lu a.txt&lt;br /&gt;
 2035  stat&lt;br /&gt;
 2036  stat a.txt&lt;br /&gt;
 2037  cat a.txt&lt;br /&gt;
 2038  stat a.txt&lt;br /&gt;
 2039  less a.txt&lt;br /&gt;
 2040  stat a.txt&lt;br /&gt;
 2041  vi a.txt&lt;br /&gt;
 2042  stat a.txt&lt;br /&gt;
 2043  stat en.dev.autotagMIRA.conll.dep&lt;br /&gt;
 2044  head -n 2 en.dev.autotagMIRA.conll.dep&lt;br /&gt;
 2045  stat en.dev.autotagMIRA.conll.dep&lt;br /&gt;
 2046  ls -lu en.dev.autotagMIRA.conll.dep&lt;br /&gt;
 2047  ls -s xxx/a.txt sln_a.txt&lt;br /&gt;
 2048  ln -s xxx/a.txt sln_a.txt&lt;br /&gt;
 2049  rm sln_a.txt &lt;br /&gt;
 2050  ln -s xxx/a.txt sln_a.txt&lt;br /&gt;
 2051  ls -l sln_a.txt xxx/a.txt&lt;br /&gt;
 2052  ls -li sln_a.txt xxx/a.txt&lt;br /&gt;
 2053  ls&lt;br /&gt;
 2054  ls linux/&lt;br /&gt;
 2055  ln -s /home/zhli/linux/awk/ sln_awk &lt;br /&gt;
 2056* &lt;br /&gt;
 2057  ln -s /home/zhli/linux/awk/ sln_awk2 &lt;br /&gt;
 2058  ls -lid sln_a*&lt;br /&gt;
 2059  ulink sln_awk2/&lt;br /&gt;
 2060  rm sln_awk2&lt;br /&gt;
 2061  ls -lid sln_a*&lt;br /&gt;
 2062  vi sln_awk/test.txt &lt;br /&gt;
 2063  ls -lid sln_awk&lt;br /&gt;
 2064  ls -lid sln_awk/&lt;br /&gt;
 2065  ls -lid sln_awk linux/awk/&lt;br /&gt;
 2066  ls a*.txt&lt;br /&gt;
 2067  ls -l a*.txt&lt;br /&gt;
 2068  ls -li a*.txt&lt;br /&gt;
 2069  rm a_link.txt &lt;br /&gt;
 2070  rm a_bak.txt &lt;br /&gt;
 2071  ls -ltc&lt;br /&gt;
 2072  ls -li a.txt&lt;br /&gt;
 2073  ln a.txt a2.txt&lt;br /&gt;
 2074  ln a.txt a_hardlink.txt&lt;br /&gt;
 2075  ls -li a.txt a_hardlink.txt &lt;br /&gt;
 2076  ls -d linux&lt;br /&gt;
 2077  ls -dl linux&lt;br /&gt;
 2078  mkdir linux/new_dir&lt;br /&gt;
 2079  ls -dl linux&lt;br /&gt;
 2080  history&lt;br /&gt;
&lt;br /&gt;
=== Lesson 13（2025.12.01；第14周）===&lt;br /&gt;
&amp;lt;gallery&amp;gt;&lt;br /&gt;
Linux-2025-fall-13-merged_v1.jpg&lt;br /&gt;
&amp;lt;/gallery&amp;gt;&lt;br /&gt;
*机械硬盘，文件系统 inode，block，superblock&lt;br /&gt;
*挂载 mount&lt;br /&gt;
&lt;br /&gt;
=== Lesson 12（2025.11.24；第13周）【随堂考试 3 道题】===&lt;br /&gt;
&amp;lt;gallery&amp;gt;&lt;br /&gt;
文件:Linux-2025-fall-12-merged.jpg&lt;br /&gt;
&amp;lt;/gallery&amp;gt;&lt;br /&gt;
&lt;br /&gt;
*shell编程（循环，函数，命令行参数）&lt;br /&gt;
*所用到的指令&lt;br /&gt;
&lt;br /&gt;
 1997  for x in `ls`; do echo $x; done&lt;br /&gt;
 1998  a=(Ab Cd 12 34)&lt;br /&gt;
 1999  for x in a; do echo $x; done&lt;br /&gt;
 2000  for x in (Ab Cd 12 34)&lt;br /&gt;
 2001  echo ${a[@]}&lt;br /&gt;
 2002  for x in ${a[@]}; do echo $x; done&lt;br /&gt;
 2004  find . -name '*func*'&lt;br /&gt;
 2005  cp func-202405.sh func-202511.sh &lt;br /&gt;
 2006  vi func-202&lt;br /&gt;
 2007  vi func-202511.sh &lt;br /&gt;
 2008  cat func-202511.sh &lt;br /&gt;
 2009  bash func-202511.sh&lt;br /&gt;
&lt;br /&gt;
=== Lesson 11（2025.11.17；第12周）===&lt;br /&gt;
&amp;lt;gallery&amp;gt;&lt;br /&gt;
Linux-2025-fall-11-merged_all.jpg&lt;br /&gt;
&amp;lt;/gallery&amp;gt;&lt;br /&gt;
&lt;br /&gt;
*shell编程，变量，环境变量&lt;br /&gt;
*test命令&lt;br /&gt;
*变量运算&lt;br /&gt;
*所用到的指令&lt;br /&gt;
&lt;br /&gt;
 1993  x=5&lt;br /&gt;
 1994  y = 3&lt;br /&gt;
 1995  y=3&lt;br /&gt;
 1996  echo $x+$y&lt;br /&gt;
 1997  echo ${x3}&lt;br /&gt;
 1998  echo $x3&lt;br /&gt;
 1999  echo $x35&lt;br /&gt;
 2000  echo $x_3&lt;br /&gt;
 2001  echo $x10&lt;br /&gt;
 2002  echo ${x1}0&lt;br /&gt;
 2003  echo $(($x+$y))&lt;br /&gt;
 2004  man let&lt;br /&gt;
 2005  help let&lt;br /&gt;
 2006  let z=x+y&lt;br /&gt;
 2007  echo $z&lt;br /&gt;
 2008  a=(Ab Cd 12 34)&lt;br /&gt;
 2009  echo $a&lt;br /&gt;
 2010  echo ${a[0]}&lt;br /&gt;
 2011  echo ${a[1]}&lt;br /&gt;
 2012  echo ${#a[@]}&lt;br /&gt;
 2013  bash&lt;br /&gt;
 2014  echo $x&lt;br /&gt;
 2015  export x&lt;br /&gt;
 2016  echo $x&lt;br /&gt;
 2017  bash&lt;br /&gt;
 2018  echo $x&lt;br /&gt;
 2019  bash&lt;br /&gt;
 2020  test 9 -gt 7&lt;br /&gt;
 2021  echo $?&lt;br /&gt;
 2022  test 9 -gt 19&lt;br /&gt;
 2023  echo $?&lt;br /&gt;
 2024  [ 9 -gt 19 ]&lt;br /&gt;
 2025  echo $?&lt;br /&gt;
 2026  [ -z $x ]&lt;br /&gt;
 2027  echo $?&lt;br /&gt;
 2028  echo $x&lt;br /&gt;
 2029  [ -z x ]&lt;br /&gt;
 2030  echo $?&lt;br /&gt;
 2031  [ -z '' ]&lt;br /&gt;
 2032  echo $?&lt;br /&gt;
 2033  [ 9 -gt 7 -a 9 -gt 19 ]&lt;br /&gt;
 2034  echo $?&lt;br /&gt;
 2035  [ 9 -gt 7 ] &amp;amp;&amp;amp; [ 9 -gt 19 ]&lt;br /&gt;
 2036  echo $?&lt;br /&gt;
 2037  help test&lt;br /&gt;
 2038  w&lt;br /&gt;
 2039  x=`ls /bin`&lt;br /&gt;
 2040  echo $x&lt;br /&gt;
 2041  y=$(ls /bin)&lt;br /&gt;
 2042  echo $y&lt;br /&gt;
 2043  echo ${#x}&lt;br /&gt;
 2044  read -p 'xxx: ' x&lt;br /&gt;
 2045  echo $x&lt;br /&gt;
 2046  read -p 'xxx: ' x&lt;br /&gt;
 2047  echo $x&lt;br /&gt;
 2048  help read&lt;br /&gt;
 2049  read x y&lt;br /&gt;
 2050  echo $x $y&lt;br /&gt;
 2051  echo $x&lt;br /&gt;
 2052  echo $y&lt;br /&gt;
&lt;br /&gt;
=== Lesson 10（2025.11.10；第11周）===&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
&amp;lt;gallery&amp;gt;&lt;br /&gt;
Linux-2025-fall-10-merged.jpg&lt;br /&gt;
&amp;lt;/gallery&amp;gt;&lt;br /&gt;
&lt;br /&gt;
*sed命令&lt;br /&gt;
*awk命令&lt;br /&gt;
* 所使用到的命令&lt;br /&gt;
 1992  egrep 'hello' a.txt &lt;br /&gt;
 1993  egrep -n 'hello' a.txt &lt;br /&gt;
 1994  egrep -no 'hello' a.txt &lt;br /&gt;
 1995  egrep 'hello'&lt;br /&gt;
 1996  egrep '\w\w\w' &lt;br /&gt;
 1997  egrep '[[:punct:]]' &lt;br /&gt;
 1998  egrep '[[:digit:]]' &lt;br /&gt;
 1999  egrep '[a-z]*'&lt;br /&gt;
 2000  egrep '[a-z]{3}'&lt;br /&gt;
 2001  man egrep&lt;br /&gt;
 2002  egrep '(abc)|(ABC)' &lt;br /&gt;
 2003  egrep '^[0-9]{3}'&lt;br /&gt;
 2004  egrep '^.....$'&lt;br /&gt;
 2005  ls (a|b).txt&lt;br /&gt;
 2006  ls a|b.txt&lt;br /&gt;
 2007  egrep '[a-z]{3}\1' &lt;br /&gt;
 2008  egrep '([a-z]{3})\1' &lt;br /&gt;
 2009  tr 'a-z' 'A-Z'&lt;br /&gt;
 2010  tr 'za-y' 'A-Z'&lt;br /&gt;
 2011  man tr&lt;br /&gt;
 2012  tr -d 'a-z' &lt;br /&gt;
 2013  tr -s 'a-z'&lt;br /&gt;
 2014  tr -s -C 'a-z'&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
测试样例如下：&lt;br /&gt;
&amp;lt;gallery&amp;gt;&lt;br /&gt;
Linux-2025-fall-10-test.png&lt;br /&gt;
&amp;lt;/gallery&amp;gt;&lt;br /&gt;
&lt;br /&gt;
awk常用内置函数：&lt;br /&gt;
&amp;lt;gallery&amp;gt;&lt;br /&gt;
Linux-2025-fall-10-awk.jpg&lt;br /&gt;
&amp;lt;/gallery&amp;gt;&lt;br /&gt;
&lt;br /&gt;
=== Lesson 9（2025.11.3；第10周）===&lt;br /&gt;
&amp;lt;gallery&amp;gt;&lt;br /&gt;
Linux-2025-fall-9-merged.jpg&lt;br /&gt;
&amp;lt;/gallery&amp;gt;&lt;br /&gt;
*正则表达式&lt;br /&gt;
*tr命令&lt;br /&gt;
* 所使用到的命令&lt;br /&gt;
 1992  egrep 'hello' a.txt &lt;br /&gt;
 1993  egrep -n 'hello' a.txt &lt;br /&gt;
 1994  egrep -no 'hello' a.txt &lt;br /&gt;
 1995  egrep 'hello'&lt;br /&gt;
 1996  egrep '\w\w\w' &lt;br /&gt;
 1997  egrep '[[:punct:]]' &lt;br /&gt;
 1998  egrep '[[:digit:]]' &lt;br /&gt;
 1999  egrep '[a-z]*'&lt;br /&gt;
 2000  egrep '[a-z]{3}'&lt;br /&gt;
 2001  man egrep&lt;br /&gt;
 2002  egrep '(abc)|(ABC)' &lt;br /&gt;
 2003  egrep '^[0-9]{3}'&lt;br /&gt;
 2004  egrep '^.....$'&lt;br /&gt;
 2005  ls (a|b).txt&lt;br /&gt;
 2006  ls a|b.txt&lt;br /&gt;
 2007  egrep '[a-z]{3}\1' &lt;br /&gt;
 2008  egrep '([a-z]{3})\1' &lt;br /&gt;
 2009  tr 'a-z' 'A-Z'&lt;br /&gt;
 2010  tr 'za-y' 'A-Z'&lt;br /&gt;
 2011  man tr&lt;br /&gt;
 2012  tr -d 'a-z' &lt;br /&gt;
 2013  tr -s 'a-z'&lt;br /&gt;
 2014  tr -s -C 'a-z'&lt;br /&gt;
&lt;br /&gt;
* 命令演示截图&lt;br /&gt;
&amp;lt;gallery&amp;gt;&lt;br /&gt;
Linux-2025-fall-9-(2)-merged.jpg&lt;br /&gt;
&amp;lt;/gallery&amp;gt;&lt;br /&gt;
&lt;br /&gt;
=== Lesson 8（2025.10.27；第9周）===&lt;br /&gt;
&amp;lt;gallery&amp;gt;&lt;br /&gt;
Linux-2025-fall-8-merged-.jpg&lt;br /&gt;
&amp;lt;/gallery&amp;gt;&lt;br /&gt;
*重定向输入，重定向输出&lt;br /&gt;
*前台运行程序与后台运行程序&lt;br /&gt;
*Linux哲学&lt;br /&gt;
*管道的应用，以及sort，uniq，wc，egrep命令等。&lt;br /&gt;
* 所使用到的命令&lt;br /&gt;
 1990  ls &amp;gt; a.txt&lt;br /&gt;
 1991  vi a.txt &lt;br /&gt;
 1992  ls /root &amp;gt; a.txt&lt;br /&gt;
 1993  vi a.txt&lt;br /&gt;
 1994  help fg&lt;br /&gt;
 1995  vi a.txt&lt;br /&gt;
 1996  less a.txt &lt;br /&gt;
 1997  bg&lt;br /&gt;
 1998  jobs&lt;br /&gt;
 1999  fg 1&lt;br /&gt;
 2000  cat &lt;br /&gt;
 2001  vi a.txt &lt;br /&gt;
 2002  cat a.txt &lt;br /&gt;
 2003  cat &amp;lt; a.txt&lt;br /&gt;
 2004  find . -name 'words'&lt;br /&gt;
 2005  vi words&lt;br /&gt;
 2006  find . -name 'name'&lt;br /&gt;
 2007  find . -name '*name*'&lt;br /&gt;
 2008  vi names&lt;br /&gt;
 2009  mv names names.txt&lt;br /&gt;
 2010  cat names &lt;br /&gt;
 2011  cat names.txt &lt;br /&gt;
 2012  cat names.txt | sort &lt;br /&gt;
 2013  cat names.txt | sort | uniq&lt;br /&gt;
 2014  cat names.txt | sort | uniq -c&lt;br /&gt;
 2015  cat names.txt | sort | uniq -c | sort -n -k 1&lt;br /&gt;
 2016  cat names.txt | sort | uniq -c | sort -rn -k 1&lt;br /&gt;
 2017  vi names.txt &lt;br /&gt;
 2018  cat names.txt | sort | uniq -c | sort -rn -k 1&lt;br /&gt;
 2019  man sort&lt;br /&gt;
 2020  vi names.txt &lt;br /&gt;
 2021  cat names.txt | tee names2.txt | sort&lt;br /&gt;
 2022  vi names2.txt &lt;br /&gt;
 2023  man tee&lt;br /&gt;
 2024  sort a.txt&lt;br /&gt;
 2025  sort names.txt &lt;br /&gt;
 2026  sort names.txt | uniq &lt;br /&gt;
 2027  sort names.txt | uniq | wc&lt;br /&gt;
 2028  sort names.txt | uniq | wc -l&lt;br /&gt;
 2029  sort -u names.txt&lt;br /&gt;
 2030  man egrep&lt;br /&gt;
 2031  egrep '.....' words | less&lt;br /&gt;
 2032  egrep '^.....$' words | less&lt;br /&gt;
 2033  egrep -n '^.....$' words | less&lt;br /&gt;
 2034  egrep 'wat' words&lt;br /&gt;
 2035  egrep -o 'wat' words&lt;br /&gt;
 2036  find /etc/ -name '*words*'&lt;br /&gt;
&lt;br /&gt;
* 管道测试样例&lt;br /&gt;
Zhenghua&amp;lt;br&amp;gt;&lt;br /&gt;
Zhenghua&amp;lt;br&amp;gt;&lt;br /&gt;
Zhangsan&amp;lt;br&amp;gt;&lt;br /&gt;
Lisi&amp;lt;br&amp;gt;&lt;br /&gt;
Lily&amp;lt;br&amp;gt;&lt;br /&gt;
Zhenghua&amp;lt;br&amp;gt;&lt;br /&gt;
Zhenghua&amp;lt;br&amp;gt;&lt;br /&gt;
Lisi&amp;lt;br&amp;gt;&lt;br /&gt;
Zhangsan&amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
=== Lesson 7（2025.10.20；第8周）【随堂考试 4 道题】===&lt;br /&gt;
&amp;lt;gallery&amp;gt;&lt;br /&gt;
Linux-2025-fall-7-merged.jpg&lt;br /&gt;
&amp;lt;/gallery&amp;gt;&lt;br /&gt;
*复习vi&lt;br /&gt;
*通配符的概念，使用方法&lt;br /&gt;
*重定向输入&lt;br /&gt;
&lt;br /&gt;
=== Lesson 6（2025.10.13；第7周）===&lt;br /&gt;
&amp;lt;gallery&amp;gt;&lt;br /&gt;
Linux-2025-fall-6-merged.jpg&lt;br /&gt;
&amp;lt;/gallery&amp;gt;&lt;br /&gt;
*普通（命令）模式下，移动光标，删除，复制粘贴，替换，撤销等操作&lt;br /&gt;
&lt;br /&gt;
=== Lesson 5（2025.9.29；第5周）===&lt;br /&gt;
&amp;lt;gallery&amp;gt;&lt;br /&gt;
Linux-2025-fall-5-merged.jpg&lt;br /&gt;
&amp;lt;/gallery&amp;gt;&lt;br /&gt;
*cp，mkdir, mv, rm等命令的使用&lt;br /&gt;
*内部命令与外部命令的区别&lt;br /&gt;
*vi的介绍。&lt;br /&gt;
* 所使用到的命令&lt;br /&gt;
 1990  type rm mkdir ls cd pwd&lt;br /&gt;
 1991  alias lm='ls -la --color=never'&lt;br /&gt;
 1992  lm &lt;br /&gt;
 1993  ls -la&lt;br /&gt;
 1994  echo $PATH&lt;br /&gt;
&lt;br /&gt;
=== Lesson 4（2025.9.22；第4周）【随堂考试 3 道题】===&lt;br /&gt;
&lt;br /&gt;
&amp;lt;gallery&amp;gt;&lt;br /&gt;
Linux-2025-fall-4-merged.jpg&lt;br /&gt;
&amp;lt;/gallery&amp;gt;&lt;br /&gt;
*shell使用技巧（快捷键进行检索，终止进程等）&lt;br /&gt;
*文件查看（cat，head，tail，less，hexdump命令等）&lt;br /&gt;
*文件操作（cp命令）&lt;br /&gt;
* 所使用到的命令&lt;br /&gt;
 1991  history &lt;br /&gt;
 1992  history | egrep 'man'&lt;br /&gt;
 1993  man printf&lt;br /&gt;
 1994  man ls&lt;br /&gt;
 1995  ls&lt;br /&gt;
 1996* &lt;br /&gt;
 1997  history | egrep 'man'&lt;br /&gt;
 1998  less en.dev.autotagMIRA.conll.dep&lt;br /&gt;
 1999  man hexdump &lt;br /&gt;
 2000  hexdump -c en.dev.autotagMIRA.conll.dep&lt;br /&gt;
 2001  hexdump -c en.dev.autotagMIRA.conll.dep | less&lt;br /&gt;
 2002  hexdump en.dev.autotagMIRA.conll.dep | less&lt;br /&gt;
 2003  hexdump -c en.dev.autotagMIRA.conll.dep | less&lt;br /&gt;
 2004  man cp&lt;br /&gt;
&lt;br /&gt;
=== Lesson 3（2025.9.15；第3周）===&lt;br /&gt;
&amp;lt;gallery&amp;gt;&lt;br /&gt;
Linux-2025-fall-3-merged.jpg&lt;br /&gt;
&amp;lt;/gallery&amp;gt;&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
*man ls的使用方法&lt;br /&gt;
*man man（man的基本使用）&lt;br /&gt;
* 所使用到的命令&lt;br /&gt;
  1991  ls&lt;br /&gt;
  1992  ls /&lt;br /&gt;
  1993  whereis ls&lt;br /&gt;
  1994  vi /etc[防ban去掉]/hosts&lt;br /&gt;
  1995  cd xxx&lt;br /&gt;
  1996  ls -a&lt;br /&gt;
  1997  cd .&lt;br /&gt;
  1998  cd ..&lt;br /&gt;
  1999  man ls&lt;br /&gt;
  2000  ls&lt;br /&gt;
  2001  ls --color=never&lt;br /&gt;
  2002  man ls&lt;br /&gt;
  2003  ls Documents&lt;br /&gt;
  2004  ls -d Documents&lt;br /&gt;
  2005  ls -ld Documents&lt;br /&gt;
  2006  pwd&lt;br /&gt;
  2007  ls -l&lt;br /&gt;
  2008  ls -lh&lt;br /&gt;
  2009  ls -lS&lt;br /&gt;
  2010  ls -ltc | less&lt;br /&gt;
  2011  ls -lta | less&lt;br /&gt;
  2012  ls -lt | less&lt;br /&gt;
  2013  man ls&lt;br /&gt;
  2014  man man&lt;br /&gt;
  2015  man printf&lt;br /&gt;
  2016  man 3 printf&lt;br /&gt;
  2017  printf '%30d%20.3f' 232 2.2323232&lt;br /&gt;
  2018  printf '%30d%20.3f\n' 232 2.2323232 &lt;br /&gt;
  2019  printf '%-30d%-20.3f\n' 232 2.2323232 &lt;br /&gt;
  2020  man -k print&lt;br /&gt;
  2021  man -k print[efgh]&lt;br /&gt;
  2022  man -k print[e][r]&lt;br /&gt;
&lt;br /&gt;
=== Lesson 2（2025.9.8；第2周）===&lt;br /&gt;
&amp;lt;gallery&amp;gt;&lt;br /&gt;
文件:Linux-2025-fall-2-merged.jpg&lt;br /&gt;
&amp;lt;/gallery&amp;gt;&lt;br /&gt;
* shell基本使用、shell的概念、父shell、子shell&lt;br /&gt;
* 命令语法、ls命令&lt;br /&gt;
* 命令行参数、python中sys.argv&lt;br /&gt;
* 所使用到的命令&lt;br /&gt;
 1988  ps afx | egrep bash&lt;br /&gt;
 1989  echo $$&lt;br /&gt;
 1990  exit&lt;br /&gt;
 1991  ls&lt;br /&gt;
 1992  ps afx | egrep bash&lt;br /&gt;
 1993  bc&lt;br /&gt;
 1994  sudo su&lt;br /&gt;
 1995  ls&lt;br /&gt;
 1996  ls -l&lt;br /&gt;
 1997  ls -a&lt;br /&gt;
 1998  ls --all&lt;br /&gt;
 1999  ls -la&lt;br /&gt;
 2000  ls Downloads/ Documents xxx&lt;br /&gt;
&lt;br /&gt;
=== Lesson 1（2025.9.1；第1周） ===&lt;br /&gt;
&lt;br /&gt;
&amp;lt;gallery&amp;gt;&lt;br /&gt;
Linux-2025-fall-1-merged.jpg&lt;br /&gt;
&amp;lt;/gallery&amp;gt;&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
* 课程介绍、个人介绍&lt;br /&gt;
* Linux安装&lt;br /&gt;
* 图形界面、文字界面&lt;br /&gt;
* 所使用到的命令&lt;br /&gt;
 1987  uname -a&lt;br /&gt;
 1988  ps afx | egrep gnome&lt;br /&gt;
 1989  init 3&lt;br /&gt;
 1990  sudo init 3&lt;br /&gt;
 1991  w&lt;br /&gt;
 1992  who&lt;br /&gt;
 1993  man who&lt;br /&gt;
 1994  w&lt;br /&gt;
 1995  who&lt;br /&gt;
 1996  vi a.txt&lt;br /&gt;
 1997  bash&lt;/div&gt;</summary>
		<author><name>Zhli</name></author>
	</entry>
	<entry>
		<id>http://hlt.suda.edu.cn/index.php?title=Linux-2025-fall&amp;diff=6162</id>
		<title>Linux-2025-fall</title>
		<link rel="alternate" type="text/html" href="http://hlt.suda.edu.cn/index.php?title=Linux-2025-fall&amp;diff=6162"/>
		<updated>2026-01-12T02:54:46Z</updated>

		<summary type="html">&lt;p&gt;Zhli：/* 批试卷用到的 */&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;&lt;br /&gt;
== 课程安排 ==&lt;br /&gt;
* 老师: [http://web.suda.edu.cn/zhli13/ 李正华]&lt;br /&gt;
* 助教：周昊喆、郑书禾&lt;br /&gt;
* 计23计科1班，计23计科2班（大三上）&lt;br /&gt;
* 专业选修课&lt;br /&gt;
* 上课时间和地点&lt;br /&gt;
** 理论课：周一 3-4节 9:55-11:30 逸夫楼334  【1-17周】&lt;br /&gt;
** 实践课：周三 1-2节 8:00-9:35 理工楼243 【单周】&lt;br /&gt;
** 没上课的情况记录：&lt;br /&gt;
* 平时10%（考勤等）、实验成绩30%（实验报告、随堂考试）、期末60%（闭卷）&lt;br /&gt;
&lt;br /&gt;
== 注意事项 ==&lt;br /&gt;
* &amp;lt;span style=&amp;quot;color: #ff0000;&amp;quot;&amp;gt;上机课做学习无关的事情，发现则平时和实验成绩为0 &amp;lt;/span&amp;gt;&lt;br /&gt;
&lt;br /&gt;
== 自学资料 ==&lt;br /&gt;
&lt;br /&gt;
* [http://hlt.suda.edu.cn/index.php/Linux-video-notes 2018年春季上课视频和笔记]&lt;br /&gt;
* [http://hlt.suda.edu.cn/index.php/Linux-2024-spring 2024年上课板书]&lt;br /&gt;
&lt;br /&gt;
== 参考书 ==&lt;br /&gt;
&lt;br /&gt;
* Unix &amp;amp; Linux大学教程 哈恩(Harley Hahn) (作者), 张杰良 (译者) 【基础内容、讲得比较细；图书馆可以借】&lt;br /&gt;
&lt;br /&gt;
* 跟阿铭学Linux 李世明 人民邮电出版社 【难度适中，我们只学前半部分】&lt;br /&gt;
&lt;br /&gt;
* 鸟哥的Linux私房菜 基础学习篇(第三版)【我觉得讲得比较深，想深入学的同学可以考虑用】&lt;br /&gt;
&lt;br /&gt;
== 批试卷用到的 ==&lt;br /&gt;
&lt;br /&gt;
 &amp;lt;nowiki&amp;gt;&lt;br /&gt;
&lt;br /&gt;
awk 'BEGIN {FS=&amp;quot;,&amp;quot;;OFS=&amp;quot;#&amp;quot;}; {print $1, $2}' a.txt&lt;br /&gt;
&lt;br /&gt;
awk -F',' 'BEGIN {OFS=&amp;quot;#&amp;quot;}; {print $1, $2}' a.txt&lt;br /&gt;
&lt;br /&gt;
b=($(cat a.txt)) 【外面的()必须有，否则 b 就不是一个数组了。而是一个字符串了】&lt;br /&gt;
&lt;br /&gt;
a=($(echo 'a b')) 【a 是一个数组了】&lt;br /&gt;
&lt;br /&gt;
sed 's/a/A/g' &amp;lt;&amp;lt;&amp;lt; 'aaa'  字符串的重定向，很有用，应该讲！&lt;br /&gt;
&lt;br /&gt;
a=($(sed 's/,/ /g' &amp;lt;&amp;lt;&amp;lt; 'a,b')) 【a 是数组了】&lt;br /&gt;
&lt;br /&gt;
while read name; do echo $name; done &amp;lt; a.txt  【read 和重定向的配合】&lt;br /&gt;
&lt;br /&gt;
while read -d ',' name; do echo $name; done &amp;lt; a.txt 【-d 是 delimiter，默认是换行符，没遇到一个 delimiter，就会返回一个，最后一个元素后面必须有 delimiter】&lt;br /&gt;
a.txt: a,b,c,&lt;br /&gt;
&lt;br /&gt;
read -a arr &amp;lt;&amp;lt;&amp;lt; 'a b c'  【读入数组，arr 会包含三个元素，默认空白符为分隔符】&lt;br /&gt;
&lt;br /&gt;
awk 中变量直接写，不用取值符，如 print x, y, z&lt;br /&gt;
&lt;br /&gt;
awk -F'\n\r' '{print NF}' a.txt  【每一行一个记录，每个记录只有一个 field，因此会输出多个 1，一行对应一个】&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
&amp;lt;/nowiki&amp;gt;&lt;br /&gt;
&lt;br /&gt;
== 板书和笔记 ==&lt;br /&gt;
=== TODO ===&lt;br /&gt;
find &lt;br /&gt;
&lt;br /&gt;
top ps kill fg bg 等&lt;br /&gt;
&lt;br /&gt;
11.24  12.1/8/15/22【五次课】&lt;br /&gt;
&lt;br /&gt;
=== Lesson 15（2025.12.15；第16周）===&lt;br /&gt;
&amp;lt;gallery&amp;gt;&lt;br /&gt;
Linux-2025-fall-15-merged.jpg&lt;br /&gt;
&amp;lt;/gallery&amp;gt;&lt;br /&gt;
*find、xargs&lt;br /&gt;
*用户管理&lt;br /&gt;
*压缩、解压缩&lt;br /&gt;
*进程管理&lt;br /&gt;
*随机数生成&lt;br /&gt;
*所用到的指令：&lt;br /&gt;
 1996  find . -mmin -20&lt;br /&gt;
 1997  find . -mmin -20 -name '*.txt'&lt;br /&gt;
 1998  cat a.txt | ls&lt;br /&gt;
 2000  find . -name '*.txt'&lt;br /&gt;
 2002  find . -name '*.txt' | ls -l&lt;br /&gt;
 2003  find . -name '*.txt' -type f -size +5K | du -sh&lt;br /&gt;
 2007  find . -maxdepth 1 -name 'a*.txt'&lt;br /&gt;
 2008  find . -maxdepth 1 -name 'aa*.txt'&lt;br /&gt;
 2010  find . -maxdepth 1 -name 'aa*.txt' -exec ls -l '{}' \;&lt;br /&gt;
 2011  ls aaaa\ bbbb.txt &lt;br /&gt;
 2012  ls -l aaaa\ bbbb.txt &lt;br /&gt;
 2013  ls -l 'aaaa bbbb.txt' &lt;br /&gt;
 2014  find . -maxdepth 1 -name 'aa*.txt' -exec ls -l '{}' +&lt;br /&gt;
&lt;br /&gt;
=== Lesson 14（2025.12.08；第15周）===&lt;br /&gt;
&amp;lt;gallery&amp;gt;&lt;br /&gt;
Linux-2025-fall-14-merged.jpg&lt;br /&gt;
&amp;lt;/gallery&amp;gt;&lt;br /&gt;
*权限&lt;br /&gt;
*时间戳&lt;br /&gt;
*符号链接与硬链接&lt;br /&gt;
*所用到的指令：&lt;br /&gt;
 1998  ls -l a.txt&lt;br /&gt;
 1999  chomd 777 a.txt&lt;br /&gt;
 2000  chmod 777 a.txt&lt;br /&gt;
 2001  ls -l&lt;br /&gt;
 2002  ls -l a.txt&lt;br /&gt;
 2003  ls -l 664 a.txt&lt;br /&gt;
 2004  chmod 664 a.txt&lt;br /&gt;
 2005  ls -l a.txt&lt;br /&gt;
 2006  man umask&lt;br /&gt;
 2007  man 3 umask&lt;br /&gt;
 2008  vi aaa.txt&lt;br /&gt;
 2009  ls -l aaa.txt&lt;br /&gt;
 2010  man chown&lt;br /&gt;
 2011  ls -i /&lt;br /&gt;
 2012  ls -id /&lt;br /&gt;
 2013  stat a.txt&lt;br /&gt;
 2014  cat a.txt&lt;br /&gt;
 2015  stat a.txt&lt;br /&gt;
 2016  chmod o+x a.txt&lt;br /&gt;
 2017  ls -l a.txt&lt;br /&gt;
 2018  stat a.txt&lt;br /&gt;
 2019  echo &amp;quot;hi&amp;quot; &amp;gt; a.txt&lt;br /&gt;
 2020  stat a.txt&lt;br /&gt;
 2021  vi a.txt&lt;br /&gt;
 2022  stat a.txt&lt;br /&gt;
 2023  ls -l a.txt&lt;br /&gt;
 2024  chmod +x a.txt&lt;br /&gt;
 2025  ls -lu a.txt&lt;br /&gt;
 2026  ls -lc a.txt&lt;br /&gt;
 2027  cat a.txt&lt;br /&gt;
 2028  ls -lu a.txt&lt;br /&gt;
 2029  date&lt;br /&gt;
 2030  cat a.txt&lt;br /&gt;
 2031  ls -lu a.txt&lt;br /&gt;
 2032  ls -l a.txt&lt;br /&gt;
 2033  cat a.txt&lt;br /&gt;
 2034  ls -lu a.txt&lt;br /&gt;
 2035  stat&lt;br /&gt;
 2036  stat a.txt&lt;br /&gt;
 2037  cat a.txt&lt;br /&gt;
 2038  stat a.txt&lt;br /&gt;
 2039  less a.txt&lt;br /&gt;
 2040  stat a.txt&lt;br /&gt;
 2041  vi a.txt&lt;br /&gt;
 2042  stat a.txt&lt;br /&gt;
 2043  stat en.dev.autotagMIRA.conll.dep&lt;br /&gt;
 2044  head -n 2 en.dev.autotagMIRA.conll.dep&lt;br /&gt;
 2045  stat en.dev.autotagMIRA.conll.dep&lt;br /&gt;
 2046  ls -lu en.dev.autotagMIRA.conll.dep&lt;br /&gt;
 2047  ls -s xxx/a.txt sln_a.txt&lt;br /&gt;
 2048  ln -s xxx/a.txt sln_a.txt&lt;br /&gt;
 2049  rm sln_a.txt &lt;br /&gt;
 2050  ln -s xxx/a.txt sln_a.txt&lt;br /&gt;
 2051  ls -l sln_a.txt xxx/a.txt&lt;br /&gt;
 2052  ls -li sln_a.txt xxx/a.txt&lt;br /&gt;
 2053  ls&lt;br /&gt;
 2054  ls linux/&lt;br /&gt;
 2055  ln -s /home/zhli/linux/awk/ sln_awk &lt;br /&gt;
 2056* &lt;br /&gt;
 2057  ln -s /home/zhli/linux/awk/ sln_awk2 &lt;br /&gt;
 2058  ls -lid sln_a*&lt;br /&gt;
 2059  ulink sln_awk2/&lt;br /&gt;
 2060  rm sln_awk2&lt;br /&gt;
 2061  ls -lid sln_a*&lt;br /&gt;
 2062  vi sln_awk/test.txt &lt;br /&gt;
 2063  ls -lid sln_awk&lt;br /&gt;
 2064  ls -lid sln_awk/&lt;br /&gt;
 2065  ls -lid sln_awk linux/awk/&lt;br /&gt;
 2066  ls a*.txt&lt;br /&gt;
 2067  ls -l a*.txt&lt;br /&gt;
 2068  ls -li a*.txt&lt;br /&gt;
 2069  rm a_link.txt &lt;br /&gt;
 2070  rm a_bak.txt &lt;br /&gt;
 2071  ls -ltc&lt;br /&gt;
 2072  ls -li a.txt&lt;br /&gt;
 2073  ln a.txt a2.txt&lt;br /&gt;
 2074  ln a.txt a_hardlink.txt&lt;br /&gt;
 2075  ls -li a.txt a_hardlink.txt &lt;br /&gt;
 2076  ls -d linux&lt;br /&gt;
 2077  ls -dl linux&lt;br /&gt;
 2078  mkdir linux/new_dir&lt;br /&gt;
 2079  ls -dl linux&lt;br /&gt;
 2080  history&lt;br /&gt;
&lt;br /&gt;
=== Lesson 13（2025.12.01；第14周）===&lt;br /&gt;
&amp;lt;gallery&amp;gt;&lt;br /&gt;
Linux-2025-fall-13-merged_v1.jpg&lt;br /&gt;
&amp;lt;/gallery&amp;gt;&lt;br /&gt;
*机械硬盘，文件系统 inode，block，superblock&lt;br /&gt;
*挂载 mount&lt;br /&gt;
&lt;br /&gt;
=== Lesson 12（2025.11.24；第13周）【随堂考试 3 道题】===&lt;br /&gt;
&amp;lt;gallery&amp;gt;&lt;br /&gt;
文件:Linux-2025-fall-12-merged.jpg&lt;br /&gt;
&amp;lt;/gallery&amp;gt;&lt;br /&gt;
&lt;br /&gt;
*shell编程（循环，函数，命令行参数）&lt;br /&gt;
*所用到的指令&lt;br /&gt;
&lt;br /&gt;
 1997  for x in `ls`; do echo $x; done&lt;br /&gt;
 1998  a=(Ab Cd 12 34)&lt;br /&gt;
 1999  for x in a; do echo $x; done&lt;br /&gt;
 2000  for x in (Ab Cd 12 34)&lt;br /&gt;
 2001  echo ${a[@]}&lt;br /&gt;
 2002  for x in ${a[@]}; do echo $x; done&lt;br /&gt;
 2004  find . -name '*func*'&lt;br /&gt;
 2005  cp func-202405.sh func-202511.sh &lt;br /&gt;
 2006  vi func-202&lt;br /&gt;
 2007  vi func-202511.sh &lt;br /&gt;
 2008  cat func-202511.sh &lt;br /&gt;
 2009  bash func-202511.sh&lt;br /&gt;
&lt;br /&gt;
=== Lesson 11（2025.11.17；第12周）===&lt;br /&gt;
&amp;lt;gallery&amp;gt;&lt;br /&gt;
Linux-2025-fall-11-merged_all.jpg&lt;br /&gt;
&amp;lt;/gallery&amp;gt;&lt;br /&gt;
&lt;br /&gt;
*shell编程，变量，环境变量&lt;br /&gt;
*test命令&lt;br /&gt;
*变量运算&lt;br /&gt;
*所用到的指令&lt;br /&gt;
&lt;br /&gt;
 1993  x=5&lt;br /&gt;
 1994  y = 3&lt;br /&gt;
 1995  y=3&lt;br /&gt;
 1996  echo $x+$y&lt;br /&gt;
 1997  echo ${x3}&lt;br /&gt;
 1998  echo $x3&lt;br /&gt;
 1999  echo $x35&lt;br /&gt;
 2000  echo $x_3&lt;br /&gt;
 2001  echo $x10&lt;br /&gt;
 2002  echo ${x1}0&lt;br /&gt;
 2003  echo $(($x+$y))&lt;br /&gt;
 2004  man let&lt;br /&gt;
 2005  help let&lt;br /&gt;
 2006  let z=x+y&lt;br /&gt;
 2007  echo $z&lt;br /&gt;
 2008  a=(Ab Cd 12 34)&lt;br /&gt;
 2009  echo $a&lt;br /&gt;
 2010  echo ${a[0]}&lt;br /&gt;
 2011  echo ${a[1]}&lt;br /&gt;
 2012  echo ${#a[@]}&lt;br /&gt;
 2013  bash&lt;br /&gt;
 2014  echo $x&lt;br /&gt;
 2015  export x&lt;br /&gt;
 2016  echo $x&lt;br /&gt;
 2017  bash&lt;br /&gt;
 2018  echo $x&lt;br /&gt;
 2019  bash&lt;br /&gt;
 2020  test 9 -gt 7&lt;br /&gt;
 2021  echo $?&lt;br /&gt;
 2022  test 9 -gt 19&lt;br /&gt;
 2023  echo $?&lt;br /&gt;
 2024  [ 9 -gt 19 ]&lt;br /&gt;
 2025  echo $?&lt;br /&gt;
 2026  [ -z $x ]&lt;br /&gt;
 2027  echo $?&lt;br /&gt;
 2028  echo $x&lt;br /&gt;
 2029  [ -z x ]&lt;br /&gt;
 2030  echo $?&lt;br /&gt;
 2031  [ -z '' ]&lt;br /&gt;
 2032  echo $?&lt;br /&gt;
 2033  [ 9 -gt 7 -a 9 -gt 19 ]&lt;br /&gt;
 2034  echo $?&lt;br /&gt;
 2035  [ 9 -gt 7 ] &amp;amp;&amp;amp; [ 9 -gt 19 ]&lt;br /&gt;
 2036  echo $?&lt;br /&gt;
 2037  help test&lt;br /&gt;
 2038  w&lt;br /&gt;
 2039  x=`ls /bin`&lt;br /&gt;
 2040  echo $x&lt;br /&gt;
 2041  y=$(ls /bin)&lt;br /&gt;
 2042  echo $y&lt;br /&gt;
 2043  echo ${#x}&lt;br /&gt;
 2044  read -p 'xxx: ' x&lt;br /&gt;
 2045  echo $x&lt;br /&gt;
 2046  read -p 'xxx: ' x&lt;br /&gt;
 2047  echo $x&lt;br /&gt;
 2048  help read&lt;br /&gt;
 2049  read x y&lt;br /&gt;
 2050  echo $x $y&lt;br /&gt;
 2051  echo $x&lt;br /&gt;
 2052  echo $y&lt;br /&gt;
&lt;br /&gt;
=== Lesson 10（2025.11.10；第11周）===&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
&amp;lt;gallery&amp;gt;&lt;br /&gt;
Linux-2025-fall-10-merged.jpg&lt;br /&gt;
&amp;lt;/gallery&amp;gt;&lt;br /&gt;
&lt;br /&gt;
*sed命令&lt;br /&gt;
*awk命令&lt;br /&gt;
* 所使用到的命令&lt;br /&gt;
 1992  egrep 'hello' a.txt &lt;br /&gt;
 1993  egrep -n 'hello' a.txt &lt;br /&gt;
 1994  egrep -no 'hello' a.txt &lt;br /&gt;
 1995  egrep 'hello'&lt;br /&gt;
 1996  egrep '\w\w\w' &lt;br /&gt;
 1997  egrep '[[:punct:]]' &lt;br /&gt;
 1998  egrep '[[:digit:]]' &lt;br /&gt;
 1999  egrep '[a-z]*'&lt;br /&gt;
 2000  egrep '[a-z]{3}'&lt;br /&gt;
 2001  man egrep&lt;br /&gt;
 2002  egrep '(abc)|(ABC)' &lt;br /&gt;
 2003  egrep '^[0-9]{3}'&lt;br /&gt;
 2004  egrep '^.....$'&lt;br /&gt;
 2005  ls (a|b).txt&lt;br /&gt;
 2006  ls a|b.txt&lt;br /&gt;
 2007  egrep '[a-z]{3}\1' &lt;br /&gt;
 2008  egrep '([a-z]{3})\1' &lt;br /&gt;
 2009  tr 'a-z' 'A-Z'&lt;br /&gt;
 2010  tr 'za-y' 'A-Z'&lt;br /&gt;
 2011  man tr&lt;br /&gt;
 2012  tr -d 'a-z' &lt;br /&gt;
 2013  tr -s 'a-z'&lt;br /&gt;
 2014  tr -s -C 'a-z'&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
测试样例如下：&lt;br /&gt;
&amp;lt;gallery&amp;gt;&lt;br /&gt;
Linux-2025-fall-10-test.png&lt;br /&gt;
&amp;lt;/gallery&amp;gt;&lt;br /&gt;
&lt;br /&gt;
awk常用内置函数：&lt;br /&gt;
&amp;lt;gallery&amp;gt;&lt;br /&gt;
Linux-2025-fall-10-awk.jpg&lt;br /&gt;
&amp;lt;/gallery&amp;gt;&lt;br /&gt;
&lt;br /&gt;
=== Lesson 9（2025.11.3；第10周）===&lt;br /&gt;
&amp;lt;gallery&amp;gt;&lt;br /&gt;
Linux-2025-fall-9-merged.jpg&lt;br /&gt;
&amp;lt;/gallery&amp;gt;&lt;br /&gt;
*正则表达式&lt;br /&gt;
*tr命令&lt;br /&gt;
* 所使用到的命令&lt;br /&gt;
 1992  egrep 'hello' a.txt &lt;br /&gt;
 1993  egrep -n 'hello' a.txt &lt;br /&gt;
 1994  egrep -no 'hello' a.txt &lt;br /&gt;
 1995  egrep 'hello'&lt;br /&gt;
 1996  egrep '\w\w\w' &lt;br /&gt;
 1997  egrep '[[:punct:]]' &lt;br /&gt;
 1998  egrep '[[:digit:]]' &lt;br /&gt;
 1999  egrep '[a-z]*'&lt;br /&gt;
 2000  egrep '[a-z]{3}'&lt;br /&gt;
 2001  man egrep&lt;br /&gt;
 2002  egrep '(abc)|(ABC)' &lt;br /&gt;
 2003  egrep '^[0-9]{3}'&lt;br /&gt;
 2004  egrep '^.....$'&lt;br /&gt;
 2005  ls (a|b).txt&lt;br /&gt;
 2006  ls a|b.txt&lt;br /&gt;
 2007  egrep '[a-z]{3}\1' &lt;br /&gt;
 2008  egrep '([a-z]{3})\1' &lt;br /&gt;
 2009  tr 'a-z' 'A-Z'&lt;br /&gt;
 2010  tr 'za-y' 'A-Z'&lt;br /&gt;
 2011  man tr&lt;br /&gt;
 2012  tr -d 'a-z' &lt;br /&gt;
 2013  tr -s 'a-z'&lt;br /&gt;
 2014  tr -s -C 'a-z'&lt;br /&gt;
&lt;br /&gt;
* 命令演示截图&lt;br /&gt;
&amp;lt;gallery&amp;gt;&lt;br /&gt;
Linux-2025-fall-9-(2)-merged.jpg&lt;br /&gt;
&amp;lt;/gallery&amp;gt;&lt;br /&gt;
&lt;br /&gt;
=== Lesson 8（2025.10.27；第9周）===&lt;br /&gt;
&amp;lt;gallery&amp;gt;&lt;br /&gt;
Linux-2025-fall-8-merged-.jpg&lt;br /&gt;
&amp;lt;/gallery&amp;gt;&lt;br /&gt;
*重定向输入，重定向输出&lt;br /&gt;
*前台运行程序与后台运行程序&lt;br /&gt;
*Linux哲学&lt;br /&gt;
*管道的应用，以及sort，uniq，wc，egrep命令等。&lt;br /&gt;
* 所使用到的命令&lt;br /&gt;
 1990  ls &amp;gt; a.txt&lt;br /&gt;
 1991  vi a.txt &lt;br /&gt;
 1992  ls /root &amp;gt; a.txt&lt;br /&gt;
 1993  vi a.txt&lt;br /&gt;
 1994  help fg&lt;br /&gt;
 1995  vi a.txt&lt;br /&gt;
 1996  less a.txt &lt;br /&gt;
 1997  bg&lt;br /&gt;
 1998  jobs&lt;br /&gt;
 1999  fg 1&lt;br /&gt;
 2000  cat &lt;br /&gt;
 2001  vi a.txt &lt;br /&gt;
 2002  cat a.txt &lt;br /&gt;
 2003  cat &amp;lt; a.txt&lt;br /&gt;
 2004  find . -name 'words'&lt;br /&gt;
 2005  vi words&lt;br /&gt;
 2006  find . -name 'name'&lt;br /&gt;
 2007  find . -name '*name*'&lt;br /&gt;
 2008  vi names&lt;br /&gt;
 2009  mv names names.txt&lt;br /&gt;
 2010  cat names &lt;br /&gt;
 2011  cat names.txt &lt;br /&gt;
 2012  cat names.txt | sort &lt;br /&gt;
 2013  cat names.txt | sort | uniq&lt;br /&gt;
 2014  cat names.txt | sort | uniq -c&lt;br /&gt;
 2015  cat names.txt | sort | uniq -c | sort -n -k 1&lt;br /&gt;
 2016  cat names.txt | sort | uniq -c | sort -rn -k 1&lt;br /&gt;
 2017  vi names.txt &lt;br /&gt;
 2018  cat names.txt | sort | uniq -c | sort -rn -k 1&lt;br /&gt;
 2019  man sort&lt;br /&gt;
 2020  vi names.txt &lt;br /&gt;
 2021  cat names.txt | tee names2.txt | sort&lt;br /&gt;
 2022  vi names2.txt &lt;br /&gt;
 2023  man tee&lt;br /&gt;
 2024  sort a.txt&lt;br /&gt;
 2025  sort names.txt &lt;br /&gt;
 2026  sort names.txt | uniq &lt;br /&gt;
 2027  sort names.txt | uniq | wc&lt;br /&gt;
 2028  sort names.txt | uniq | wc -l&lt;br /&gt;
 2029  sort -u names.txt&lt;br /&gt;
 2030  man egrep&lt;br /&gt;
 2031  egrep '.....' words | less&lt;br /&gt;
 2032  egrep '^.....$' words | less&lt;br /&gt;
 2033  egrep -n '^.....$' words | less&lt;br /&gt;
 2034  egrep 'wat' words&lt;br /&gt;
 2035  egrep -o 'wat' words&lt;br /&gt;
 2036  find /etc/ -name '*words*'&lt;br /&gt;
&lt;br /&gt;
* 管道测试样例&lt;br /&gt;
Zhenghua&amp;lt;br&amp;gt;&lt;br /&gt;
Zhenghua&amp;lt;br&amp;gt;&lt;br /&gt;
Zhangsan&amp;lt;br&amp;gt;&lt;br /&gt;
Lisi&amp;lt;br&amp;gt;&lt;br /&gt;
Lily&amp;lt;br&amp;gt;&lt;br /&gt;
Zhenghua&amp;lt;br&amp;gt;&lt;br /&gt;
Zhenghua&amp;lt;br&amp;gt;&lt;br /&gt;
Lisi&amp;lt;br&amp;gt;&lt;br /&gt;
Zhangsan&amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
=== Lesson 7（2025.10.20；第8周）【随堂考试 4 道题】===&lt;br /&gt;
&amp;lt;gallery&amp;gt;&lt;br /&gt;
Linux-2025-fall-7-merged.jpg&lt;br /&gt;
&amp;lt;/gallery&amp;gt;&lt;br /&gt;
*复习vi&lt;br /&gt;
*通配符的概念，使用方法&lt;br /&gt;
*重定向输入&lt;br /&gt;
&lt;br /&gt;
=== Lesson 6（2025.10.13；第7周）===&lt;br /&gt;
&amp;lt;gallery&amp;gt;&lt;br /&gt;
Linux-2025-fall-6-merged.jpg&lt;br /&gt;
&amp;lt;/gallery&amp;gt;&lt;br /&gt;
*普通（命令）模式下，移动光标，删除，复制粘贴，替换，撤销等操作&lt;br /&gt;
&lt;br /&gt;
=== Lesson 5（2025.9.29；第5周）===&lt;br /&gt;
&amp;lt;gallery&amp;gt;&lt;br /&gt;
Linux-2025-fall-5-merged.jpg&lt;br /&gt;
&amp;lt;/gallery&amp;gt;&lt;br /&gt;
*cp，mkdir, mv, rm等命令的使用&lt;br /&gt;
*内部命令与外部命令的区别&lt;br /&gt;
*vi的介绍。&lt;br /&gt;
* 所使用到的命令&lt;br /&gt;
 1990  type rm mkdir ls cd pwd&lt;br /&gt;
 1991  alias lm='ls -la --color=never'&lt;br /&gt;
 1992  lm &lt;br /&gt;
 1993  ls -la&lt;br /&gt;
 1994  echo $PATH&lt;br /&gt;
&lt;br /&gt;
=== Lesson 4（2025.9.22；第4周）【随堂考试 3 道题】===&lt;br /&gt;
&lt;br /&gt;
&amp;lt;gallery&amp;gt;&lt;br /&gt;
Linux-2025-fall-4-merged.jpg&lt;br /&gt;
&amp;lt;/gallery&amp;gt;&lt;br /&gt;
*shell使用技巧（快捷键进行检索，终止进程等）&lt;br /&gt;
*文件查看（cat，head，tail，less，hexdump命令等）&lt;br /&gt;
*文件操作（cp命令）&lt;br /&gt;
* 所使用到的命令&lt;br /&gt;
 1991  history &lt;br /&gt;
 1992  history | egrep 'man'&lt;br /&gt;
 1993  man printf&lt;br /&gt;
 1994  man ls&lt;br /&gt;
 1995  ls&lt;br /&gt;
 1996* &lt;br /&gt;
 1997  history | egrep 'man'&lt;br /&gt;
 1998  less en.dev.autotagMIRA.conll.dep&lt;br /&gt;
 1999  man hexdump &lt;br /&gt;
 2000  hexdump -c en.dev.autotagMIRA.conll.dep&lt;br /&gt;
 2001  hexdump -c en.dev.autotagMIRA.conll.dep | less&lt;br /&gt;
 2002  hexdump en.dev.autotagMIRA.conll.dep | less&lt;br /&gt;
 2003  hexdump -c en.dev.autotagMIRA.conll.dep | less&lt;br /&gt;
 2004  man cp&lt;br /&gt;
&lt;br /&gt;
=== Lesson 3（2025.9.15；第3周）===&lt;br /&gt;
&amp;lt;gallery&amp;gt;&lt;br /&gt;
Linux-2025-fall-3-merged.jpg&lt;br /&gt;
&amp;lt;/gallery&amp;gt;&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
*man ls的使用方法&lt;br /&gt;
*man man（man的基本使用）&lt;br /&gt;
* 所使用到的命令&lt;br /&gt;
  1991  ls&lt;br /&gt;
  1992  ls /&lt;br /&gt;
  1993  whereis ls&lt;br /&gt;
  1994  vi /etc[防ban去掉]/hosts&lt;br /&gt;
  1995  cd xxx&lt;br /&gt;
  1996  ls -a&lt;br /&gt;
  1997  cd .&lt;br /&gt;
  1998  cd ..&lt;br /&gt;
  1999  man ls&lt;br /&gt;
  2000  ls&lt;br /&gt;
  2001  ls --color=never&lt;br /&gt;
  2002  man ls&lt;br /&gt;
  2003  ls Documents&lt;br /&gt;
  2004  ls -d Documents&lt;br /&gt;
  2005  ls -ld Documents&lt;br /&gt;
  2006  pwd&lt;br /&gt;
  2007  ls -l&lt;br /&gt;
  2008  ls -lh&lt;br /&gt;
  2009  ls -lS&lt;br /&gt;
  2010  ls -ltc | less&lt;br /&gt;
  2011  ls -lta | less&lt;br /&gt;
  2012  ls -lt | less&lt;br /&gt;
  2013  man ls&lt;br /&gt;
  2014  man man&lt;br /&gt;
  2015  man printf&lt;br /&gt;
  2016  man 3 printf&lt;br /&gt;
  2017  printf '%30d%20.3f' 232 2.2323232&lt;br /&gt;
  2018  printf '%30d%20.3f\n' 232 2.2323232 &lt;br /&gt;
  2019  printf '%-30d%-20.3f\n' 232 2.2323232 &lt;br /&gt;
  2020  man -k print&lt;br /&gt;
  2021  man -k print[efgh]&lt;br /&gt;
  2022  man -k print[e][r]&lt;br /&gt;
&lt;br /&gt;
=== Lesson 2（2025.9.8；第2周）===&lt;br /&gt;
&amp;lt;gallery&amp;gt;&lt;br /&gt;
文件:Linux-2025-fall-2-merged.jpg&lt;br /&gt;
&amp;lt;/gallery&amp;gt;&lt;br /&gt;
* shell基本使用、shell的概念、父shell、子shell&lt;br /&gt;
* 命令语法、ls命令&lt;br /&gt;
* 命令行参数、python中sys.argv&lt;br /&gt;
* 所使用到的命令&lt;br /&gt;
 1988  ps afx | egrep bash&lt;br /&gt;
 1989  echo $$&lt;br /&gt;
 1990  exit&lt;br /&gt;
 1991  ls&lt;br /&gt;
 1992  ps afx | egrep bash&lt;br /&gt;
 1993  bc&lt;br /&gt;
 1994  sudo su&lt;br /&gt;
 1995  ls&lt;br /&gt;
 1996  ls -l&lt;br /&gt;
 1997  ls -a&lt;br /&gt;
 1998  ls --all&lt;br /&gt;
 1999  ls -la&lt;br /&gt;
 2000  ls Downloads/ Documents xxx&lt;br /&gt;
&lt;br /&gt;
=== Lesson 1（2025.9.1；第1周） ===&lt;br /&gt;
&lt;br /&gt;
&amp;lt;gallery&amp;gt;&lt;br /&gt;
Linux-2025-fall-1-merged.jpg&lt;br /&gt;
&amp;lt;/gallery&amp;gt;&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
* 课程介绍、个人介绍&lt;br /&gt;
* Linux安装&lt;br /&gt;
* 图形界面、文字界面&lt;br /&gt;
* 所使用到的命令&lt;br /&gt;
 1987  uname -a&lt;br /&gt;
 1988  ps afx | egrep gnome&lt;br /&gt;
 1989  init 3&lt;br /&gt;
 1990  sudo init 3&lt;br /&gt;
 1991  w&lt;br /&gt;
 1992  who&lt;br /&gt;
 1993  man who&lt;br /&gt;
 1994  w&lt;br /&gt;
 1995  who&lt;br /&gt;
 1996  vi a.txt&lt;br /&gt;
 1997  bash&lt;/div&gt;</summary>
		<author><name>Zhli</name></author>
	</entry>
</feed>