查看“Linux-2020-spring-4-29”的源代码

== 复习 == 

=== 管道 pipeline ===
   2000年人民日报语料的处理过程为例
   ls 2000/*/*.txt | wc -l  # 看看一共有多少个这样的文件
   cat 2000/*/*.txt | egrep -o '^[0-9-]+' | sort | uniq :-o只输出匹配上的内容
   cat 2000/*/*.txt | egrep -o '^[0-9-]+' > unsorted
   cat 2000/*/*.txt | egrep -o '^[0-9-]+' | sort > sorted 
   date; cat 2000/*/*.txt | egrep -o '^[0-9-]+' > /dev/null; date  # 两个date之间，就可以看出来这个命令的执行之间，7秒钟，为什么这么慢，是因为数据很大，每一行都很长。正则表达式效率是非常高的。
   date; cat 2000/*/*.txt | sort unsorted > /dev/null; date  # 1秒钟，大家凡事都试一试，就有切身体会了

== diff == 

[[File:Linux-diff-a.txt]]

[[File:Linux-diff-b.txt]]

[[File:Linux-diff-a-vs-b.txt]]

* 查看两个文本文件的差异，这个命令非常重要，其工作的原理也很重要（版本控制软件，如svn、git都是基于这个来做增量存储）
** 可以是大文件，不需要预先对文件进行排序 
** 也可以对文件夹进行递归对比
** 其输出信息的语法，要学着看懂。

* diff file-A file-B
  对第一个文件(A)逐步修改，最终和第二个文件(B)完全一致。
  d：删除（删除第一个文件）；
  a：增加（把第二个文件的内容增加到第一个文件）；
  c：替换
  <：文件A的内容
  >：文件B的内容
  diff sorted sorted_uniq | nl | less
  130d129：删除文件A的第130行，删掉的内容对应文件B的129行
  132,133d130：删除文件A的第132-133行，删掉的内容和文件B的130行对应；注意使用的是原始文件的行号，而不是把前面的操作都做完后更新的行号；这样做当然更容易对比
  diff unsorted sorted | nl | less
  1,120d0 （删掉的内容和文件B的0行对应）
  249a130,131 # 把文件B的130-131行，增加到文件A的249行下面
  > B的130行
  > B的131行
  271,373c163,271 # 将文件A的171-373行，替换为文件B的163-271行

== 过滤器 filter == 
* 什么样的命令是过滤器命令？
  能用在管道中。如cm1 | cmd2 | cmd3；那么cmd2就称为过滤器命令

* cmd2有什么特点呢？
  cmd2对stdin文本按行处理，结果输出到stdout中
  例如：
  cat 2000/*/*.txt | egrep -o '^[0-9-]+' | sort > sorted ：egrep 就是一个filter

大部分linux命令的特点（并不是说过滤器命令必须只能从stdin读，到stdout写）。
* 如果没有argument，默认从stdin中读
* 结果默认输出到stdout中


思考并理解：
  cp不是过滤器命令
  diff其实也可以作为过滤器命令使用，思考一下怎么做呢？看看diff的文档
    cat a.txt | diff - b.txt | less
    等价于 diff a.txt b.txt | less
  非过滤命令当然也可以放到管道中，但是执行结果会比较怪
    cat a.txt | ls | less
    cat的标准输出（即a.txt的内容）会给到ls的标准输入，但是ls不会看标准输入的信息，所以就丢掉了
    ls的结果会通过less分屏显示
    因此，这个命令的执行结果和'ls | less'是完全一致的

    cat scores.txt | xargs ls | less
    会报错：
      ls: cannot access '79': no such file or directory
      ls: cannot access '130': no such file or directory
    为什么呢？

== sort ==
    sort score.txt:跳过空格按数字排序
    sort -k 3 score.txt:根据第三列排序
    sort -n -k 3 score.txt
    sort -r -n -k 3 score.txt
    sort -r -n -u -k 3 score.txt:倒序
    sort -n -u -k 3 score.txt:排序的内容相同就删除
    sort -n -u -k 3 score.txt | uniq：一行完全一样才会删除

== egrep == 

   -o 抽取匹配内容
   -n 显示行号
   -v 取反
   -i大小写不敏感
   -r/-R/--recurisive dir必须给定文件夹参数
   egrep -r .

[[文件:lgdpj-parser-train.log.txt]]

egrep '.*UAS.*' Lgdpj-parser-train.log.txt | egrep -o '[0-9.]*$'

== tr（典型过滤器命令） ==
  tr 'a-z' 'A-Z'：把小写换成大写

== xargs命令 ==
xargs命令，可以把很多非过滤器命令，放到管道中
     从当前文件夹中，所有(递归)包含3个连续数字的txt文件中，egrep -o '^[0-9-]+' |wc -l
     find . -name '*[0-9][0-9][0-9]*.txt' | less
     find . -name '*[0-9][0-9][0-9]*.txt' | xargs egrep -o '^[0-9-]+' |wc -l:将find的输出作为参数
     find . -name '*[0-9][0-9][0-9]*.txt' | xargs cat | egrep -o '^[0-9-]+' |wc -l
     cat `find . -name '*[0-9][0-9][0-9]*.txt'` | less :嵌套命令“~”下面的字符。

== 杂 == 
  python: ord('0')
  ‘0’的ascii码是48 
  空格' '是32, 0x20