Linux-2020-spring-4-29

复习

管道 pipeline

  2000年人民日报语料的处理过程为例
  ls 2000/*/*.txt | wc -l  # 看看一共有多少个这样的文件
  cat 2000/*/*.txt | egrep -o '^[0-9-]+' | sort | uniq :-o只输出匹配上的内容
  cat 2000/*/*.txt | egrep -o '^[0-9-]+' > unsorted
  cat 2000/*/*.txt | egrep -o '^[0-9-]+' | sort > sorted 
  date; cat 2000/*/*.txt | egrep -o '^[0-9-]+' > /dev/null; date  # 两个date之间，就可以看出来这个命令的执行之间，7秒钟，为什么这么慢，是因为数据很大，每一行都很长。正则表达式效率是非常高的。
  date; cat 2000/*/*.txt | sort unsorted > /dev/null; date  # 1秒钟，大家凡事都试一试，就有切身体会了

diff

文件:Linux-diff-a.txt

文件:Linux-diff-b.txt

文件:Linux-diff-a-vs-b.txt

查看两个文本文件的差异，这个命令非常重要，其工作的原理也很重要（版本控制软件，如svn、git都是基于这个来做增量存储）
- 可以是大文件，不需要预先对文件进行排序
- 也可以对文件夹进行递归对比
- 其输出信息的语法，要学着看懂。

diff file-A file-B

 对第一个文件(A)逐步修改，最终和第二个文件(B)完全一致。
 d：删除（删除第一个文件）；
 a：增加（把第二个文件的内容增加到第一个文件）；
 c：替换
 <：文件A的内容
 >：文件B的内容
 diff sorted sorted_uniq | nl | less
 130d129：删除文件A的第130行，删掉的内容对应文件B的129行
 132,133d130：删除文件A的第132-133行，删掉的内容和文件B的130行对应；注意使用的是原始文件的行号，而不是把前面的操作都做完后更新的行号；这样做当然更容易对比
 diff unsorted sorted | nl | less
 1,120d0 （删掉的内容和文件B的0行对应）
 249a130,131 # 把文件B的130-131行，增加到文件A的249行下面
 > B的130行
 > B的131行
 271,373c163,271 # 将文件A的171-373行，替换为文件B的163-271行

过滤器 filter

什么样的命令是过滤器命令？

 能用在管道中。如cm1 | cmd2 | cmd3；那么cmd2就称为过滤器命令

cmd2有什么特点呢？

 cmd2对stdin文本按行处理，结果输出到stdout中
 例如：
 cat 2000/*/*.txt | egrep -o '^[0-9-]+' | sort > sorted ：egrep 就是一个filter

大部分linux命令的特点（并不是说过滤器命令必须只能从stdin读，到stdout写）。

如果没有argument，默认从stdin中读
结果默认输出到stdout中

思考并理解：

 cp不是过滤器命令
 diff其实也可以作为过滤器命令使用，思考一下怎么做呢？看看diff的文档
   cat a.txt | diff - b.txt | less
   等价于 diff a.txt b.txt | less
 非过滤命令当然也可以放到管道中，但是执行结果会比较怪
   cat a.txt | ls | less
   cat的标准输出（即a.txt的内容）会给到ls的标准输入，但是ls不会看标准输入的信息，所以就丢掉了
   ls的结果会通过less分屏显示
   因此，这个命令的执行结果和'ls | less'是完全一致的

   cat scores.txt | xargs ls | less
   会报错：
     ls: cannot access '79': no such file or directory
     ls: cannot access '130': no such file or directory
   为什么呢？

sort

   sort score.txt:跳过空格按数字排序
   sort -k 3 score.txt:根据第三列排序
   sort -n -k 3 score.txt
   sort -r -n -k 3 score.txt
   sort -r -n -u -k 3 score.txt:倒序
   sort -n -u -k 3 score.txt:排序的内容相同就删除
   sort -n -u -k 3 score.txt | uniq：一行完全一样才会删除

egrep

  -o 抽取匹配内容
  -n 显示行号
  -v 取反
  -i大小写不敏感
  -r/-R/--recurisive dir必须给定文件夹参数
  egrep -r .

文件:Lgdpj-parser-train.log.txt

egrep '.*UAS.*' Lgdpj-parser-train.log.txt | egrep -o '[0-9.]*$'

tr（典型过滤器命令）

 tr 'a-z' 'A-Z'：把小写换成大写

xargs命令

xargs命令，可以把很多非过滤器命令，放到管道中

    从当前文件夹中，所有(递归)包含3个连续数字的txt文件中，egrep -o '^[0-9-]+' |wc -l
    find . -name '*[0-9][0-9][0-9]*.txt' | less
    find . -name '*[0-9][0-9][0-9]*.txt' | xargs egrep -o '^[0-9-]+' |wc -l:将find的输出作为参数
    find . -name '*[0-9][0-9][0-9]*.txt' | xargs cat | egrep -o '^[0-9-]+' |wc -l
    cat `find . -name '*[0-9][0-9][0-9]*.txt'` | less :嵌套命令“~”下面的字符。

杂

 python: ord('0')
 ‘0’的ascii码是48 
 空格' '是32, 0x20

Linux-2020-spring-4-29

目录

复习

管道 pipeline

diff

过滤器 filter

sort

egrep

tr（典型过滤器命令）

xargs命令

杂

导航菜单

搜索