Linux-2020-spring-4-22

正则表达式复习

 sed -r 's/abc/123/'
 vim
 /[0-9]{3}/(&)/
 分组：/([0-9]{3})([a-z]{3})/\2\1/

hexdump：查看二进制文件

 hexdump -C xx.bin

正则表达式高级

sed

 以一个文件为例，看看
 sed 's/^    //' score.txt | less 把每行前四个空格删掉
 sed -r 's/^\s+//' socre.txt > score2.txt 
 sed '1d' score.txt | less 删除第一行
 sed '/[^0-9]$/d' 删除缺考（最后一个不是数字）的那一行；注意理解这个命令，和vi中是一样的，前面可以通过正则表达式来指定哪一行。's'和'd'命令都支持的。
 sed -r 's/[^0-9 ].*[^0-9]/ /'

egrep

 egrep '^([a-Z]+)([0-9]+) \2\1$':一行的开始第一组为字母，第二组为数字，然后是空格，需要严格匹配。匹配上abc123 123abc 匹配不上：abc123 342abc
 egrep '^([a-Z]+)([0-9]+) ([0-9]+)([a-Z]+)$':可匹配上abc123 342abc

awk

awk '条件/模式 {动作}' FILE

  awk '$3>=90 {print}' score1.txt | less：$3为第三列 
  awk '{print $2 " " $5}':打印两列，第二列和第五列
  awk '{print $2,$5}'
  awk 'NR>1 {print}'
  awk 'NR>1 {print $0}':$0打印一行
  awk 'BEGIN {print "No. ID. Score"}' score.txt
  awk 'BEGIN {sum = 0};{sum = sum +$3};END {aver = sum/NR;print NR,sum,aver}' score.txt
  wc score.txt:返回行数，词数/字段数，字符数
  awk '{cn =cn+length($0) +1;wn = wn+NF};END {print NR, wn ,cn}'

特殊模式：BEGIN END

特殊变量：

   NR(record)---一行的记录，当前行
   NF(field)-----字段，表示列

总结一下

 awk是以行为单位进行处理，根据分隔符（可配置）将一行分为列（field）
 是一种编程语言
 语句：'pattern {action}’
 awk 'pattern action' file
 awk '$3 >= 60 {print}' file 
 awk '{sum=sum+$3}' file   
 $0表示整行
 特殊模式：BEGIN END
 语言自带变量：NF（Number of field，当前行的列数）；NR（number of record，当前行号）
 用户自定义变量sum=sum+$3
 和shell脚本语言对比学习，尤其注意什么时候加$，什么时候不加$

一个例子，有条件拷贝

感谢两位班上同学。

#! /usr/bin/awk -f

BEGIN{
	FS = OFS = "\t";
}
{
	if ($0 != "") {
		if ($7 != "-1") {
			$6=$7
		}
	}
	print $0
}

管道pipeline

  cat main.txt main.c >x1
  egrep 'stdout'>x2
  wc -l x2
  rm 
  cat main.txt main.c | egrep 'stdout' | wc -l:和上面的操作一样
  cat stdoutxxx main.txt main.c 2>&1 | egrep 'stdout' | wc -l:标准错误输出重定向
  rm */*.output:把所有文件下*.output删除
  cat */*.txt |egrep '^[0-9- ]+' -o |sort >y1 :-o只输出匹配的东西

 hexdump -C score.txt | less 分屏显示一个文本的二进制
    unicode类别：utf-8,utf-16；0a;换行；0d:回车；20：空格；汉字大于一个字节；数字1：unicode码里面对应十六进制的31，十进制的49。

du -sh * | egrep 402 | awk '{print $2}' | xargs rm -r

402M的一个文件，中文乱码，没法匹配上，要删除这个中文名称的名字

课堂问题

两位同学的QQ群问答（赞！）

 Q: awk下怎么插入多行注释？
 A: 可以用这个 底行模式  .,$s/^/#/g

Linux的哲学思想

small is beautiful,unless it is not.less is more.命令要小,做得好。
命令丰富满足用户/程序员的需求，避免写程序，重复造轮子。
把复杂的事情拆成一步步的小任务，逐一用命令完成（管道）。

2021.5.19

seq 9 | sed 'H;g' | awk -v RS='' '{for(i=1;i<=NF;i++)printf("%dx%d=%d%s", i, NR, i*NR, i==NR?"\n":"\t")}'

awk 'BEGIN{a=1;x1=7} {print a,x1}' en.dev.autotagMIRA.conll.dep > x

awk -v a=1 -v x1=7 '{print a, x1}' en.dev.autotagMIRA.conll.dep > x

awk 'END{print NR}' en.dev.autotagMIRA.conll.dep  # 如何用awk实现wc的功能？


awk '$1 == "1" {print}' en.dev.autotagMIRA.conll.dep
awk '$1 == 1 {print}' en.dev.autotagMIRA.conll.dep
awk '{if ($1 == "1") {print $0}}' en.dev.autotagMIRA.conll.dep
awk 'BEGIN{RS="\n\n"; FS="\n"} {print $1}' en.dev.autotagMIRA.conll.dep

文件:En.dev.autotagMIRA.conll.dep.txt

Linux-2020-spring-4-22

目录

正则表达式复习

正则表达式高级

sed

awk

一个例子，有条件拷贝

管道pipeline

课堂问题

Linux的哲学思想

2021.5.19

导航菜单

搜索