Linux-2020-spring-4-22

来自SUDA-HLT
Zhli讨论 | 贡献2021年5月19日 (三) 07:21的版本 →‎2021.5.19
(差异) ←上一版本 | 最后版本 (差异) | 下一版本→ (差异)
跳到导航 跳到搜索

正则表达式复习

 sed -r 's/abc/123/'
 vim
 /[0-9]{3}/(&)/
 分组:/([0-9]{3})([a-z]{3})/\2\1/

  • hexdump:查看二进制文件
 hexdump -C xx.bin

正则表达式高级

sed

 以一个文件为例,看看
 sed 's/^    //' score.txt | less 把每行前四个空格删掉
 sed -r 's/^\s+//' socre.txt > score2.txt 
 sed '1d' score.txt | less 删除第一行
 sed '/[^0-9]$/d' 删除缺考(最后一个不是数字)的那一行;注意理解这个命令,和vi中是一样的,前面可以通过正则表达式来指定哪一行。's'和'd'命令都支持的。
 sed -r 's/[^0-9 ].*[^0-9]/ /'
  • egrep
 egrep '^([a-Z]+)([0-9]+) \2\1$':一行的开始第一组为字母,第二组为数字,然后是空格,需要严格匹配。匹配上abc123 123abc 匹配不上:abc123 342abc
 egrep '^([a-Z]+)([0-9]+) ([0-9]+)([a-Z]+)$':可匹配上abc123 342abc

awk

awk '条件/模式 {动作}' FILE

  awk '$3>=90 {print}' score1.txt | less:$3为第三列 
  awk '{print $2 " " $5}':打印两列,第二列和第五列
  awk '{print $2,$5}'
  awk 'NR>1 {print}'
  awk 'NR>1 {print $0}':$0打印一行
  awk 'BEGIN {print "No. ID. Score"}' score.txt
  awk 'BEGIN {sum = 0};{sum = sum +$3};END {aver = sum/NR;print NR,sum,aver}' score.txt
  wc score.txt:返回行数,词数/字段数,字符数
  awk '{cn =cn+length($0) +1;wn = wn+NF};END {print NR, wn ,cn}'
    

特殊模式:BEGIN END

特殊变量:

   NR(record)---一行的记录,当前行
   NF(field)-----字段,表示列

总结一下

 awk是以行为单位进行处理,根据分隔符(可配置)将一行分为列(field)
 是一种编程语言
 语句:'pattern {action}’
 awk 'pattern action' file
 awk '$3 >= 60 {print}' file 
 awk '{sum=sum+$3}' file   
 $0表示整行
 特殊模式:BEGIN END
 语言自带变量:NF(Number of field,当前行的列数);NR(number of record,当前行号)
 用户自定义变量sum=sum+$3
 和shell脚本语言对比学习,尤其注意什么时候加$,什么时候不加$

一个例子,有条件拷贝

感谢两位班上同学。

#! /usr/bin/awk -f

BEGIN{
	FS = OFS = "\t";
}
{
	if ($0 != "") {
		if ($7 != "-1") {
			$6=$7
		}
	}
	print $0
}

管道pipeline

  cat main.txt main.c >x1
  egrep 'stdout'>x2
  wc -l x2
  rm 
  cat main.txt main.c | egrep 'stdout' | wc -l:和上面的操作一样
  cat stdoutxxx main.txt main.c 2>&1 | egrep 'stdout' | wc -l:标准错误输出重定向
  rm */*.output:把所有文件下*.output删除
  cat */*.txt |egrep '^[0-9- ]+' -o |sort >y1 :-o只输出匹配的东西


 hexdump -C score.txt | less 分屏显示一个文本的二进制
    unicode类别:utf-8,utf-16;0a;换行;0d:回车;20:空格;汉字大于一个字节;数字1:unicode码里面对应十六进制的31,十进制的49。

du -sh * | egrep 402 | awk '{print $2}' | xargs rm -r

402M的一个文件,中文乱码,没法匹配上,要删除这个中文名称的名字

课堂问题

两位同学的QQ群问答(赞!)

 Q: awk下怎么插入多行注释?
 A: 可以用这个 底行模式  .,$s/^/#/g

Linux的哲学思想

  • small is beautiful,unless it is not.less is more.命令要小,做得好。
  • 命令丰富满足用户/程序员的需求,避免写程序,重复造轮子。
  • 把复杂的事情拆成一步步的小任务,逐一用命令完成(管道)。

2021.5.19

seq 9 | sed 'H;g' | awk -v RS='' '{for(i=1;i<=NF;i++)printf("%dx%d=%d%s", i, NR, i*NR, i==NR?"\n":"\t")}'

awk 'BEGIN{a=1;x1=7} {print a,x1}' en.dev.autotagMIRA.conll.dep > x

awk -v a=1 -v x1=7 '{print a, x1}' en.dev.autotagMIRA.conll.dep > x

awk 'END{print NR}' en.dev.autotagMIRA.conll.dep  # 如何用awk实现wc的功能?


awk '$1 == "1" {print}' en.dev.autotagMIRA.conll.dep
awk '$1 == 1 {print}' en.dev.autotagMIRA.conll.dep
awk '{if ($1 == "1") {print $0}}' en.dev.autotagMIRA.conll.dep
awk 'BEGIN{RS="\n\n"; FS="\n"} {print $1}' en.dev.autotagMIRA.conll.dep


文件:En.dev.autotagMIRA.conll.dep.txt