Board logo

标题: [文本处理] 批处理获取重复行(只保留一次) [打印本页]

作者: Batcher    时间: 2015-1-6 21:40     标题: 批处理获取重复行(只保留一次)

a.txt内容如下:
123
456
789
123
123
789

获取重复的行,并且重复的行只保留一次,处理后得到b.txt内容如下:
123
789

方法1:
  1. @echo off
  2. REM 缺点1:无法处理特别大的文件
  3. REM 缺点2:需要使用文件中没有出现的字符来标记变量(本例中使用的是下划线)
  4. setlocal
  5. for /f "delims=" %%i in (a.txt) do (
  6.     set /a _%%i+=1
  7. )
  8. (for /f "tokens=1-2 delims=_=" %%i in ('set _') do (
  9.     if %%j gtr 1 (
  10.         echo,%%i
  11.     )
  12. ))>b.txt
  13. endlocal
复制代码
方法2:
  1. @echo off
  2. setlocal enabledelayedexpansion
  3. set "PriLine="
  4. set "DupNum=1"
  5. (for /f "delims=" %%i in ('sort a.txt') do (
  6.     if "!PriLine!" equ "%%i" (
  7.         set /a DupNum+=1
  8.     ) else (
  9.         if !DupNum! gtr 1 (
  10.             echo,!PriLine!
  11.         )
  12.         set DupNum=1
  13.     )
  14.     set "PriLine=%%i"
  15. ))>b.txt
  16. if !DupNum! gtr 1 (
  17.     >>b.txt echo,!PriLine!
  18. )
复制代码
方法3:
  1. gawk "{a[$0]++}END{for(i in a)if(a[i]>1)print i}" a.txt > b.txt
复制代码

作者: zhangzsky    时间: 2015-1-6 21:42

谢谢,确实在找它。
作者: MCRGZN    时间: 2015-8-13 23:03

不错不错不错不错不错
作者: MCRGZN    时间: 2015-8-13 23:04

不错不错不错不错不错
作者: CrLf    时间: 2015-8-13 23:11

回复 4# MCRGZN


    呃,请不要无意义回帖,刷分到此为止
作者: bailong360    时间: 2015-8-15 17:21

  1. gawk "a[$0]++" a.txt>b.txt
复制代码
水一个,以前百度看到的解法




欢迎光临 批处理之家 (http://bathome.net./) Powered by Discuz! 7.2