Board logo

标题: [文本处理] 求助 批处理如何分割大文本?文本很大[已解决] [打印本页]

作者: wjx515    时间: 2013-7-16 17:12     标题: 求助 批处理如何分割大文本?文本很大[已解决]

本帖最后由 wjx515 于 2013-7-18 13:21 编辑

文本格式如下:
2013-06-04 xcxvc  vsdfdvxcvxcvxcv sdfd 2
2013-06-04 xcxvc  vsdfdvxcvxcvxcv sdfd
2013-06-04 xcxvc  vsdfdvxcvxcvxcv sdfd 5
2013-06-04 xcxvc  vsdfdvxcvxcvxcv sdfd 6
2013-06-04 xcxvc  vsdfdvxcvxcvxcv sdfd 6
2013-06-05 xcxvc  vsdfdvxcvxcvxcv sdfd
2013-06-05 xcxvc  vsdfdvxcvxcvxcv sdfd
2013-06-05 xcxvc  vsdfdvxcvxcvxcv sdfd
2013-06-05 xcxvc  vsdfdvxcvxcvxcv sdfd
2013-06-06 xcxvc  vsdfdvxcvxcvxcv sdfd
2013-06-06 xcxvc  vsdfdvxcvxcvxcv sdfd
2013-06-06 xcxvc  vsdfdvxcvxcvxcv sdfd
2013-06-06 xcxvc  vsdfdvxcvxcvxcv sdfd

如何将上面的文本分为含2013-06-04的为一个文本。命名为2013-06-04.txt
如何将上面的文本分为含2013-06-05的为一个文本。命名为2013-06-05.txt
如何将上面的文本分为含2013-06-06的为一个文本。命名为2013-06-06.txt

文本很大,最好能用gsed和gawk解决 ,求助了!!
作者: CrLf    时间: 2013-7-16 17:29

本帖最后由 CrLf 于 2013-7-16 18:17 编辑

个人认为 findstr 足矣:
  1. @echo off
  2. for %%a in (2013-06-04 2013-06-05 2013-06-06) do findstr /b "%%~a" a.txt>"%%~a.txt"
  3. pause
复制代码

作者: wjx515    时间: 2013-7-16 17:41

本帖最后由 wjx515 于 2013-7-16 17:44 编辑

文件实在是太大2g左右的文本
gawk "/2008-06-02/{print $0}" test.txt >>2008-06-02.txt
gawk像上面这样处理都很慢,
有个想法不知道怎么实现
就是正在读的一行的日期和上一行的日期比较,如果相同就输出到同一个文件,不通就输出到一个新的文件
作者: CrLf    时间: 2013-7-16 18:37

回复 3# wjx515


    如果只是简单查找,findstr 的效率不会比 awk 慢
作者: terse    时间: 2013-7-18 12:46

  1. gawk "{print $0 >>$1\".txt\"}" test.txt
复制代码
过滤的话 这样
  1. gawk "/2013-06-0[4-6]/{print $0 >>$1\".txt\"}" test.txt
复制代码

作者: wjx515    时间: 2013-7-18 13:27

楼上的代码效率很高,多谢两位!
作者: Python    时间: 2013-7-18 15:30

  1. grep -F "2013-06-04" test.txt > 2013-06-04.txt
复制代码
试试这个效率如何
作者: guduliebao    时间: 2013-9-7 00:01

感觉楼主的意思,是不是日期其实不仅仅只有这么三个?




欢迎光临 批处理之家 (http://bathome.net./) Powered by Discuz! 7.2