[新手上路]批处理新手入门导读[视频教程]批处理基础视频教程[视频教程]VBS基础视频教程[批处理精品]批处理版照片整理器
[批处理精品]纯批处理备份&还原驱动[批处理精品]CMD命令50条不能说的秘密[在线下载]第三方命令行工具[在线帮助]VBScript / JScript 在线参考
返回列表 发帖

[文本处理] 求助 批处理如何分割大文本?文本很大[已解决]

本帖最后由 wjx515 于 2013-7-18 13:21 编辑

文本格式如下:
2013-06-04 xcxvc  vsdfdvxcvxcvxcv sdfd 2
2013-06-04 xcxvc  vsdfdvxcvxcvxcv sdfd
2013-06-04 xcxvc  vsdfdvxcvxcvxcv sdfd 5
2013-06-04 xcxvc  vsdfdvxcvxcvxcv sdfd 6
2013-06-04 xcxvc  vsdfdvxcvxcvxcv sdfd 6
2013-06-05 xcxvc  vsdfdvxcvxcvxcv sdfd
2013-06-05 xcxvc  vsdfdvxcvxcvxcv sdfd
2013-06-05 xcxvc  vsdfdvxcvxcvxcv sdfd
2013-06-05 xcxvc  vsdfdvxcvxcvxcv sdfd
2013-06-06 xcxvc  vsdfdvxcvxcvxcv sdfd
2013-06-06 xcxvc  vsdfdvxcvxcvxcv sdfd
2013-06-06 xcxvc  vsdfdvxcvxcvxcv sdfd
2013-06-06 xcxvc  vsdfdvxcvxcvxcv sdfd

如何将上面的文本分为含2013-06-04的为一个文本。命名为2013-06-04.txt
如何将上面的文本分为含2013-06-05的为一个文本。命名为2013-06-05.txt
如何将上面的文本分为含2013-06-06的为一个文本。命名为2013-06-06.txt

文本很大,最好能用gsed和gawk解决 ,求助了!!

本帖最后由 CrLf 于 2013-7-16 18:17 编辑

个人认为 findstr 足矣:
  1. @echo off
  2. for %%a in (2013-06-04 2013-06-05 2013-06-06) do findstr /b "%%~a" a.txt>"%%~a.txt"
  3. pause
复制代码

TOP

本帖最后由 wjx515 于 2013-7-16 17:44 编辑

文件实在是太大2g左右的文本
gawk "/2008-06-02/{print $0}" test.txt >>2008-06-02.txt
gawk像上面这样处理都很慢,
有个想法不知道怎么实现
就是正在读的一行的日期和上一行的日期比较,如果相同就输出到同一个文件,不通就输出到一个新的文件

TOP

回复 3# wjx515


    如果只是简单查找,findstr 的效率不会比 awk 慢

TOP

  1. gawk "{print $0 >>$1\".txt\"}" test.txt
复制代码
过滤的话 这样
  1. gawk "/2013-06-0[4-6]/{print $0 >>$1\".txt\"}" test.txt
复制代码

TOP

楼上的代码效率很高,多谢两位!

TOP

  1. grep -F "2013-06-04" test.txt > 2013-06-04.txt
复制代码
试试这个效率如何

TOP

感觉楼主的意思,是不是日期其实不仅仅只有这么三个?
学习为主,顶贴其次

TOP

返回列表