标题: [文本处理] 求助 批处理如何分割大文本?文本很大[已解决] [打印本页]
作者: wjx515 时间: 2013-7-16 17:12 标题: 求助 批处理如何分割大文本?文本很大[已解决]
本帖最后由 wjx515 于 2013-7-18 13:21 编辑
文本格式如下:
2013-06-04 xcxvc vsdfdvxcvxcvxcv sdfd 2
2013-06-04 xcxvc vsdfdvxcvxcvxcv sdfd
2013-06-04 xcxvc vsdfdvxcvxcvxcv sdfd 5
2013-06-04 xcxvc vsdfdvxcvxcvxcv sdfd 6
2013-06-04 xcxvc vsdfdvxcvxcvxcv sdfd 6
2013-06-05 xcxvc vsdfdvxcvxcvxcv sdfd
2013-06-05 xcxvc vsdfdvxcvxcvxcv sdfd
2013-06-05 xcxvc vsdfdvxcvxcvxcv sdfd
2013-06-05 xcxvc vsdfdvxcvxcvxcv sdfd
2013-06-06 xcxvc vsdfdvxcvxcvxcv sdfd
2013-06-06 xcxvc vsdfdvxcvxcvxcv sdfd
2013-06-06 xcxvc vsdfdvxcvxcvxcv sdfd
2013-06-06 xcxvc vsdfdvxcvxcvxcv sdfd
如何将上面的文本分为含2013-06-04的为一个文本。命名为2013-06-04.txt
如何将上面的文本分为含2013-06-05的为一个文本。命名为2013-06-05.txt
如何将上面的文本分为含2013-06-06的为一个文本。命名为2013-06-06.txt
文本很大,最好能用gsed和gawk解决 ,求助了!!
作者: CrLf 时间: 2013-7-16 17:29
本帖最后由 CrLf 于 2013-7-16 18:17 编辑
个人认为 findstr 足矣:- @echo off
- for %%a in (2013-06-04 2013-06-05 2013-06-06) do findstr /b "%%~a" a.txt>"%%~a.txt"
- pause
复制代码
作者: wjx515 时间: 2013-7-16 17:41
本帖最后由 wjx515 于 2013-7-16 17:44 编辑
文件实在是太大2g左右的文本
gawk "/2008-06-02/{print $0}" test.txt >>2008-06-02.txt
gawk像上面这样处理都很慢,
有个想法不知道怎么实现
就是正在读的一行的日期和上一行的日期比较,如果相同就输出到同一个文件,不通就输出到一个新的文件
作者: CrLf 时间: 2013-7-16 18:37
回复 3# wjx515
如果只是简单查找,findstr 的效率不会比 awk 慢
作者: terse 时间: 2013-7-18 12:46
- gawk "{print $0 >>$1\".txt\"}" test.txt
复制代码
过滤的话 这样- gawk "/2013-06-0[4-6]/{print $0 >>$1\".txt\"}" test.txt
复制代码
作者: wjx515 时间: 2013-7-18 13:27
楼上的代码效率很高,多谢两位!
作者: Python 时间: 2013-7-18 15:30
- grep -F "2013-06-04" test.txt > 2013-06-04.txt
复制代码
试试这个效率如何
作者: guduliebao 时间: 2013-9-7 00:01
感觉楼主的意思,是不是日期其实不仅仅只有这么三个?
欢迎光临 批处理之家 (http://bathome.net./) |
Powered by Discuz! 7.2 |