批处理之家 - Powered by Discuz! Board

标题: [文本处理] 批处理怎么可以快速高效提取文本中的特定位置字符串？ [打印本页]

作者: delab-1 时间: 2024-9-1 16:22 标题: 批处理怎么可以快速高效提取文本中的特定位置字符串？

各位大神，有一个问题：在temp.txt中，由近10万条文本名称（名称格式如：X87654320），目前我只需要提取每个文本字段的前三个字符。我编写了下面的简单文件，虽然其运行没有问题，可以提取到前三位字符，但是运行时间过长，有没有什么办法缩短提取字符串的时间？多谢大家的帮助！

for /f %%a in (temp.txt) do (
   for /f "skip=21" %%b in (%%a.txt) do (
   set str=%%b
   set F4=!str:~0,3!
   echo !F4! >>std_%%a.txt
                                      ) 
                            )
复制代码

作者: 77七 时间: 2024-9-1 18:13

把重定向写到 for 外面，减少重定向次数，可以明显提高效率。

作者: delab-1 时间: 2024-9-1 21:50

回复 2# 77七

可否所说的更明白点么？因为str会被不断替换，如果不在for内部输出，得到的仅仅是最后一个

作者: aloha20200628 时间: 2024-9-1 22:06

本帖最后由 aloha20200628 于 2024-9-1 22:35 编辑

回复 1# delab-1

在一楼代码上加工而成，但须假设 %%a 变量值不含空格；假设 %%a.txt 中被读取的每行数据不含系统分隔符如空格逗号分号和等号...，否则%%b变量值只会是被系统分隔符断开后的第一个字段

for /f "delims=" %%a in (temp.txt) do (
	for /f "skip=21" %%b in (%%a.txt) do (
		set str=%%b
		echo,!str:~0,3!
	)>std_%%a.txt
)
复制代码

作者: 77七 时间: 2024-9-2 11:38

回复 3# delab-1

@echo off
setlocal enabledelayedexpansion
for /f %%a in (temp.txt) do (
	if exist "%%a.txt" (
		(for /f "useback skip=21" %%b in ("%%a.txt") do (
			set str=%%b
			echo !str:~0,3!
		)) > "std_%%a.txt"
	)
)
pause
复制代码

文件较多，增加了一个判断，可能有助于防止意外，确定不需要可以删除。

作者: delab-1 时间: 2024-9-2 16:13

回复 5# 77七

太感谢了，这个太方便了，速度提升的不是一点点！以前运行需要40秒，这个瞬间就完成了，太感谢了

作者: delab-1 时间: 2024-9-2 16:30

关键在输出选择上，这个在for内部的输出效率很低，但是在循环外输出效率极高

作者: newswan 时间: 2024-9-2 17:06

用 awk 替代第二个 for 语句试试

awk '{for (i = 1; i <= 3; i++) {$i = substr($i, 1, 3)} print $1, $2, $3}' %%a.txt > out\%%a.txt
复制代码

欢迎光临批处理之家 (http://bathome.net./)