Rank: 2

帖子: 73
积分: 111
技术: 0
捐助: 0
注册时间: 2021-12-9

1楼 跳转到 » 正序看帖

字体大小: tT

发表于 2022-3-24 17:47 | 只看该作者

[文本处理] bat脚本怎样判断文本提取指定文本？

bat判断文本提取指定文本？？？

例如：文本a.txt

a----ba----c----d
a----b----ca----d
a----d----c-----d
a----b----cA----d
a----bA----c----d
我们----哈我们-----c----d
购买----哈-----c购买----d
辅导----地方----发发----d

生成b.txt

a----ba----c----d
a----b----ca----d
a----b----cA----d
a----bA----c----d
我们----哈我们-----c----d
购买----哈-----c购买----d

就是：1----2----3----4 四部分 2和3里面如果任何一个部分包含部分1 就记录b.txt 英文要大小写忽略

hfxiang

上尉

Rank: 5 Rank: 5

帖子: 599
积分: 1123
技术: 165
捐助: 0
注册时间: 2022-6-20

21楼

发表于 2022-12-20 17:34 | 只看该作者

回复 17# idc878787

下载WITH DEVKIT版本
即：https://github.com/oneclick/ruby ... kit-3.1.3-1-x64.exe
或：https://github.com/oneclick/ruby ... kit-3.1.3-1-x86.exe
安装后才会有gawk.exe

TOP

terse

中将

Rank: 8 Rank: 8

帖子: 2339
积分: 9739
技术: 475
捐助: 0
注册时间: 2008-2-25

20楼

发表于 2022-12-20 15:34 | 只看该作者

如果装有python的话能稍微提升一点效率

@python -x "%~f0" >b.txt& pause &exit
# -*- coding: utf-8 -*-
import os,re
file = r'a.txt'
with open(file) as f:
    for line in f.readlines():
         arr = re.split('\.+',line)
         if arr[0].lower() in '-'.join(arr[1:3]).lower():
            print( line.strip())
复制代码

TOP

tmplinshi

版主

Rank: 7 Rank: 7 Rank: 7

帖子: 1023
积分: 3120
技术: 230
捐助: 160
注册时间: 2010-12-22

19楼

发表于 2022-12-20 01:27 | 只看该作者

本帖最后由 tmplinshi 于 2022-12-20 07:39 编辑

试试 PowerShell

function ParseFile {
    param (
        [Parameter(Mandatory = $true)][Alias("in")] $inputFile,
        [Parameter(Mandatory = $true)][Alias("out")] $outputFile
    )

    if (-not (Test-Path $inputFile)) {
        Write-Error "文件不存在: $inputFile"
        return
    }
    
    $streamIn  = [IO.StreamReader]::new($inputFile)
    $streamOut = [IO.StreamWriter]::new($outputFile, $false, [System.Text.ASCIIEncoding]::UTF8)

    while (-not $streamIn.EndOfStream) {
        $line = $streamIn.ReadLine()
        $arr = $line -split '-+'
        if ($arr[1, 2] -join '-' -like "*$($arr[0])*") {
            $streamOut.WriteLine($line)
        }
    }
    
    $streamIn.close()
    $streamOut.close()
}

ParseFile -in a.txt -out b.txt
复制代码

TOP

idc878787

一级士官

Rank: 2

帖子: 73
积分: 111
技术: 0
捐助: 0
注册时间: 2021-12-9

18楼

发表于 2022-12-20 00:12 | 只看该作者

回复 16# terse

百万数据这个慢

TOP

idc878787

一级士官

Rank: 2

帖子: 73
积分: 111
技术: 0
捐助: 0
注册时间: 2021-12-9

17楼

发表于 2022-12-20 00:12 | 只看该作者

回复 15# hfxiang

下载哪个有点蒙

TOP

terse

中将

Rank: 8 Rank: 8

帖子: 2339
积分: 9739
技术: 475
捐助: 0
注册时间: 2008-2-25

16楼

发表于 2022-12-19 18:06 | 只看该作者

数据量大这个估计也够呛试试吧

1>1/* :
@echo off
cscript -nologo -e:jscript "%~f0"<a.txt >b.txt
pause&exit
*/
while (!WScript.StdIn.AtEndOfStream)
{
       var text = WScript.StdIn.ReadLine(),
       ar = text.replace(/-+/g,'-').split('-'),
       re = new RegExp(ar[0],"i");
       if (re.test(ar[1]) | re.test(ar[2]) ) { WSH.Echo( text )};
}
复制代码

TOP

hfxiang

上尉

Rank: 5 Rank: 5

帖子: 599
积分: 1123
技术: 165
捐助: 0
注册时间: 2022-6-20

15楼

发表于 2022-12-19 17:44 | 只看该作者

本帖最后由 hfxiang 于 2022-12-19 18:03 编辑

回复 11# idc878787

经测试，如果含“”字符，需要用 Ruby（https://rubyinstaller.org/downloads/）中附带的 gawk 方能有效处理（脚本不变）

TOP

hfxiang

上尉

Rank: 5 Rank: 5

帖子: 599
积分: 1123
技术: 165
捐助: 0
注册时间: 2022-6-20

14楼

发表于 2022-12-19 17:00 | 只看该作者

回复 11# idc878787

请确保a.txt为ANSI编码格式，该脚本方能生效

TOP

idc878787

一级士官

Rank: 2

帖子: 73
积分: 111
技术: 0
捐助: 0
注册时间: 2021-12-9

13楼

发表于 2022-12-19 15:23 | 只看该作者

回复 12# terse

7楼的代码都可以就是处理数据多的时候慢 10楼的代码就是处理文本含有这符号的时候就丢数据了不处理了

TOP

terse

中将

Rank: 8 Rank: 8

帖子: 2339
积分: 9739
技术: 475
捐助: 0
注册时间: 2008-2-25

12楼

发表于 2022-12-19 14:47 | 只看该作者

会不会有下面这个情况呢就是数据第一段不是个位数例如 %%a=XX
如此情况下，上面代码应该出错吧

TOP

idc878787

一级士官

Rank: 2

帖子: 73
积分: 111
技术: 0
捐助: 0
注册时间: 2021-12-9

11楼

发表于 2022-12-19 12:55 | 只看该作者

本帖最后由 idc878787 于 2022-12-19 13:22 编辑

回复 10# hfxiang

数据中如果含有这个符号就会丢数据？

TOP

hfxiang

上尉

Rank: 5 Rank: 5

帖子: 599
积分: 1123
技术: 165
捐助: 0
注册时间: 2022-6-20

10楼

发表于 2022-12-19 11:51 | 只看该作者

如果数据量很大，建议用gawk（ http://bcn.bathome.net/tool/4.1.0/gawk.exe ），效率会很高
执行以下指令之前，请确保a.txt为ANSI编码

gawk -F"-+" -vIGNORECASE=1 "{if($2~$1||$3~$1)print}" a.txt>b.txt
复制代码

TOP

idc878787

一级士官

Rank: 2

帖子: 73
积分: 111
技术: 0
捐助: 0
注册时间: 2021-12-9

9楼

发表于 2022-12-19 10:35 | 只看该作者

回复 7# Batcher

有没有更快的处理方式，这个百万数据处理1天都还没好？

TOP

idc878787

一级士官

Rank: 2

帖子: 73
积分: 111
技术: 0
捐助: 0
注册时间: 2021-12-9

8楼

发表于 2022-3-25 13:26 | 只看该作者

TOP

12 下一页

返回列表

[新手上路]批处理新手入门导读	[视频教程]批处理基础视频教程	[视频教程]VBS基础视频教程	[批处理精品]批处理版照片整理器
[批处理精品]纯批处理备份&还原驱动	[批处理精品]CMD命令50条不能说的秘密	[在线下载]第三方命令行工具	[在线帮助]VBScript / JScript 在线参考

[文本处理] bat脚本怎样判断文本提取指定文本？

[收藏此主题] [关注此主题的新回复]

[通过 QQ、MSN 分享给朋友]

[文本处理] bat脚本怎样判断文本 提取指定文本？

[收藏此主题] [关注此主题的新回复]

[通过 QQ、MSN 分享给朋友]

[文本处理] bat脚本怎样判断文本提取指定文本？