Board logo

标题: [问题求助] PowerShell提取txt中的数字后对比csv中的序号所在列,然后导出新csv文件 [打印本页]

作者: 5i365    时间: 2022-1-1 12:32     标题: PowerShell提取txt中的数字后对比csv中的序号所在列,然后导出新csv文件

遇到一个新的问题, 期待高手能帮忙, 提前感谢!
具体描述如下:
1.有一个名为A.csv文件内容如下:
序号,语言,歌手,歌名
1,国语,付雪,金玉良缘
2,国语,阿吉太组合,阿衣莫
3,国语,洛先生,孤城
4,国语,刘艺雯,听闻远方有你
5,国语,海来阿木,五十年以后
6,国语,海来阿木,浮生记
7,国语,杨小壮,最后的人
8,国语,莫叫姐姐,你能不能不要离开我 (莫叫语版)
9,国语,郁可唯,路过人间


2.有一个主文件夹B  其下包含很多文件和子文件夹

3.在B下的有些txt文件的文件名中, 可能包含文字 【歌手】 或 【歌名】

4.只关注文件名包含 【歌手】 或 【歌名】 文字的txt文件, 其内容中,某行可能包含某个数字,只关注1位至4位的数字

需要:
A.csv文件的序号这一列, 如果包含上面提到的1位或4位数字,  则将该序号所在的行, 另存到C.csv文件中

需要注意的是:
有些数字可能会重复,那就只算一个
C.csv文件中首行要有A.csv文件的首行标题
C.csv文件中的第二行至结尾行按第一行的序号升序排列

作者: 5i365    时间: 2022-1-2 11:58

本帖最后由 5i365 于 2022-1-2 12:05 编辑

看到一篇文章, 说是用select-string 这个命令可以不打开文件就能搜索文本,

但是上面又涉及到了读写csv,还有排序, 搜索文件夹, 搜索文件名等,知识点有点多, 吃不消, 搞不出来, 期待路过高手帮忙一下
作者: idwma    时间: 2022-1-2 14:34

本帖最后由 idwma 于 2022-1-2 17:42 编辑

万能的正则
  1. $a=@{}
  2. type a.csv|%{
  3.     $z=$_ -replace '^(\d+).*','$1'
  4.     if (!($a.ContainsKey($z))){$a.$z=$_}
  5. }
  6. $b=@{}
  7. dir -recu b\* -inc *歌手*.txt,*歌名*.txt|%{
  8.     foreach($i in (type $_) -match '\d+'){
  9.         $z=$i -replace '\D*(\d+)\D*','$1'
  10.         if(!($b.ContainsKey($z))){$b.$z=$a.$z}
  11.     }
  12. }
  13. $b.Values|sort{"{0:d5}" -f [int]($_ -replace '^(\d+)\D*','$1')}
复制代码

作者: 5i365    时间: 2022-1-2 19:00

本帖最后由 5i365 于 2022-1-2 19:05 编辑

回复 3# idwma


  感谢帮助, 加了.\ 然后试了一下, 回显乱码, 没生成C.csv

#@&cls&powershell "type '%~0'|out-string|iex"&pause&exit
$a=@{}
type .\a.csv|%{
    $z=$_ -replace '^(\d+).*','$1'
    if (!($a.ContainsKey($z))){$a.$z=$_}
}
$b=@{}
dir -recu .\b\* -inc *歌手*.txt,*歌名*.txt|%{
    foreach($i in (type $_) -match '\d+'){
        $z=$i -replace '\D*(\d+)\D*','$1'
        if(!($b.ContainsKey($z))){$b.$z=$a.$z}
    }
}
$b.Values|sort{"{0:d5}" -f [int]($_ -replace '^(\d+)\D*','$1')}

测试文件
https://wss1.cn/f/79ly70c7tnk 复制链接到浏览器打开
作者: idwma    时间: 2022-1-2 19:33

回复 4# 5i365
  1. $a=@{}
  2. $f=[io.file]::ReadAllLines('.\a.csv')
  3. $f|%{
  4.     $z=$_ -replace '^(\d+).*','$1'
  5.     if (!($a.ContainsKey($z))){$a.$z=$_}
  6. }
  7. $b=@{}
  8. dir -recu * -inc *歌手*.txt,*歌名*.txt,*歌曲*.txt|%{
  9.     foreach($i in [io.file]::ReadAllLines($_) -match '\d+'){
  10.         $z=$i -replace '\D*(\d+)\D*','$1'
  11.         if(!($b.ContainsKey($z))){$b.$z=$a.$z}
  12.     }
  13. }
  14. sc b.csv ($f[0],($b.Values|sort{[int]($_ -replace '^(\d+)\D*','$1')}))
复制代码

作者: 5i365    时间: 2022-1-2 19:40

回复 5# idwma


    再请教一下, 4楼的批处理,需要保存成什么编码格式? asci 还是 utf8

我对这两个编码一直不理解, 一个不行我就转另一个, 没有头绪,

如何用第一行的代码也就下面这行自动把ps转码? 这样不管我存成什么编码都可以执行了
#@&cls&powershell "type '%~0'|out-string|iex"&pause&exit
作者: idwma    时间: 2022-1-2 19:53

本帖最后由 idwma 于 2022-1-2 19:55 编辑

回复 6# 5i365


    一直用默认的ansi,太清楚有什么不同
好像utf8也可以运行
作者: 5i365    时间: 2022-1-2 19:58

回复 7# idwma


    好像powershell用utf8可以, 但有时也不行, 我是用的 notepad2 编辑文本的
作者: 5i365    时间: 2022-1-6 10:04

回复 5# idwma


出了点问题, 这也是我为什么不太爱使用正则的原因, 要考虑很多情况,
下面是示例文件
https://wss1.cn/f/7an8a3ux7fk 复制链接到浏览器打开
会提示下面的错误,导出的csv也没有按顺序排列
----------------------------------------------------------
sort : Cannot convert value "13297、周思涵,感谢你曾来过" to type "System.Int32". Error: "Input string was not in a corr
ect format."
At line:15 char:30
+ ... v ($f[0],($b.Values|sort{[int]($_ -replace '^(\d+)\D*','$1')})) -Enco ...
+                         ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
    + CategoryInfo          : InvalidResult: (132,国语,Ayo97、周思涵,感谢你曾来过SObject) [Sort-Object], RuntimeExcep
tion
    + FullyQualifiedErrorId : ExpressionEvaluation,Microsoft.PowerShell.Commands.SortObjectCommand

请按任意键继续. . .
作者: qixiaobin0715    时间: 2022-1-6 12:32

用批处理也行:
  1. @echo off
  2. chcp 65001>nul
  3. setlocal enabledelayedexpansion
  4. pushd "任务"
  5. for /f "delims=" %%i in ('dir /b /s /a-d *伴奏*.txt *歌词*.txt *原唱*.txt') do (
  6.     for /f "delims=" %%j in (%%i) do (
  7.         set n=%%j
  8.         set /a n=n
  9.         set m=000!n!
  10.         set _!m:~-4!=!n!
  11.     )
  12. )
  13. popd
  14. for /f "tokens=2 delims==" %%a in ('set _') do set k=!k!%%a,
  15. findstr /b /r "!k!" 0-1001.csv>b.csv
  16. pause
复制代码

作者: idwma    时间: 2022-1-6 15:45

回复 9# 5i365
排序部分还可以用went教的方法
  1. $b.Values|sort{[int]($_ -split ',')[0]}
复制代码

作者: 5i365    时间: 2022-1-12 11:09

回复 5# idwma


    大侠, 我想在提取某个txt中的数字后, 把该txt里面的内容清空, 可以实现吗?
注意要点:
1.如果一个txt中没有数字, 那不能清空里面的内容, 因为没有提取里面的数字
2.如果一个txt中虽然有数字, 但是不在csv的第一列当中, 那也不能清空里面的内容
作者: idwma    时间: 2022-1-12 14:08

回复 12# 5i365
  1. $a=@{}
  2. $f=[io.file]::ReadAllLines('.\a.csv')
  3. $f|%{
  4.     $z=$_ -replace '^(\d+).*','$1'
  5.     if (!($a.ContainsKey($z))){$a.$z=$_}
  6. }
  7. $b=@{}
  8. dir -recu * -inc *歌手*.txt,*歌名*.txt,*歌曲*.txt|%{
  9.     foreach($i in [io.file]::ReadAllLines($_) -match '\d+'){
  10.         $z=$i -replace '\D*(\d+)\D*','$1'
  11.         if(!($b.ContainsKey($z))){$b.$z=$a.$z}
  12.     }
  13. if($b.ContainsKey($z)){sc $_ ''}
  14. }
  15. sc b.csv ($f[0],($b.Values|sort{[int]($_ -split ',')[0]}))
复制代码

作者: 5i365    时间: 2022-1-12 15:32

回复 13# idwma


    没有清空 那些文件, 生成的b.csv里只有标头
作者: idwma    时间: 2022-1-12 15:54

回复 14# 5i365


    文件链接过期了再发一个来看看
作者: 5i365    时间: 2022-1-12 16:26

回复 15# idwma

好的, 多谢, 另外目前代码中 下面这行代码, 是搜索所有的这些txt文件中的数字,对比a.csv的第一列的数字后,然后输出一个b.csv, 我现在想: 包含*原唱*.txt中的文件夹中的数字对比a.csv的第一列的数字后,输出为 原唱.csv, 包含*伴奏*.txt中的文件夹中的数字对比a.csv的第一列的数字后,输出为 伴奏.csv, 包含*歌词*.txt中的文件夹中的数字对比a.csv的第一列的数字后,输出为 歌词.csv
dir -recu * -inc *原唱*.txt,*伴奏*.txt,*歌词*.txt

    https://wss1.cn/f/7cfkwglj3kw 复制链接到浏览器打开
作者: idwma    时间: 2022-1-12 18:30

回复 16# 5i365
  1. #@&cls&powershell -version 2.0 "type '%~0'|out-string|iex"&pause&exit
  2. $a=@{}
  3. $f=gc a.csv
  4. $f|%{
  5.     $z=$_ -replace '^(\d+).*','$1'
  6.     if (!($a.ContainsKey($z))){$a.$z=$_}
  7. }
  8. $b=@{}
  9. $d=@{}
  10. dir -recu * -inc *原唱*.txt,*伴奏*.txt,*歌词*.txt|%{
  11.     if($_ -match '(原唱|伴奏|歌词)'){$c=$Matches[0]}
  12.     foreach($i in gc $_){
  13.         if($i -match '\d'){
  14.             $z=$i -replace '\D*(\d+)\D*','$1'
  15.             if(!($b.ContainsKey($z))){$b.$z=$a.$z;$d.$c+=@($a.$z)}
  16.         }
  17.     }
  18.     if($b.ContainsKey($z)){sc $_ ''}
  19.     $z=-1
  20. }
  21. $d.keys|%{sc $($_+'.csv') ($f[0],($d.$_|sort{[int]($_ -split ',')[0]}))}
复制代码

作者: 5i365    时间: 2022-1-13 14:55

回复 17# idwma


    大侠, 刚刚在WIN10上运行直接提示 让装相对应的.net, 应该是 第一行的 限定版本导致的, 而win10上没有.net 2

我把版本号删了, 运行不成功, 也报错, 以前的那个批处理 就不用限定PS版本, 只是把所有的数字都输出到一个b.csv中了
作者: idwma    时间: 2022-1-13 15:54

回复 18# 5i365


    开win10试了一下自带的5.1也可以的
作者: 5i365    时间: 2022-1-13 18:38

本帖最后由 5i365 于 2022-1-13 18:39 编辑

回复 19# idwma


    在我的那个压缩包里面的示例执行, 把版本删了可以执行, 但是我改了一下dir路径, 和过滤的文件名的文字, 执行就出错了, 多亏有备份, 因为有些txt文件会被清空

如果不清空原txt, 只导出独立的文本, 需要注释哪行代码?
作者: idwma    时间: 2022-1-13 19:11

回复 20# 5i365


    18
19
作者: 5i365    时间: 2022-1-21 10:53

本帖最后由 5i365 于 2022-1-21 19:07 编辑

回复 21# idwma


您好, 现在有两个问题想请教
1.有时获取的.txt文件中,例如下面的示例, 数字并不全是在开头, 而是在一行的中间[如下面的32]或结尾[如下面的28], 怎样设置三个筛选开关分别对应三种情况?  例如, 我只想筛选结尾的数字时就将其开关打开
--------------------------------------------------------------------
58有问题
80伴奏有问题 需要重新下载正确的
正确的32, 错误的28
132没有伴奏

2.txt文件, 可能在不同的文件夹中, 想在导出的csv文件名前,加上其所在的文件夹名
例如导出的   歌词.csv  文件, 他是筛选的 1号 文件夹下的, 名字就改为   1号_歌词.csv
--------------------------------------------------------------------------------------------------------------------------------------
要修改的代码, 及文件 https://send.cm/d/84IN
  1. #@&cls&powershell -version 2.0 "type '%~0'|out-string|iex"&pause&exit
  2. $a=@{}
  3. $f=gc 歌单.csv -Encoding UTF8
  4. $f|%{
  5.     $z=$_ -replace '^(\d+).*','$1'
  6.     if (!($a.ContainsKey($z))){$a.$z=$_}
  7. }
  8. $b=@{}
  9. $d=@{}
  10. dir ".\任务" -recu * -inc *原唱*.txt,*伴奏*.txt,*歌词*.txt|%{
  11.     if($_ -match '(原唱|伴奏|歌词)'){$c=$Matches[0]}
  12.     foreach($i in gc $_){
  13.         if($i -match '\d'){
  14.             $z=$i -replace '\D*(\d+)\D*','$1'
  15.             if(!($b.ContainsKey($z))){$b.$z=$a.$z;$d.$c+=@($a.$z)}
  16.         }
  17.     }
  18.     #if($b.ContainsKey($z)){sc $_ ''} #清空
  19.     #$z=-1 #清空
  20. }
  21. $d.keys|%{sc -Encoding UTF8 $($_+'.csv') ($f[0],($d.$_|sort{[int]($_ -split ',')[0]}))}
复制代码

作者: idwma    时间: 2022-1-21 15:17

回复 22# 5i365
  1. #@&cls&powershell -version 2.0 "type '%~0'|out-string|iex"&pause&exit
  2. $r='^(\d+).+' #1
  3. #$r='\D+(\d+)\D+' #2
  4. #$r='\D+(\d+)$' #3
  5. $a=@{}
  6. $f=gc 歌单.csv -Encoding UTF8
  7. $f|%{
  8.     $z=$_ -replace '^(\d+).*','$1'
  9.     if (!($a.ContainsKey($z))){$a.$z=$_}
  10. }
  11. $b=@{}
  12. $d=@{}
  13. dir ".\任务" -recu * -inc *原唱*.txt,*伴奏*.txt,*歌词*.txt|%{
  14.     if($_ -match '(原唱|伴奏|歌词)'){$c=$Matches[0]}
  15.     foreach($i in gc $_){
  16.         if($i -match '\d'){
  17.             $z=$i -replace $r,'$1'
  18.             if(!($b.ContainsKey($z))){$b.$z=$a.$z;$d.$c+=@($a.$z)}
  19.         }
  20.     }
  21.     #if($b.ContainsKey($z)){sc $_ ''} #清空
  22.     #$z=-1 #清空
  23. }
  24. $d.keys|%{sc -Encoding UTF8 $($_+'.csv') ($f[0],($d.$_|sort{[int]($_ -split ',')[0]}))}
复制代码

作者: 5i365    时间: 2022-1-21 19:07

本帖最后由 5i365 于 2022-1-21 19:09 编辑

回复 23# idwma


    刚试了一下, 第一条OK了, 下面这条没有
txt文件, 可能在不同的文件夹中, 想在导出的csv文件名前,加上其所在的文件夹名
例如导出的   歌词.csv  文件, 他是筛选的 1号 文件夹下的, 名字就改为   1号_歌词.csv
示例中, 有  1号  和  2号  两个文件夹,
1号 中提取其下txt中的数字后, 生成的csv文件, 带上前缀  1号_
2号 中提取其下txt中的数字后, 生成的csv文件, 带上前缀  2号_
作者: idwma    时间: 2022-1-21 20:32

本帖最后由 idwma 于 2022-1-22 00:13 编辑

回复 24# 5i365
  1. #@&cls&powershell -version 2.0 "type '%~0'|out-string|iex"&pause&exit
  2. #$r='^(\d+).*' #1
  3. $r='^\D+(\d+)\D' #2
  4. #$r='\D+(\d+)$' #3
  5. $a=@{}
  6. $f=gc 歌单.csv -Encoding UTF8
  7. $f|%{
  8.     $z=$_ -replace '^(\d+).*','$1'
  9.     if (!($a.ContainsKey($z))){$a.$z=$_}
  10. }
  11. $d=@{}
  12. dir ".\任务" -recu * -inc *原唱*.txt,*伴奏*.txt,*歌词*.txt|%{
  13.     if($_ -match '(原唱|伴奏|歌词)'){$c=$($_.fullname -replace '^.*?([^\\]*)\\[^\\]*$','$1')+'_'+$Matches[0]}
  14.     foreach($i in gc $_){
  15.         if($i -match $r){
  16.             $z=$matches[1]
  17.             if($a.ContainsKey($z)){$d[$c]+=@($a.$z)}
  18.         }
  19.     }
  20. }
  21. $d.keys|%{sc -Encoding UTF8 $($_+'.csv') ($f[0],($d.$_|sort{[int]($_ -split ',')[0]}))}
复制代码

作者: 5i365    时间: 2022-1-22 06:54

回复 26# 5i365


    23楼的, 22,23行清空已筛选的的txt文件代码, 加在哪里?
作者: idwma    时间: 2022-1-22 13:36

回复 26# 5i365


    $b改成$a还是放在原来的地方




欢迎光临 批处理之家 (http://bathome.net./) Powered by Discuz! 7.2