批处理之家 - Powered by Discuz! Board

标题: [问题求助] PowerShell对比两个CSV文件后, 在重复的项后面,加一列 [打印本页]

作者: 5i365 时间: 2022-1-19 23:50 标题: PowerShell对比两个CSV文件后, 在重复的项后面,加一列

对比两个CSV文件后, 在重复的项后面,加一列, 具体描述如下:

A.csv 文件内容:

排序,语言,歌手,歌名
1,国语,付雪,金玉良缘
2,国语,阿吉太组合,阿衣莫
3,国语,洛先生,孤城
4,国语,刘艺雯,听闻远方有你
5,国语,海来阿木,五十年以后
6,国语,海来阿木,浮生记
7,国语,杨小壮,最后的人
8,国语,莫叫姐姐,你能不能不要离开我 (莫叫语版)
9,国语,郁可唯,路过人间
10,国语,乔佳旭,雪下的时候

B.csv 文件内容:

排序,语言,歌手,歌名
1,国语,付雪,金玉良缘
2,国语,阿吉太组合,阿衣莫
3,国语,洛先生,孤城
5,国语,海来阿木,五十年以后
6,国语,海来阿木,浮生记
--------------------------------------------------------------------------------------------------
期待结果,在A中的如果有与B中重复的项,则在后面添加已完成列, 如下:

排序,语言,歌手,歌名
1,国语,付雪,金玉良缘,已完成
2,国语,阿吉太组合,阿衣莫,已完成
3,国语,洛先生,孤城,已完成
4,国语,刘艺雯,听闻远方有你
5,国语,海来阿木,五十年以后,已完成
6,国语,海来阿木,浮生记,已完成
7,国语,杨小壮,最后的人
8,国语,莫叫姐姐,你能不能不要离开我 (莫叫语版)
9,国语,郁可唯,路过人间
10,国语,乔佳旭,雪下的时候

作者: qixiaobin0715 时间: 2022-1-20 07:04

本帖最后由 qixiaobin0715 于 2022-1-20 09:31 编辑

用批处理试试。
正常代码：

@echo off
setlocal enabledelayedexpansion
for /f "skip=1 tokens=1* delims=," %%a in (b.csv) do set "%%b=true"
(for /f "tokens=1* delims=," %%i in (a.csv) do (
    if defined %%j (
        echo,%%i,%%j,已完成
    ) else (
        echo,%%i,%%j
    )
))>c.csv
move c.csv a.csv
pause
复制代码

合并成一行：

@setlocal enabledelayedexpansion&(for /f "skip=1 tokens=1* delims=," %%a in (b.csv) do set "%%b=true")&(for /f "tokens=1* delims=," %%i in (a.csv) do (if defined %%j (echo,%%i,%%j,已完成) else echo,%%i,%%j))>c.csv&move c.csv a.csv
复制代码

作者: 5i365 时间: 2022-1-20 08:33

本帖最后由 5i365 于 2022-1-20 08:37 编辑

回复 2# qixiaobin0715

非常感谢,

又遇到糟心的乱码问题了!
A.csv和b.csv必须全部是ANSI编码, 编码不同, 或编码都是UTF8, 生成的会是乱码, 这个有什么万能的解法吗?
另外,发现UTF8编码的CSV文件用Excel打开时会乱码, 还要转成ANSI,

作者: 5i365 时间: 2022-1-20 08:43

回复 2# qixiaobin0715

刚试了下单行的那个批处理, 生成的文件全是如下类似的路径, 修改单行CMD,像是雾里看花, 看来最好还是用powershell代码

C:\Users\Administrator\Desktop\新建文件夹>(if defined 国语,洛先生,孤城 (echo,3,国语,洛先生,孤城,已完成 ) else echo,3,国语,洛先生,孤城 )

作者: 5i365 时间: 2022-1-20 08:50

我现在能想到的万能的解法是, 不管原文本文件是什么编码格式, 都先用@went大侠的 Coder转成utf8, 然后用powershell代码导入和导出文本文件

作者: 5i365 时间: 2022-1-20 09:01

回复 2# qixiaobin0715

我现在不明白, 为什么A.csv和B.csv文件都是UTF8的情况下会产生乱码, UTF8不是兼容所有字符吗?

作者: qixiaobin0715 时间: 2022-1-20 09:33

回复 4# 5i365
忘记关闭回显（代码前加@）了。已修改。

作者: qixiaobin0715 时间: 2022-1-20 09:36

看到前辈们处理UTF8是在前面加chcp 65001>nul。

作者: qixiaobin0715 时间: 2022-1-20 09:44

只是以前看到你想把cmd写成一行，自己也想练练手，瞎写的。

作者: 5i365 时间: 2022-1-20 09:50

回复 9# qixiaobin0715

感谢, 你懂我!

作者: 5i365 时间: 2022-1-20 09:52

回复 7# qixiaobin0715

加关闭回显也不行, 我尝试加了@echo off& 也一样的

作者: 5i365 时间: 2022-1-20 10:01

本帖最后由 5i365 于 2022-1-20 10:13 编辑

回复 9# qixiaobin0715

我把A和B都改成了utf8 ,然后执行下面的代码:
@echo off
chcp 65001>nul
setlocal enabledelayedexpansion
for /f "skip=1 tokens=1* delims=," %%a in (b.csv) do set "%%b=true"
(for /f "tokens=1* delims=," %%i in (a.csv) do (
if defined %%j (
echo,%%i,%%j,已完成
) else (
echo,%%i,%%j
)
))>c.csv
REM move c.csv a.csv
pause
----------------------------------------------------------------
得到的结果:
排序,语言,歌手,歌名
1,国语,付雪,金玉良缘,��
2,国语,阿吉太组合,阿衣莫,��
3,国语,洛先生,孤城,��
4,国语,刘艺雯,听闻远方有你
5,国语,海来阿木,五十年以后,��
6,国语,海来阿木,浮生记,��
7,国语,杨小壮,最后的人
8,国语,莫叫姐姐,你能不能不要离开我 (莫叫语版)
9,国语,郁可唯,路过人间
10,国语,乔佳旭,雪下的时候

作者: qixiaobin0715 时间: 2022-1-20 10:39

本帖最后由 qixiaobin0715 于 2022-1-20 10:44 编辑

回复 12# 5i365

@echo off &@cls&chcp>nul 65001
@setlocal enabledelayedexpansion&(for /f "skip=1 tokens=1* delims=," %%a in (b.csv) do set "%%b=true")&(for /f "tokens=1* delims=," %%i in (a.csv) do (if defined %%j (echo,%%i,%%j,已完成) else echo,%%i,%%j))>c.csv&move c.csv a.csv
复制代码

bat文件编码也要改。

作者: for_flr 时间: 2022-1-20 11:05

gc b.csv|?{(gc a.csv) -contains $_}|%{$_ -replace "^\d.*","$_,已完成"}
复制代码

作者: 5i365 时间: 2022-1-20 11:14

回复 14# for_flr

回显如下, 只有上半部分, 不加已完成的也需要显示:
排序,语言,歌手,歌名
1,国语,付雪,金玉良缘,已完成
2,国语,阿吉太组合,阿衣莫,已完成
3,国语,洛先生,孤城,已完成
5,国语,海来阿木,五十年以后,已完成
6,国语,海来阿木,浮生记,已完成

作者: for_flr 时间: 2022-1-20 11:32

回复 15# 5i365

  gc a.csv|%{if((gc b.csv) -match "^\d" -contains $_){"$_,已完成"}else{$_}}
复制代码

作者: 5i365 时间: 2022-1-20 11:43

回复 16# for_flr

我的a.csv 有3000行, b有200行, 执行时间有点长, 有能快点的方法吗? 批处理执行的很快

作者: for_flr 时间: 2022-1-20 11:49

有，gc a.csv -readcount 0
|%{}处理改作for循环
你可以琢磨一下，我下班放假了

:lol

作者: 5i365 时间: 2022-1-20 12:05

回复 18# for_flr

感谢提醒,

不太懂foreach和for在这里怎么转换, 有路过的大侠, 帮试一下

作者: idwma 时间: 2022-1-20 15:36

还可以试试哈希表的方式

$f=gc a.csv
$a=@{}
$rex={[int]($_ -replace '^(\d+),.*','$1')}
$f[1..$f.count]|%{$a+=@{$(&$rex)=$_}}
(gc b.csv)[1..$f.count]|%{if($a.contains($(&$rex))){$a[$(&$rex)]=$a[$(&$rex)]+',已完成'}}
sc c.csv ($f[0],$(do{$a[++$bcc]}while($a[$bcc] -ne $null)))
复制代码

作者: 5i365 时间: 2022-1-20 18:19

回复 20# idwma

牛X 这个执行速度快多了, 为什么?

作者: idwma 时间: 2022-1-20 19:44

回复 21# 5i365

减少了循环次数

欢迎光临批处理之家 (http://bathome.net./)