批处理之家 - Powered by Discuz! Board

标题: [文本处理] [已解决]批处理删除并提取重复的中文汉字超过3个字的行。 [打印本页]

作者: 每天几分 时间: 2015-3-6 13:28 标题: [已解决]批处理删除并提取重复的中文汉字超过3个字的行。

本帖最后由每天几分于 2015-3-6 16:17 编辑

臂 sky
璧 skd
边 lz
边 lzd
边 vpd
砭 spz
笾 zlz
餐 bx
餐 bxg
餐 can
餐 ihp
编 ah
编 ahu
编 vvh
煸 hhu
复制代码

如上，不用排序，只把重复的中文汉字超过3个字的行删除，并将删除的字所在行单独提取出来。

最终实现如下2个文本

臂 sky
璧 skd
砭 spz
笾 zlz
煸 hhu
复制代码

边 lz
边 lzd
边 vpd
餐 bx
餐 bxg
餐 can
餐 ihp
编 ah
编 ahu
编 vvh
复制代码

作者: pcl_test 时间: 2015-3-6 14:23

回复 1# 每天几分
问题一、重复字数超过3个字的行，这句有歧义，像下面的删哪些呢？空格算一个重复字符吗？

边 lz
边 lzd
边 lzld
边 lzzd
复制代码

问题二、如果是以下情况删不删呢？

边 lz
边 dzl (删?)
边 vpdyzipll(删?)
复制代码

作者: apang 时间: 2015-3-6 14:55

@echo off
setlocal enabledelayedexpansion
(for /f %%a in ('sort 1.txt ^& echo,') do (
        if "%%a" NEQ "!a!" (
                if !n! GEQ 3 echo,!a!
                set n=1
        ) else set /a n+=1
        set "a=%%a"
))>$
findstr /ibvg:$ 1.txt > 2.txt
findstr /ibg:$ 1.txt > 3.txt
pause
复制代码

作者: 每天几分 时间: 2015-3-6 16:17

谢谢3楼的apang，就是要这样的效果。
2楼的朋友，我已经在一楼重新编辑了，表述可能有点问题，看代码那里容易理解点。只针对中文汉字重复。

作者: pcl_test 时间: 2015-3-6 16:47

回复 4# 每天几分

@echo off
setlocal enabledelayedexpansion
for /f "tokens=1*" %%a in ('type "1.txt"') do (
set n=0
findstr /r /c:"%%a" "1.txt" >$
for /f "delims=" %%i in ($) do set /a n+=1
if !n! gtr 2 (>>不符合.txt echo,%%a %%b) else (>>符合.txt echo,%%a %%b)
del $
)
pause
复制代码

作者: DAIC 时间: 2015-3-6 17:14

gawk "{if(a[$1]++)print>\"2.txt\";else print>\"3.txt\"}" 1.txt
复制代码

作者: CrLf 时间: 2015-3-6 18:42

@echo off
setlocal enabledelayedexpansion
for /f "tokens=1*" %%a in (1.txt) do set /a [%%a]+=1
(for /f "delims==" %%b in ('set [') do if ![%%b]! geq 3 echo %%b)>$
findstr /r /b /g:$ "1.txt">不符合.txt
findstr /r /b /v /g:$ "1.txt">符合.txt
del $
pause
复制代码

欢迎光临批处理之家 (http://bathome.net./)