标题: [文本处理] 求助大佬分析txt文件是否有重复文字!求bat [打印本页]
作者: 曾经的你 时间: 2019-8-8 11:20 标题: 求助大佬分析txt文件是否有重复文字!求bat
本帖最后由 曾经的你 于 2019-8-8 11:22 编辑
bat中,用户能粘贴需要查询的数据
然后将重复的文字输出到一个新的文件并存在桌面,名字为info.txt- 天 地 人 你 我 他 一 二 三 四 五 上 下 口 耳 目 手 足 站 坐 日 月 水 火 山 石 田 禾 对 云 雨 风 花 鸟 虫 六 七 八 九 十 爸 妈 马 土 不 画 打 棋 鸡 字 词 语 句 子 桌 纸 文 数 学 音 乐 妹 奶 白 皮 小 桥 台 雪 儿 草 家 是 车 羊 走 也 秋 气 树 叶 片 大 飞 会 个 的 船 两 头 在 里 看 见 闪 星 江 南 可 采 莲 鱼 东 西 北 尖 说 春 青 蛙 夏 弯 就 冬 男 女 开 关 正 反 远 有 色 近 听 无 声 去 还 来 多 少 黄 牛 只 猫 边 鸭 苹 果 杏 桃 书 包 尺 作 业 本 笔 刀 课 早 校 明 力 尖 从 众 双 木 林 森 条 心 升 国 旗 中 红 歌 起 么 美 丽 立 午 晚 昨 今 年 影 前 后 黑 狗 左 右 它 朋 友 比 尾 巴 谁 长 短 把 伞 兔 最 公 写 诗 点 要 过 给 串 们 以 成 彩 半 空 问 到 方 更 绿 出 睡 那 海 真 老 师 吗 同 什 才 亮 时 候 觉 自 己 很 穿 衣 服 快 蓝 又 笑 着 向 和 贝 娃 挂 活 金 哥 姐 弟 叔 爷 群 竹 牙 用 几 步 为 参 加 洞 乌 鸦 处 找 办 旁 许 法 放 进 高 住 孩 玩 吧 芽 爬 久 回 全 变 工 厂 医 院 生
- 霜吹落飘游池入姓氏李张古吴赵钱孙周王官清晴眼睛保护害事情请让病相遇喜欢言怕互令动万纯净阴雷电阵冰冻夹吃忘井村叫毛主席乡亲战士面想告诉京安门广非常壮观接再做各种样伙伴却也趣这太阳道送忙尝香甜温暖该颜因辆匹册支铅棵架块捉急直河行死信跟忽喊身窝孤单都邻居招呼静怎独跳绳讲得羽球戏排篮连运夜思床光疑举望低故胆敢往外勇窗乱偏散原像微端粽节总米间豆肉带知据念虹座浇提洒挑兴镜拿照千裙眉鼻嘴脖臂肚腿脚蜻蜓迷藏造蚂蚁食粮蜘蛛网圆严寒酷暑凉晨细朝霞夕杨操场拔拍跑踢铃热闹锻炼体之初性善习教迁贵专幼玉器义饭能饱茶泡轻鞭炮首踪迹浮萍泉流爱柔荷露角珠摇躺晶停机展透翅膀唱朵腰坡沉伸潮湿呢消息搬响棍汤扇萤牵织斗具次丢哪新每平她些仔检查所钟丁元迟洗背刚共汽决定已经物虎熊通注意遍百舌鬼脸准第猴结掰扛满扔摘捧瓜抱蹦追吵胖岁现票交弓甘棉娘治燕别干然奇颗瓢碧吐啦咕咚熟掉吓羊鹿逃命象野拦领璧墙蚊咬断您拨甩赶房傻转卫刷梳巾擦皂澡盆
-
- 塘脑袋灰哇捕迎阿姨宽龟顶披鼓晒极傍越滴溪奔洋 坏淹没冲毁屋猜植如旅备纷刺底炸离察识粗套帽 登鞋裤图壶帐篷指针滩艘军舰帆稻园孔翠队铜梧桐掌枫松柏装桦耐守疆银杉化桂世界锦雄鹰翔雁丛深猛灵休季蝴蝶麦苗桑肥农归戴谷粒虽辛苦了葡萄紫狐狸笨酸曹称员根柱议论重杆秤砍线止量玲详幅评奖催啪脏报另及懒并糟肯封削锅朝刮胡灯修冷肩团完期结束鲜哄先闭紧润等吸发粘汗额沙乏弹钢琴捏泥滚铁环荡滑梯楼依尽欲穷层瀑布炉烟遥川闻名景区省部秀尤其仙巨位著形状潭湖绕茂盛围胜央岛华纱童境引客沟产梨份枝搭淡够好收城市留钉利分味昌调硬卧限乘售沿答渴喝话弄错际抬号堵缝当鹊朗衔枯劝趁将且腊狂吼复哀葫芦藤谢蚜盯啊赛感怪慢锋蜜蜂幕扫墓慕抄炒洪毒蛇兽伤灾难仍退继续认训被恢朱德扁担志伍敌泽抽陡仗争仗疼料敬泼族民度敲龙驶容踩铺碗祝福健康寿轿救摩托防渔货油轮科考宿寺危辰恐惊似庐笼盖苍茫雾淘于暗岸街梁甚至切躲失累添柴烧旺渐哎呀冒烫终浑淋灭激椰壳漠骆驼骏悬崖假威扯嗓派违抗爪趟神猪纳闷受骗借酪捡俩始拌帮匀嚷瞧便剩整筝鼠折漂扎抓幸但愿哭取助抽使劲哗秧拉表示摆翻栽责狼猩鹤鸽羚蚯蚓螃蟹蚕
- 莺 拂 堤 柳 醉 咏 妆 丝 绦 裁 剪 脱 袄 寻 羞 姑 遮 掩 探 嫩 符 解 触 杜 娟 邮 递 裹 寄 局 堆 破 漏 懊 丧 啊 猬 绚 籽 礼 邓 坛 龄 格 握 致 勃 挖 选 茁 移 挥 填 扶 亭 咨 询 剧 管 理 宝 塔 餐 厅 曾 蒙 泞 顺 迈 踏 荆 棘 瓣 莹 觅 需 献 糕 特 嘛 买 粉 糖 蔗 汁 菜 熬 算 销 劳 的 确 郊 泛 波 纹 葱 软 毯 异 恋 舍 求 株 拾 骑 跨 程 魔 术 建 筑 演 营 务 判 饲 养 州 涌 峰 耸 湾 隔 峡 与 陆 谊 浓 齐 奋 繁 荣 传 统 贴 宵 巷 祭 舟 艾 堂 乞 巧 郎 饼 赏 菊 甲 类 漂 珍 饰 品 随 易 损 币 财 赚 赔 贫 菠 煎 腐 茄 烤 煮 爆 炖 蘑 菇 蒸 饺 炸 酱 粥 蛋 津 溜 辣 乎 喷 腻 绵 脆 邦 盒 聊 坪 郁 囱 般 精 叮 咛 渡 荫 蔽 撑 拼 母 冈 懂 案堡 插 凶 狠 补 充 攻 商 量 驾 轰 驳 药 赞 合 记 屁 股 昏 泡 尿 茸 醒 晃 免 费 列 屎 撞 贪 脾 婶 陀 螺 毽 倒 翁 枪 橡 控 坦 克 寓 则 亡 牢 圈 钻 叼 坊 悔 此 焦 筋 疲 喘 截 靠 而 班 哈 倒 审 视 页 肃 晌 抢 嘻 悦 诲 棚 驮 磨 坊 挡 伯 浅 刻 突 哩 唉 试 蹄 既 厨 厕 厢 厦 穴 窟 窿 窄 晓 慈 毕 竟 映 绝 鹂 鸣 行 含 岭 泊 压 蝉 垂 户 扑 慌 辨 忠 实 导 盏 永 闯 碰 稠 稀 渠 积 航 宇 宙 稳 杯 饮 稍 舱 板 件 题 浴 室 密 固博 馆 览 育 研 究 哨 诊 似 耷 咦 竖 竿 舞 痛 烦 扇 店 蹲 寂 寞 罩 编 顾 付 夫 换 颈 袜 匆 蜈 蚣 卖 烂 牌 喝 坑 挺 舒 集 播 撒 茵 灌 缺 泳 愣 昆 怜 挪 仿 佛 尽 任 何 纺 竭 规 律 待 挣 愉 绒 扫 帚 抹 拖 桶 簸 箕 玻 璃 垃 圾 祖 掏 逗 蔷 薇 逮 忆 纪 必 须 功 譬 糙 敏 式 简 由 睁 秩 序 哦 射 值 熔 艰 箭 裂 窜 炎 庄 稼 滋 腾 钩 铲 梅 柿 源 涨 炬 灿 垮 坟
- 坝汉艳扮扬读摔跤凤洁荒笛罚裳诵例段练糊涂呆戒厉挨楚径斜赠刘残犹傲君橙橘洼印凌增棕靴钥匙缤枚争勾喇厚曲丰抖蟋蟀振韵掠吟辽阔融伐斧锯煤燃缩努茎推吱拆旧咱偷卷齿嚼吞胃悲咽泪眯宣诱舔毅强犯禁豫跺聚申介绍宗乙召孝暴凑喵孵叽饿偶尔萝卜愁沾晾讨厌怒批访差忍模疯汪搞典基础阁佳盲唐父鹦鹉悄蒲英耍欠钓拢亦宜庭未盘富烧优瑰岩虾划武粪辈设滨鸥胳睬载凰亚榕凳逢除侧欣浸乳剑梢显材膝临库蝌蚪蛾鲤鲫鲨妙奏喃伟击江喳黎凝畅瞬猎枣馋缓讶测监恍悟逐聪司跌皆弃持默姿势投况烈镇述普忧联宁胸脯惹仰渣或者惜诚棒恩血撤险瓦帘迅速夺秒眨瞪瞅眶睹
-
-
-
- 鸳 鸯 惠 崇 豚 减 伶 俐 掠 翼 漾 倦 闲 纤 杆 痕 蓬 胀 翩 蹈 录 凡距 款 绸 膜 瞎 益 约 斑 援 掷 捞 缚 缭 络 资 贡 贷宋 耕 释 冀陶 罐 娇 谦 虚 懦 弱 恼 代 价 皱 配 怨 狮 逼 挣 滔 涯 妇 碌 遵 循 尊 验屠 苏 魂 酒 牧 兄 倍创 携 存 制 蔡 伦 欧 洲 社县 拱 济 匠 计 横 史 爪 智 慧 历择 宫 摊 贩 吏态 驴 寸 栏 貌 税 档 咖 啡 阅 废 贸芬 芳 内 燥 灼 适 雅 吻 组概 阻 括 误 逆 途 陌 超 缸 隙 掀 末 副 钳 搏 较 腹 栅 麻 悠 揉 沫 唯 碍 系希 痒 鳄 丁 零 肠 醋 秘 墨 染 碎 浪 溅 爽 剃 执 否 骂 仇 惯 刑 替 厘 模 廊 若 较 薄 颤 巍 巅 婴 耀 庆 盼 叠 歉 旭 屿 瞭 巡 缆 锚呈 雕 幻 蜡 烛 辉 芒 型 窃私警肌章 胞 藻 达 储 属檀 喂 盈 彤 跪 庙 箱 夸 歪 承 袖 衬 衫 负 泄 艺橱 改 蕉 扣 筒 婆 脊 贼 莫 颠 胶 旋 纵 核 妻 爹 犁 困 牲 府 罢 咳 嗽 呕 唠 叨 嘀 谚 谣 诫 辩
-
- 盐屹昂顿鼎沸贯浩崩震霎余鹅卵俗跃穗埂烁巢苇罗眠霸占昧坠怀荚豌按僵预揭苔囚框溢蝙蝠启即锐铛蝇证障荧屏唤技获赖潜亿索奥舶质哲兰避撼喧雀炊檐驻蛀拄捐娟绢苞電鲍暮瑟缘降骚逊输均柄蜗萎宅隐毫慎址良掘搜倾骤置抛劈浊丈隆肢躯液帝曰溺返斯惨盗败惩佩恕坚锁遭恶愤娲塌熄冶圃卉蕊玫茉莉牡丹棠嗅奈煞拯嘶哑庞级链攀辫呵谓拳捶襟膊瓶怖凭欺掐囊羡殷豁撇霉亏拙砸踱妩媚兵恨帅预彻溃誉丑豪韭芥芹蒜椒藕薯芋塞秦征琵琶杰项崛范魏晰效淮惑斥蓄迫租纠缠邀扰拒签订要妄延昔笋茅炕煌旦媚戎诸竟豹芜娶媳巫绅旱徒吊淌凿溉拜桓候肤敷剂标绩拴纲授键谱阀砖综俱
-
-
- 徐篱疏杂锄剥构芍冠朴素率倘附捣绘谐慰瞥绮谈琥珀嗡脂拭渗俯番埋澎湃钝仅描隧衍吨斤颅膨捷栖辟崭乒乓拥杀菌臭蔬碳癌症疾灶揽焰驱践党施懈碑岳湘贰叁柒壹捌玖漫涛挤叉绣潇绽朦胧晖徜徉姗炫垢怯曝赤涉晕屈渊孟甫韩愈禹锡仲龚虑职蹭稿腔殃疙瘩侮撮聋雏啄伏哼啼凄郑嚣吠促颇奢侈苟侍窥伺供肝秆峭俏浦哺轴届扩刹镶浙簇兀臀漆蜿蜒晋扭码姥栓捆绑劫枕柜呜扒尸体徽谜拇唇尚倔嘱咐沮绪嘹悉妨搓葵祈遗憾污屑芙蓉洛遁砚乾坤恭勤焉杵卒脉估剖混汹维械卑岗宰措遣梭役屡摧膛蔼慷慨徘徊惧锲躁焚妖矩乖撵丫拽瘦允砌啸缕凋覆叱颊港宴睫婚讯挽圣仪帜陈垫恒抚
- 鹭嫌喙黛匣嗜亩吩榨榴矮箩杭蔓幽哟享陪趴睑眸咂汛谴惰衡协绰璧臣蔺诺廉抵御辞辱缶卿袍罪鸵赢隼瀚侵略垒丘搁陷拐岔酬誓谎牺嫂恳筛歹罕狱酿瞌拘俭皇偎衰泰珊瑚礁筐拗乃熏亥恃喑擞泻鳞惶胎履哉殿珑剔澜陵宏奉烬瞒域艇矛盾喉咙勺搅舀摄殖炭疗驯矫藓狭舵杈勉锥魄抑颓纫噪褐惫耽兜权茧栈冤枉惚僻屑迪嫁缴榜兼嘲腼腆誊励篇版祥歧谨暝浣榆畔聒窠旷怡凛冽逸桨桩暇袅嫦娥嫉妒瓷耻矣岂舅斩凯葛浒鲁寇贾刊琐栩呻某喻瘾卓籍阅饥偿甸馈磁委酵鉴沥
- 昼耘稚磬陂漪蚱啃樱蚌割嘟倭啰逛渺篝萌澄澈旖旎瑞菜垠倾峨缀葬腮玷秉飕撩侨眷瑜忌督幔翎寨擂呐弩丞筷恰谋勿诡踉跄蹿胯霹雳抡簌咆哮锤酥芝遂迸涧獐猕猿耶挈瞑窍碣楷镌挠劣屉鬟晦讳钗敞袭帕纨咯绞姊渭仞沃匪绷吭衷堪彭拟赴殊踌躇黯革筹矜俘镯裆企彼褂坞墩搂绊揪扳腕铸颧疤侄痰揩浆傅袱蘸馅诈怔吾弗膑讥讽蔑锣肆桅撕唬龇咧瞄尼艄翘姆祷雇毡犊眺膘驰爵噜吆哞畜愧译熠遐埃菲黏刃滥淤湛诣禽弦揿搔窈窕秽轧拧纽仓涕庸憎胚祸患赋痴嘿伊娜窘
复制代码
作者: a20150604 时间: 2019-8-8 16:52
本帖最后由 a20150604 于 2019-8-8 17:38 编辑
你要处理的文本存入 s.txt- @echo off & setlocal enabledelayedexpansion
- chcp 936
- mode 200,1000
- set LN=^
-
-
- echo;[!LN!]
-
- >tmp.txt cd.
-
- for /f "delims=" %%a in (s.txt) do (
- set "lin=%%a"
- set "lin=!lin: =!"
- echo !lin!
-
- call :strlen lin length
- echo !length!
-
- call :output lin length
- )
-
- >sorted.txt sort tmp.txt
- >info.txt cd.
- set "last_distinct_line="
- set /a "cnt_duplicate=0,times_per_line=1"
- for /f "delims=" %%a in (sorted.txt) do (
- if "%%a"=="!last_distinct_line!" (
- set /a "times_per_line+=1"
- if !times_per_line!==2 (
- set /a cnt_duplicate+=1
- )
- ) else (
- if "!last_distinct_line!" neq "" if !times_per_line! gtr 1 (
- echo;!cnt_duplicate!,!times_per_line!:!last_distinct_line!
- >>info.txt echo;!cnt_duplicate!,!times_per_line!:!last_distinct_line!
- )
- set "last_distinct_line=%%a"
- set /a "times_per_line=1"
- )
- )
- set cnt_duplicate
-
- pause
- exit
-
-
- :output
- setlocal enabledelayedexpansion
- set /a p=0
- :loop
- set "out="
- for /L %%i in (1 1 100) do (
- if !p! lss !%2! for %%p in (!p!) do set "out=!out!!%1:~%%p,1!!LN!"
- set /a p+=1
- )
- >>tmp.txt (echo;!out:~0,-1!)
- if !p! lss !%2! goto :loop
- endlocal
- exit /b
-
-
- :strlen <stringVarName> [retvar]
- :: 思路: 二分回溯联合查表法
- :: 说明: 所求字符串大小范围 0K ~ 8K;
- :: stringVarName ---- 存放字符串的变量名
- :: retvar ---- 接收字符长度的变量名
- setlocal enabledelayedexpansion
- set "$=!%1!#"
- set N=&for %%a in (4096 2048 1024 512 256 128 64 32 16)do if !$:~%%a!. NEQ . set/aN+=%%a&set $=!$:~%%a!
- set $=!$!fedcba9876543210&set/aN+=0x!$:~16,1!
- endlocal&If %2. neq . (set/a%2=%N%)else echo %N%
-
- exit /b
复制代码
作者: xczxczxcz 时间: 2019-8-8 17:54
重复文字:- 羊 也 的 江 尖 要 候 行 朝 体 泡 扇 丁 结 璧 炸 杆 量 尽 喝 啊 扫 抽 仗 争 似 烧 爪 漂 娟 菜 倒 坊 竟 挣 掠 模 阅 较 预 倾 媚 屑
复制代码
- (([string]([char[]](gc b.txt -Raw) -join ' ') -split '\s+' -notmatch '^$')|group|?{$_.count -ge 2}|select -expand name) -join ' '|sc '.\info.txt' -enc Default -Force
复制代码
作者: xczxczxcz 时间: 2019-8-8 20:07
再来一个:- $save =[io.path]::Combine([environment]::GetFolderPath("desktop"),'info.txt');
- $bytes=[IO.File]::ReadAllBytes("$(pwd)\b.txt") -notmatch '^(10|13|32)$';
- $arr =for($i=0; $i -lt $bytes.count;$i+=2){,@($bytes[$i],$bytes[$i+1])};
- $str =$arr|group {$_ -join ''}|?{$_.count -ge 2}|%{$_.group|select -First 1};
- $gbk =[text.encoding]::Getencoding(936);
- $(foreach($i in $str){$gbk.GetString($i)}) -join ' '|sc $save -enc Default -Force;
复制代码
作者: xczxczxcz 时间: 2019-8-8 20:27
- (([char[]](gc b.txt -Raw) -join ' ').split(' ',[StringSplitOptions]::RemoveEmptyEntries)|group|?{$_.count -ge 2}|select -expand name) -join ' '
复制代码
这个把前面的 羊 字丢了。怪。
作者: cfwyy77_bat 时间: 2019-8-9 08:25
awk,非BAT,仅供参考。- gawk 'BEGIN{RS="EOF"}{gsub(/[ \n]/,"",$0);split($0,a,"");for(i in a)b[a[i]]++;for(i in b)if(b[i]>1)printf(i)}' 1.txt >info.txt
-
- 璧炸预杆扇江扫争结竟烧行尖倒娟候尽倾量掠抽仗爪较要坊屑啊阅泡丁似媚菜喝漂朝模挣羊的体也
复制代码
作者: 曾经的你 时间: 2019-8-9 08:25
回复 2# a20150604
谢谢大佬
作者: 曾经的你 时间: 2019-8-9 08:28
回复 6# cfwyy77_bat
谢谢大佬
作者: 曾经的你 时间: 2019-8-9 08:28
回复 4# xczxczxcz
谢谢大佬
作者: /zhqsystem/zhq 时间: 2019-8-10 03:23
水一个- for /f "delims=" %%i in ('type "1.txt"')do (
- set "#=%%i"
- if defined # set "#=!#: =!"
- if defined # for /l %%n in (0,1,8192)do if /i not "!#:~%%n,1!"=="" for /f "delims=" %%z in ("!#:~%%n,1!")do if not defined $%%z (set "$%%z=%%z")else echo,存在: %%z
- )
复制代码
作者: 曾经的你 时间: 2019-8-10 10:38
回复 10# /zhqsystem/zhq
谢大佬
作者: xczxczxcz 时间: 2019-8-10 14:41
又搞了个,提速约 10 倍。
欢迎光临 批处理之家 (http://bathome.net./) |
Powered by Discuz! 7.2 |