[新手上路]批处理新手入门导读[视频教程]批处理基础视频教程[视频教程]VBS基础视频教程[批处理精品]批处理版照片整理器
[批处理精品]纯批处理备份&还原驱动[批处理精品]CMD命令50条不能说的秘密[在线下载]第三方命令行工具[在线帮助]VBScript / JScript 在线参考
返回列表 发帖
回复 15# happy886rr
请问,可以发一个到同名163邮箱吗。谢谢!
当真了解了一下,登录时间是上个月。
不知道是不是不分词的统计?是不是可以设置统计1-6个字的频率?

TOP

回复 9# WHY
要是直接用每一行去搜索,不是更通用吗?
麻烦一下。

TOP

回复 17# lxh623


      这个是根据你的具体要求来的,条件一变脚本就得改,"通用" 应该谈不上。
如果以每一行关键字(顶楼说26万行)去搜索诗词每一行内容,循环次数会增加很多,可能会降低效率。你可以试试:
  1. gawk "FNR==NR{a[$0]=1};FNR!=NR{for(i in a)b[i]+=gsub(i,i)}END{for(i in b)print i,b[i]}" 关键词.txt 诗词.txt > Result.txt
复制代码

TOP

简单测试了下,顶楼诗词 复制粘贴到 60-70M。搜索存在不重复的关键词1000个用时约77秒。26万多个得6个小时左右。这东西得用 C 或 汇编之类来写。

TOP

回复 19# xczxczxcz
9楼的代码大约四十分钟,很快的。是29万行的关键词。

TOP

本帖最后由 lxh623 于 2019-8-1 11:48 编辑

回复 18# WHY
如楼上所说,很快的。
我觉得,都是29万行,用2-3个字或者一行,(一行就是2-3个字)难道不一样吗。
9楼的代码,我改成4和6,就是没有结果。怪了。

TOP

回复 15# happy886rr
无法获得启动参数。不会用啊!
  1. echo
  2. trie U:C2.DI <in.txt>out.txt
  3. trie m
  4. pause
复制代码

TOP

返回列表