Board logo

标题: [文本处理] 谁能把html转txt的命令行工具HtoX32c.exe增强一下 [打印本页]

作者: namejm    时间: 2011-6-6 11:59     标题: 谁能把html转txt的命令行工具HtoX32c.exe增强一下

本帖最后由 namejm 于 2011-6-6 18:46 编辑

最近有大量的html文档想转换为txt
需要用命令行工具来进行个性化的批量操作
一直在使用htox32c.exe这款命令行工具
它具有如下功能:
/Cn           设每行列数最大值 [n:1-255](79)
/T{0|1}       转换页面标题 [0:不执行,1:(执行)]
/I{a|j|s|e|u|8|p} 转换编码:
            [a:(自动),j:JIS,s:shiftJIS,e:EUC,u:Unicode,8:UTF-8,p:不转换]
/S{0|1}       是否将连续空白内容合并 [0:不执行,1:(执行)]
/L{0|1}       是否删除行首行末的空白 [0:不执行,1:(执行)]
/E{0|1}       是否清除文中的EOF编码(0x1a) [0:不执行,1:(执行)]
/F{0|1}       如果转换后文本文件末尾不是回车符则添加回车符 [0:不执行,1:(执行)]
/O{0|1}       输出覆盖已有文件时是否提示 [0:不提示,1:(提示)]
/G{0|1|2|3|4"用户自定义字符串" (%s=指定替代文本)} <IMG>转换的标签
            [0:(不转换),1:"[Image]",2:"[(src=)]",3:"[(alt=)]",4:用户定义]
/D{0|1|2}     表格之间文字的间隔符 [0: (半角空格) ,1:逗号 ,2:TAB]
/Q{0|1}       以指定[每行列数最大值]强制换行 [0:(不执行),1:执行]
/A{0|1}       强制表格内文字总是左对齐 [0:(不执行),1:执行]
/U{0-7}       是否执行插入链接网址
            [0:(不执行),1:执行,+2:(在前后换行),+4:(仅插入外部链接)]

需要特别注意的是:
一般情况下最好加上 /IP 参数不转换编码
否则,转出来的txt会乱码

在大多数情况下能很好地完成工作
但是这款命令行工具存在一些不足之处
想请高手把它增强一下
目前需要增强的功能有如下几个:
  1、能够以 htox32c /ip *.html d:\tmp 这样的方式把转换出来的txt文档放到指定的路径下,而不是强制放到当前目录下;
  2、能够以 htox32c /ip *.html d:\tmp\*.tmp 这样的方式自行指定转换后文件的后缀名,而不是强制使用.txt;
  3、文件编码转换支持unicode转ANSI
  4、支持对加密网页文档的解密操作,详情请看这个帖子:https://bbs.et8.net/bbs/showthread.php?t=1015840

HtoX32c.exe:http://win32lab.com/fsw/htox.html/(官网,日文)或 http://bbs.bathome.net/thread-1974-1-1.html(带中文帮助信息)

另:batman说这些功能可以用vbs来完成
如果谁能做出vbs版本的也感激不尽
作者: Demon    时间: 2011-6-6 13:28

3、文件编码转换支持unicode转ASCII
ASCII只有0-127共128个字符,碰到ASCII中没有的字符,Unicode怎么转ASCII?

4、支持对加密网页文档的解密操作,详情请看这个帖子:
那个不叫加密,专业名称是numeric character reference(数字字符引用),是html标准的一部分
详见http://en.wikipedia.org/wiki/Numeric_character_reference

我没有在官网上找到源码,没有源码如何增强?从头自己写一个?
作者: namejm    时间: 2011-6-6 15:11

3、呵呵,说错了,应该是文件编码Unicode转ANSI,而不是转ASCII,我修改一下
如果在转换的时候会丢失一些字符
那也无关紧要
想起来网络上的那些小说不会用到那么生僻的字符
能提供一个可能会丢失某些字符的功能也够用了

4、搞不懂那些专业术语
说错了不要见笑

找不到源码就只能从头写一个了
目前好像只能如此
要是哪位能联系到作者弄到源代码就更好了
作者: Batcher    时间: 2011-6-6 17:43

CCF上有人建议你用iconv来转换编码,不符合需求?
作者: namejm    时间: 2011-6-6 18:47

不希望动用太多的工具
想集成在一起




欢迎光临 批处理之家 (http://bathome.net./) Powered by Discuz! 7.2