Board logo

标题: [文本处理] 【已解决】批处理怎样批量转码htm网页文件? [打印本页]

作者: tbjx138    时间: 2014-11-26 21:00     标题: 【已解决】批处理怎样批量转码htm网页文件?

先谢谢各位大神的帮忙!!我有很多htm网页,我用EmEditor打开就提示下面的图:

每次我都是这样做的,点击确定,然后文档打开,点击一下空格键,然后保存就可以了
几个可以,太多就不行了。我想请大神帮忙,批处理能不能批量转换,解决我的这个问题呢?
作者: Batcher    时间: 2014-11-26 21:11

压缩一个htm文件传上来看看
作者: tbjx138    时间: 2014-11-26 21:16

我上传网盘了,请管理员看看,谢谢!!
链接:http://pan.baidu.com/s/1hq48kAC 密码:8mlr
作者: tbjx138    时间: 2014-11-27 07:18

还请各位大神帮忙!!!谢谢!!
作者: DAIC    时间: 2014-11-27 08:52

用EmEditor打开的目的是什么?我用Nodepad++打开没有这个提示。
作者: tbjx138    时间: 2014-11-27 09:07

用EmEditor打开的目的是什么?我用Nodepad++打开没有这个提示。
DAIC 发表于 2014-11-27 08:52



回复大神,我是在网页提取时报错,必须做下转码,才能提取!
作者: DAIC    时间: 2014-11-27 09:44

回复 6# tbjx138


    网页提取时使用的代码发出来我试试
作者: cyq8886    时间: 2014-11-27 10:08

第三方工具挺好用的,可以试试
  1. iconv -f gbk -t utf-8 a.txt >b.txt
复制代码
http://www.bathome.net/thread-32989-1-1.html
作者: apang    时间: 2014-11-27 10:38

源文件10.htm中存在 nul 字符,如果文件多的话,用sed 可以删掉它
  1. sed -i "s/\x00//g" *.htm
复制代码

作者: tbjx138    时间: 2014-11-27 10:50

第三方工具挺好用的,可以试试
cyq8886 发表于 2014-11-27 10:08

这个代码不知道转码使用。请大神说明一下!
作者: tbjx138    时间: 2014-11-27 10:51

本帖最后由 tbjx138 于 2014-11-27 11:13 编辑
源文件10.htm中存在 nul 字符,如果文件多的话,用sed 可以删掉它
apang 发表于 2014-11-27 10:38


多谢apang大神,用大神的代码做了bat,使用后很好用!
作者: apang    时间: 2014-11-27 11:12

回复 11# tbjx138


    估计你没有sed.exe,7楼DAIC签名档有下载地址

D:\test>dir *.htm
驱动器 D 中的卷没有标签。
卷的序列号是 0000-ECDB

D:\test 的目录

2014-11-26  14:41        11,139,967 010.htm
               1 个文件     11,139,967 字节
               0 个目录 57,363,992,576 可用字节

D:\test>sed -i "s/\x00//g" *.htm

D:\test>dir *.htm
驱动器 D 中的卷没有标签。
卷的序列号是 0000-ECDB

D:\test 的目录

2014-11-27  11:05        11,139,965 010.htm
               1 个文件     11,139,965 字节
               0 个目录 57,363,992,576 可用字节

D:\test>


修改后010.htm少了两个字节(两个 nul 字符被删掉了),我用UltraEdit32测试也是如此。
作者: tbjx138    时间: 2014-11-27 11:17

回复  tbjx138


    估计你没有sed.exe,7楼DAIC签名档有下载地址



修改后010.htm少了两个字节( ...
apang 发表于 2014-11-27 11:12

第一次是没有sed,我下载使用后很好,我的htm很多,能不能整个文件夹里的所有htm一起转换!谢谢大神的帮忙!!
作者: DAIC    时间: 2014-11-27 16:12

回复 13# tbjx138


    9楼代码里面的*.htm就是表示批量处理当前目录下的所有htm文件
作者: tbjx138    时间: 2014-11-27 18:39

好的,懂了,谢谢DAIC大神!!




欢迎光临 批处理之家 (http://bathome.net./) Powered by Discuz! 7.2