Board logo

标题: [文本处理] 批处理调用curl和htox32c抓一个网页为何乱码? [打印本页]

作者: lilarcor    时间: 2011-4-7 11:52     标题: 批处理调用curl和htox32c抓一个网页为何乱码?

stockq.cn
目的就是下载里面的文本,相当于打开ie,ctrl+c 然后ctrl+v ,然后保存到记事本的效果
我抓取后,还需要用vim来处理,但是发现记事本打开没问题,vim打开是乱码
作者: tmplinshi    时间: 2011-4-7 14:45

本帖最后由 tmplinshi 于 2011-4-7 16:50 编辑

把文本转换成 GBK 编码:
  1. ConCmd.exe /o:gbk stockq.cn.txt
复制代码

作者: lilarcor    时间: 2011-4-7 14:54

谢谢,太强大了
作者: tmplinshi    时间: 2011-4-7 16:54

之前说错了。
之前说是由于文本没有 BOM,刚才我测试了用 vim 打开有 BOM 的 UTF-8 文件也是乱码。
作者: lilarcor    时间: 2011-4-7 17:14

.\curl\curl stockq.cn|.\iconv\iconv  -f utf-8 -t gb18030 >stockq.html
.\HtoX32c\HtoX32c.exe  /Ip /L1 /A1 /F1 /D0 stockq.html>stockq.txt

我后来这样处理了
作者: tmplinshi    时间: 2011-4-7 17:38

5# lilarcor


学习了。以前没用过 GB18030 字符集。一直用 GBK,用 GBK 经常会出现错误提示“iconv: (stdin): cannot convert”。

Google 搜索了下 GB18030 的介绍:
GB18030有两个版本:GB18030-2000和GB18030-2005。GB18030-2000是GBK的取代版本,它的主要特点是在GBK基础上增加了CJK统一汉字扩充A的汉字。GB18030-2005的主要特点是在GB18030-2000基础上增加了CJK统一汉字扩充B的汉字。本文数一数GB18030中的汉字,也顺便看看其它标准中的汉字。





欢迎光临 批处理之家 (http://bathome.net./) Powered by Discuz! 7.2