批处理之家 - Powered by Discuz! Board

标题: [网络连接] [已解决]curl如何撷取网页跳转后的内容？ [打印本页]

作者: strong12345 时间: 2010-5-14 21:06 标题: [已解决]curl如何撷取网页跳转后的内容？

curl 可以简单又好用的撷取网页内容

但是如果想撷取网页跳转后的内容，有办法吗?

例如∶

curl http://www.google.com > google.txt
复制代码

这样是可行的

curl http://0rz.tw/W1A5m > google.txt
复制代码

这样是无效的

而 http://0rz.tw/W1A5m其实就是跳转到http://www.google.com的网址

[ 本帖最后由 strong12345 于 2010-5-15 18:36 编辑 ]

作者: xinje 时间: 2010-5-14 21:14

你是想读取连接后的内容吧。
那你取http://0rz.tw/W1A5m的内容后，找出超级链接地址，继续读取不就行了。

作者: strong12345 时间: 2010-5-14 21:20

原帖由 xinje 于 2010-5-14 21:14 发表
你是想读取连接后的内容吧。
那你取http://0rz.tw/W1A5m的内容后，找出超级链接地址，继续读取不就行了。

可是

curl http://0rz.tw/W1A5m > google.txt
复制代码

这样的话 google.txt 是空文件 @@?

作者: strong12345 时间: 2010-5-14 21:55

不过很感谢 xinje 大大所提供的办法
因为我又尝试了不同的转址网站
有些用大大你所说得方法可以成功撷取

作者: lj84831253 时间: 2010-5-14 22:15

楼主去用wget就可以了
wget -q "http://0rz.tw/W1A5m" -O google.txt 2>nul

作者: xinje 时间: 2010-5-14 23:40

http://0rz.tw/W1A5m 的确有些特殊，楼上的哥们所用的WGET没用过，看起来不错。

我用VC++试了试，纯用WINDOWS API取网页源码很完整。如果你需要可以帮你写出控制台EXE

作者: strong12345 时间: 2010-5-15 18:36

小弟刚开始学VC++ ，不会用...

不过至少现阶段问题已经解决，感谢!!

欢迎光临批处理之家 (http://bathome.net./)