Board logo

标题: [网络连接] [已解决]curl如何撷取网页跳转后的内容? [打印本页]

作者: strong12345    时间: 2010-5-14 21:06     标题: [已解决]curl如何撷取网页跳转后的内容?

curl 可以简单又好用的撷取网页内容

但是如果想撷取网页跳转后的内容,有办法吗?

例如∶
  1. curl http://www.google.com > google.txt
复制代码
这样是可行的
  1. curl http://0rz.tw/W1A5m > google.txt
复制代码
这样是无效的

http://0rz.tw/W1A5m其实就是跳转到http://www.google.com的网址

[ 本帖最后由 strong12345 于 2010-5-15 18:36 编辑 ]
作者: xinje    时间: 2010-5-14 21:14

你是想读取连接后的内容吧。
那你取http://0rz.tw/W1A5m的内容后,找出超级链接地址,继续读取不就行了。
作者: strong12345    时间: 2010-5-14 21:20

原帖由 xinje 于 2010-5-14 21:14 发表
你是想读取连接后的内容吧。
那你取http://0rz.tw/W1A5m的内容后,找出超级链接地址,继续读取不就行了。


可是
  1. curl http://0rz.tw/W1A5m > google.txt
复制代码
这样的话 google.txt 是 空文件 @@?
作者: strong12345    时间: 2010-5-14 21:55

不过很感谢  xinje 大大 所提供的办法
因为我又尝试了不同的转址网站
有些用大大你所说得方法可以成功撷取
作者: lj84831253    时间: 2010-5-14 22:15

楼主去用wget就可以了
wget -q "http://0rz.tw/W1A5m" -O google.txt 2>nul
作者: xinje    时间: 2010-5-14 23:40

http://0rz.tw/W1A5m 的确有些特殊,楼上的哥们所用的WGET没用过,看起来不错。

我用VC++试了试,纯用WINDOWS API取网页源码很完整。如果你需要可以帮你写出控制台EXE
作者: strong12345    时间: 2010-5-15 18:36

小弟刚开始学VC++ ,不会用...

不过至少现阶段问题已经解决,感谢!!




欢迎光临 批处理之家 (http://bathome.net./) Powered by Discuz! 7.2