[新手上路]批处理新手入门导读[视频教程]批处理基础视频教程[视频教程]VBS基础视频教程[批处理精品]批处理版照片整理器
[批处理精品]纯批处理备份&还原驱动[批处理精品]CMD命令50条不能说的秘密[在线下载]第三方命令行工具[在线帮助]VBScript / JScript 在线参考
返回列表 发帖

[代码合集] [已解决]怎样用批处理+curl+HtoX32c抓取网页中的文本?

本帖最后由 lzw198976 于 2011-4-27 19:50 编辑

哪位高手可以把下面这个网址的意林原创版杂志抓取出来
http://www.dooland.com/magazine/21146


求代码!让我这个新手依葫芦画瓢,慢慢研究!

里面有图片预览和精选文章,用curl下载抓取,应该可以抓到精选文章里面的文,然后用HtoX32c转换成txt,我已经抓取到txt文本了,可是没登陆,文章只有一部分,而且我用cd.>21146.txt
for %%i in (txt\*.txt) do (
    title 正在整理 %%~nxi
    echo.>>21146.txt
    findstr /ib "21146" %%i>>21146.txt
    echo.>>21146.txt
    findstr /ibc:"    " %%i>>21146.txt
)
得到的是一个空21146.txt文件!求解!???

TOP

1、%%i是否含空格呢?
2、是ansi格式吗?
3、可以直接用findstr /b /c:"21146" /c:"    " *.txt>21146.txt
4、建议冲顶向导非txt后缀名的临时文件,以免结果中包括21146.txt本身

TOP

3# zm900612


代码是我仿照“namejm ”的,我刚刚接触curl,对代码不明白,只能依葫芦画瓢,搬找“namejm ”的,可以浪费您帮我写一段帖子上所求的代码吗?最好有详细说明!非常感谢

TOP

我也没用过curl,如果只是下载,那么查出
window.location.href='http://dl2.dooland.com/MagazineDep/2011/04/21/意林原创版11
年4月号[30550].exe' 然后下载即可。

而登陆要求HTTPS,像我用NC,一般的方式就无法再继续了。

curl高手来解答吧..

TOP

怎么没高手来伴我解决这个问题啊???

TOP

登录没要求https吧?
把用户名密码以post方式提交给http://www.dooland.com/login/然后保存cookie
然后用此cookie文件访问http://www.dooland.com/magazine/article_124972.html应该就可以了
以下代码未测试

curl -d "name=用户名&password=密码&iswritecookie=1" -c cookie.txt http://www.dooland.com/login/
curl -b cookie.txt http://www.dooland.com/magazine/article_124972.html
天的白色影子

TOP

返回列表