批处理之家 - Powered by Discuz! Board

标题: [网络连接] 批处理如何实现采集/提取网站/网页上的指定链接/网址？ [打印本页]

作者: wh1234567 时间: 2016-5-2 11:00 标题: 批处理如何实现采集/提取网站/网页上的指定链接/网址？

本帖最后由 pcl_test 于 2016-11-13 20:27 编辑

例如，我想利用批处理bat或vbs批量获取http://www.55188.com/forum-111-1.html这个网页里的全部帖子的链接网址和标题并输出到文本里（每个链接需是完整的网址包含http://），请问能不能实现呢？希望老师帮助。
下面该咋写呢？希望老师帮我下好吗？

作者: codegay 时间: 2016-5-2 16:11

混了十年论坛，不要一贴多发都不知道。

作者: codegay 时间: 2016-5-2 18:18

"""
python采集55188.com论坛URL.py
http://bbs.bathome.net/thread-40289-1-1.html

2016年5月2日 17:28:47 codegay

参考资料: Python3学习笔记（urllib模块的使用）
http://www.cnblogs.com/Lands-ljk/p/5447127.html
"""

print("程序运行中...")
from urllib import request
from time import sleep
import re

rooturl="http://www.55188.com/"
forumurl="http://www.55188.com/forum-111-{}.html"
tidurl="http://www.55188.com/viewthread.php?tid={}\n"

with open("result.txt","w+") as f:
    for r in range(1,210):
        r=request.urlopen(forumurl.format(r))
        txt=r.read().decode("gbk")
        rec=re.compile('''viewthread.php\?tid=(\d+).+#anchorlink''')
        tid=set(rec.findall(txt))#去重复
        for id in tid:
            f.write(tidurl.format(id))
        #sleep(1)
            
input("运行结束，回车退出")
复制代码

作者: pcl_test 时间: 2016-5-2 19:08

本帖最后由 pcl_test 于 2016-11-13 20:32 编辑

举个栗子

//&cls&mshta "%~f0">"结果.txt"&pause&exit

<script src=http://www.bathome.net/lib/diy/Function.js></script>
<script>
var fso = new ActiveXObject('Scripting.Filesystemobject');
var StdOut = fso.GetStandardStream(1);
var url = 'http://www.55188.com/';
//1到10页
for(var i=1;i<=10;i++){
    var txt = '', u = url+ 'forum-111-'+ i +'.html';
    var links = web(u).match(/<span\sid=\"thread_\d+\"[^>]+?>[\s\S]+?<\/span>/g);
    for(var j=0;j<links.length;j++){
        var link = links[j].match(/<a href="([^"]+)/)[1];
        var title = links[j].replace(/<[^>]*>/g, '');
        txt +=url + link + ' '+ title +'\r\n';
    }
    StdOut.Write('page '+i+'\r\n'+txt+'\r\n');
}
close();
</script>
复制代码

作者: codegay 时间: 2016-5-2 19:45

这SB提问完老是把原贴编辑掉。

欢迎光临批处理之家 (http://bathome.net./)