标题: [网络连接] 批处理如何实现采集/提取网站/网页上的指定链接/网址? [打印本页]
作者: wh1234567 时间: 2016-5-2 11:00 标题: 批处理如何实现采集/提取网站/网页上的指定链接/网址?
本帖最后由 pcl_test 于 2016-11-13 20:27 编辑
例如,我想利用批处理bat或vbs批量获取http://www.55188.com/forum-111-1.html这个网页里的全部帖子的链接网址和标题并输出到文本里(每个链接需是完整的网址包含http://),请问能不能实现呢?希望老师帮助。
下面该咋写呢?希望老师帮我下好吗?
作者: codegay 时间: 2016-5-2 16:11
混了十年论坛,不要一贴多发都不知道。
作者: codegay 时间: 2016-5-2 18:18
- """
- python采集55188.com论坛URL.py
- http://bbs.bathome.net/thread-40289-1-1.html
-
- 2016年5月2日 17:28:47 codegay
-
- 参考资料: Python3学习笔记(urllib模块的使用)
- http://www.cnblogs.com/Lands-ljk/p/5447127.html
- """
-
- print("程序运行中...")
- from urllib import request
- from time import sleep
- import re
-
- rooturl="http://www.55188.com/"
- forumurl="http://www.55188.com/forum-111-{}.html"
- tidurl="http://www.55188.com/viewthread.php?tid={}\n"
-
- with open("result.txt","w+") as f:
- for r in range(1,210):
- r=request.urlopen(forumurl.format(r))
- txt=r.read().decode("gbk")
- rec=re.compile('''viewthread.php\?tid=(\d+).+#anchorlink''')
- tid=set(rec.findall(txt))#去重复
- for id in tid:
- f.write(tidurl.format(id))
- #sleep(1)
-
- input("运行结束,回车退出")
复制代码
作者: pcl_test 时间: 2016-5-2 19:08
本帖最后由 pcl_test 于 2016-11-13 20:32 编辑
举个栗子- //&cls&mshta "%~f0">"结果.txt"&pause&exit
-
- <script src=http://www.bathome.net/lib/diy/Function.js></script>
- <script>
- var fso = new ActiveXObject('Scripting.Filesystemobject');
- var StdOut = fso.GetStandardStream(1);
- var url = 'http://www.55188.com/';
- //1到10页
- for(var i=1;i<=10;i++){
- var txt = '', u = url+ 'forum-111-'+ i +'.html';
- var links = web(u).match(/<span\sid=\"thread_\d+\"[^>]+?>[\s\S]+?<\/span>/g);
- for(var j=0;j<links.length;j++){
- var link = links[j].match(/<a href="([^"]+)/)[1];
- var title = links[j].replace(/<[^>]*>/g, '');
- txt +=url + link + ' '+ title +'\r\n';
- }
- StdOut.Write('page '+i+'\r\n'+txt+'\r\n');
- }
- close();
- </script>
复制代码
作者: codegay 时间: 2016-5-2 19:45
这SB提问完老是把原贴编辑掉。
欢迎光临 批处理之家 (http://bathome.net./) |
Powered by Discuz! 7.2 |