Rank: 6 Rank: 6

帖子: 979
积分: 3381
技术: 172
捐助: 40
注册时间: 2012-1-7

1楼 跳转到 » 正序看帖

字体大小: tT

发表于 2016-2-23 15:23 | 只看该作者

[原创教程] python 爬虫之获取bathome论坛的最新标题，最新回复，热门主题

拿本论坛作为演示目标网站，实属演示，如有问题，告知删除

本文章旨在交流python下BS4的强大，对于整个网页页面的理解，就是作为一个对象，比如<a href='...' /a>,<div.../div>.每个元素都可以精确定位。包括注释部分
代码少，且能精确获取网页内容，如果你还在用正则截取内容，你就OUT了

中文文档：http://www.crummy.com/software/BeautifulSoup/bs4/doc.zh/

Beautiful Soup会帮你节省数小时甚至数天的工作时间.

截止我发表Beautiful Soup 4.2.0已经更新了，而且支持python 3.5

 #!/usr/bin/env python
# python 3.5.1
import bs4, urllib.request, os
 
def bathome(soup,idstring):
    homegrids = soup.find(id = idstring)
    a = homegrids.find_all('a')
    #print(homegrids.find_all('a'))
    count = 0
    for i in a:
        count += 1
        if count % 2 == 0:
            print('%-15s文章：%3s' % (str, i.string))
        else:
            str = '用户：%s' % i.string
 
url = 'http://www.bathome.net/'
web = urllib.request.urlopen(url)
soup = bs4.BeautifulSoup(web,'html.parser')
print("最新主题:")
bathome(soup, 'homegrids_c_1')
print("最新回复:")
bathome(soup, 'homegrids_c_2')
print("热门主题:")
bathome(soup, 'homegrids_c_3')COPY

2 评分人数

bailong360: 好东西收藏技术 + 1
codegay: 1技术 + 1

#&cls&@powershell "Invoke-Expression ([Io.File]::ReadAllText('%~0',[Text.Encoding]::UTF8))" &pause&exit

codegay

少校

Rank: 6 Rank: 6

帖子: 1266
积分: 1775
技术: 162
捐助: 0
注册时间: 2015-12-12

7楼

发表于 2016-2-28 21:51 | 只看该作者

回复 6# CrLf

哈哈。好我要当站长。

去学去写去用才有进步。安装python3代码存为xx.py 双击运行或右键用IDLE打开按F5运行

TOP

CrLf

论坛巡查

Rank: 8 Rank: 8

帖子: 6388
积分: 18843
技术: 982
捐助: 100
注册时间: 2010-10-9

6楼

发表于 2016-2-28 21:47 | 只看该作者

回复 5# codegay

啥？这么说你也不是站长？

链接：在线第三方命令行工具下载 bat、vbs、js 原生混编

TOP

codegay

少校

Rank: 6 Rank: 6

帖子: 1266
积分: 1775
技术: 162
捐助: 0
注册时间: 2015-12-12

5楼

发表于 2016-2-28 16:25 | 只看该作者

回复 4# bailong360

哦，那就是我弄错了。

去学去写去用才有进步。安装python3代码存为xx.py 双击运行或右键用IDLE打开按F5运行

TOP

bailong360

上尉

Rank: 5 Rank: 5

帖子: 578
积分: 1235
技术: 170
捐助: 60
注册时间: 2012-8-5

4楼

发表于 2016-2-28 16:11 | 只看该作者

回复 3# codegay
我一个小中尉啥时候成站长了
站长是Batcher

链接:第三方下载

TOP

codegay

少校

Rank: 6 Rank: 6

帖子: 1266
积分: 1775
技术: 162
捐助: 0
注册时间: 2015-12-12

3楼

发表于 2016-2-24 16:47 | 只看该作者

白龙好像就是站长。。你放心好了。

去学去写去用才有进步。安装python3代码存为xx.py 双击运行或右键用IDLE打开按F5运行

TOP

bailong360

上尉

Rank: 5 Rank: 5

帖子: 578
积分: 1235
技术: 170
捐助: 60
注册时间: 2012-8-5

2楼

发表于 2016-2-23 22:31 | 只看该作者

更小更清晰~

链接:第三方下载

TOP

返回列表

[新手上路]批处理新手入门导读	[视频教程]批处理基础视频教程	[视频教程]VBS基础视频教程	[批处理精品]批处理版照片整理器
[批处理精品]纯批处理备份&还原驱动	[批处理精品]CMD命令50条不能说的秘密	[在线下载]第三方命令行工具	[在线帮助]VBScript / JScript 在线参考

[原创教程] python 爬虫之获取bathome论坛的最新标题，最新回复，热门主题

[收藏此主题] [关注此主题的新回复]

[通过 QQ、MSN 分享给朋友]

设置关闭

开启【页面动态效果 + 卡片式布局】
关闭【页面动态效果 + 卡片式布局】

开启【代码高亮】
关闭【代码高亮】

代码高亮主题【亮】
代码高亮主题【暗】


	设置关闭开启【页面动态效果 + 卡片式布局】关闭【页面动态效果 + 卡片式布局】开启【代码高亮】关闭【代码高亮】代码高亮主题【亮】代码高亮主题【暗】

[原创教程] python 爬虫之获取bathome论坛的最新标题，最新回复，热门主题

[收藏此主题] [关注此主题的新回复]

[通过 QQ、MSN 分享给朋友]

设置 关闭

开启 【页面动态效果 + 卡片式布局】 关闭 【页面动态效果 + 卡片式布局】 开启 【代码高亮】关闭 【代码高亮】代码高亮主题 【亮】代码高亮主题 【暗】

设置关闭

开启【页面动态效果 + 卡片式布局】
关闭【页面动态效果 + 卡片式布局】

开启【代码高亮】
关闭【代码高亮】

代码高亮主题【亮】
代码高亮主题【暗】