Board logo

标题: python爬pixiv上的内容,欢迎报价。 [打印本页]

作者: 灯塔彭于晏    时间: 2021-3-26 15:23     标题: python爬pixiv上的内容,欢迎报价。

维护终于结束了,大概有三天了吧?哈哈,真好,这里很温暖。
因为我不懂py的价格行情,所以还请大家优先报价。
需求如下:


根据文本A.TXT里的网址,逐条访问pixiv网页,抓取页面的 TITLE标签图片原图三部分

//第一部分
将抓取到的title信息和A.TXT中的网址组合排列成新的内容,并保存到新的AA.TXT里。
格式如下:
符号 [ 开头符号  ] 结尾,网址和标题的分隔线是符号 | 。逐行依次将title与A.TXT里的网址组合(对应上)
效果如下:(每6行1组,每组之间有1个空格)
[#オリジナル 廊下は静かに - mocha@絵師100人展的插画 - pixiv|https://www.pixiv.net/artworks/88663580]
[#オリジナル 廊下は静かに - mocha@絵師100人展的插画 - pixiv|https://www.pixiv.net/artworks/88663580]
[#オリジナル 廊下は静かに - mocha@絵師100人展的插画 - pixiv|https://www.pixiv.net/artworks/88663580]
[#オリジナル 廊下は静かに - mocha@絵師100人展的插画 - pixiv|https://www.pixiv.net/artworks/88663580]
[#オリジナル 廊下は静かに - mocha@絵師100人展的插画 - pixiv|https://www.pixiv.net/artworks/88663580]
[#オリジナル 廊下は静かに - mocha@絵師100人展的插画 - pixiv|https://www.pixiv.net/artworks/88663580]

[#オリジナル 廊下は静かに - mocha@絵師100人展的插画 - pixiv|https://www.pixiv.net/artworks/88663580]
[#オリジナル 廊下は静かに - mocha@絵師100人展的插画 - pixiv|https://www.pixiv.net/artworks/88663580]
[#オリジナル 廊下は静かに - mocha@絵師100人展的插画 - pixiv|https://www.pixiv.net/artworks/88663580]
[#オリジナル 廊下は静かに - mocha@絵師100人展的插画 - pixiv|https://www.pixiv.net/artworks/88663580]
[#オリジナル 廊下は静かに - mocha@絵師100人展的插画 - pixiv|https://www.pixiv.net/artworks/88663580]
[#オリジナル 廊下は静かに - mocha@絵師100人展的插画 - pixiv|https://www.pixiv.net/artworks/88663580]

//第二部分
采集页面的标签信息,只抓取里面的中文翻译部分,不要日本字。
要求:每个网址下的标签,在一行里显示,6行网址生成6行标签,每行标签里的内容之间,用英文逗号隔开。
保存到BB.TXT

//第三部分
将保存到的图片,存到本地桌面名为1的文件夹里。

//结束
最好带间隔,pixiv封禁效率很高,如果频率快了。

//最后附带上A.TXT里的内容格式
A.TXT里的内容格式是:(每行一条网址,每6行间隔1个空格)
https://www.pixiv.net/artworks/88673958
https://www.pixiv.net/artworks/88673958
https://www.pixiv.net/artworks/88673958
https://www.pixiv.net/artworks/88673958
https://www.pixiv.net/artworks/88673958
https://www.pixiv.net/artworks/88673958

https://www.pixiv.net/artworks/88673958
https://www.pixiv.net/artworks/88673958
https://www.pixiv.net/artworks/88673958
https://www.pixiv.net/artworks/88673958
https://www.pixiv.net/artworks/88673958
https://www.pixiv.net/artworks/88673958
作者: 灯塔彭于晏    时间: 2021-3-26 15:25

本帖最后由 灯塔彭于晏 于 2021-3-26 15:27 编辑

这是我和几个小伙伴在一起维护的插画图片搬运网站,主要目标就是pixiv。 为了画面和防黄,都是人工去准备网址的,所以只需要根据文本A的内容逐条抓取就行。

想利用PY,但学不会,特来发帖。以前总咨询,现在想付费。
bathome之家很好,是我们几个小伙伴的榜样,用爱发电……


表达能力很一般,所以你读不懂的地方话,还请留言。
就不讲那些砍价的话了,尊重代码,尊重每个人的时间。

谢谢啦,祝好~




欢迎光临 批处理之家 (http://bathome.net./) Powered by Discuz! 7.2