标题:
python爬pixiv上的内容,欢迎报价。
[打印本页]
作者:
灯塔彭于晏
时间:
2021-3-26 15:23
标题:
python爬pixiv上的内容,欢迎报价。
维护终于结束了,大概有三天了吧?哈哈,真好,这里很温暖。
因为我不懂py的价格行情,所以还请大家优先报价。
需求如下:
根据文本A.TXT里的网址,
逐条访问pixiv网页,
抓取页面的 TITLE
、
标签
、
图片原图
三部分
。
//第一部分
将抓取到的title信息和A.TXT中的网址组合排列成新的内容,并保存到新的AA.TXT里。
格式如下:
以
符号 [ 开头
,
符号 ] 结尾
,网址和标题的
分隔线是符号 |
。逐行依次将title与A.TXT里的网址组合(对应上)
效果如下:(每6行1组,每组之间有1个空格)
[#オリジナル 廊下は静かに - mocha@絵師100人展的插画 - pixiv|
https://www.pixiv.net/artworks/88663580
]
[#オリジナル 廊下は静かに - mocha@絵師100人展的插画 - pixiv|
https://www.pixiv.net/artworks/88663580
]
[#オリジナル 廊下は静かに - mocha@絵師100人展的插画 - pixiv|
https://www.pixiv.net/artworks/88663580
]
[#オリジナル 廊下は静かに - mocha@絵師100人展的插画 - pixiv|
https://www.pixiv.net/artworks/88663580
]
[#オリジナル 廊下は静かに - mocha@絵師100人展的插画 - pixiv|
https://www.pixiv.net/artworks/88663580
]
[#オリジナル 廊下は静かに - mocha@絵師100人展的插画 - pixiv|
https://www.pixiv.net/artworks/88663580
]
[#オリジナル 廊下は静かに - mocha@絵師100人展的插画 - pixiv|
https://www.pixiv.net/artworks/88663580
]
[#オリジナル 廊下は静かに - mocha@絵師100人展的插画 - pixiv|
https://www.pixiv.net/artworks/88663580
]
[#オリジナル 廊下は静かに - mocha@絵師100人展的插画 - pixiv|
https://www.pixiv.net/artworks/88663580
]
[#オリジナル 廊下は静かに - mocha@絵師100人展的插画 - pixiv|
https://www.pixiv.net/artworks/88663580
]
[#オリジナル 廊下は静かに - mocha@絵師100人展的插画 - pixiv|
https://www.pixiv.net/artworks/88663580
]
[#オリジナル 廊下は静かに - mocha@絵師100人展的插画 - pixiv|
https://www.pixiv.net/artworks/88663580
]
//第二部分
采集页面的标签信息,只抓取里面的中文翻译部分,不要日本字。
要求:每个网址下的标签,在一行里显示,6行网址生成6行标签,每行标签里的内容之间,用英文逗号隔开。
保存到BB.TXT
//第三部分
将保存到的图片,存到本地桌面名为1的文件夹里。
//结束
最好带间隔,pixiv封禁效率很高,如果频率快了。
//最后附带上A.TXT里的内容格式
A.TXT里的内容格式是:(每行一条网址,每6行间隔1个空格)
https://www.pixiv.net/artworks/88673958
https://www.pixiv.net/artworks/88673958
https://www.pixiv.net/artworks/88673958
https://www.pixiv.net/artworks/88673958
https://www.pixiv.net/artworks/88673958
https://www.pixiv.net/artworks/88673958
https://www.pixiv.net/artworks/88673958
https://www.pixiv.net/artworks/88673958
https://www.pixiv.net/artworks/88673958
https://www.pixiv.net/artworks/88673958
https://www.pixiv.net/artworks/88673958
https://www.pixiv.net/artworks/88673958
作者:
灯塔彭于晏
时间:
2021-3-26 15:25
本帖最后由 灯塔彭于晏 于 2021-3-26 15:27 编辑
这是我和几个小伙伴在一起维护的插画图片搬运网站,主要目标就是pixiv。 为了画面和防黄,都是人工去准备网址的,所以只需要根据文本A的内容逐条抓取就行。
想利用PY,但学不会,特来发帖。以前总咨询,现在想付费。
bathome之家很好,是我们几个小伙伴的榜样,用爱发电……
表达能力很一般,所以你读不懂的地方话,还请留言。
就不讲那些砍价的话了,尊重代码,尊重每个人的时间。
谢谢啦,祝好~
欢迎光临 批处理之家 (http://bathome.net./)
Powered by Discuz! 7.2