[新手上路]批处理新手入门导读[视频教程]批处理基础视频教程[视频教程]VBS基础视频教程[批处理精品]批处理版照片整理器
[批处理精品]纯批处理备份&还原驱动[批处理精品]CMD命令50条不能说的秘密[在线下载]第三方命令行工具[在线帮助]VBScript / JScript 在线参考
返回列表 发帖
回复  tbjx138


4楼代码这样执行试试:
Batcher 发表于 2023-5-24 22:28


感谢管理员的回复,按照链接看了一下,没有太明白操作 我很菜,只能弄些简单的。

TOP

回复 16# tbjx138
保存为bat文件运行
如果要用户名 时间之类的 把‘comment-content’ 换为 ‘comment’
  1. <# :
  2. @echo off
  3. cd.>output.txt
  4. powershell -noprofile -NoLogo "iex (${%~f0} | out-string)"
  5. pause
  6. exit
  7. #>
  8. function get-content($url, $startPage, $endPage) {
  9.      for ( $i = $startPage; $i -le $endPage; $i++) {
  10.            $pageUrl = $url+"?start=$(($i - 1) * 20)&limit=20&status=P&sort=score"
  11.            $response = Invoke-WebRequest -Uri $pageUrl
  12.            $content = $response.ParsedHtml.getElementsByClassName('comment-content') | %{$_.innerText}
  13.            Add-Content -Path "output.txt" -Value $content -Encoding UTF8
  14.      }
  15. }
  16. $url = 'https://book.douban.com/subject/1023045/comments/'
  17. get-content $url 1 11
复制代码

TOP

回复  tbjx138
保存为bat文件运行
如果要用户名 时间之类的 把‘comment-content’ 换为 ‘comment’
terse 发表于 2023-5-25 08:26

感谢terse大神,热心应助,
按照代码操作可以导出220条了,
反馈一下测试
如果要用户名 时间之类的 把‘comment-content’ 换为 ‘comment’
这个换了后没有反应,还是和之前导出一样。

TOP

网页采集信息不是用RPA最方便么

TOP

回复 18# tbjx138
怎么回事呢,没有改动的话应该不会出现你说的问题

TOP

回复  tbjx138
怎么回事呢,没有改动的话应该不会出现你说的问题
terse 发表于 2023-5-25 09:30



    没有改动其他,按照你说的操作的,不知道什么原因,还有就是我的ie浏览器不能登录豆瓣

TOP

这样运行后 查看两个文件的内容一样吗
  1. <# :
  2. @echo off
  3. cd.>output1.txt
  4. cd.>output2.txt
  5. powershell -noprofile -NoLogo "iex (${%~f0} | out-string)"
  6. pause
  7. exit
  8. #>
  9. function get-content($url, $startPage, $endPage) {
  10.      for ( $i = $startPage; $i -le $endPage; $i++) {
  11.            $pageUrl = $url+"?start=$(($i - 1) * 20)&limit=20&status=P&sort=score"
  12.            $response = Invoke-WebRequest -Uri $pageUrl
  13.            $content1 = $response.ParsedHtml.getElementsByClassName('comment-content') | %{$_.innerText}
  14.            $content2 = $response.ParsedHtml.getElementsByClassName('comment') | %{$_.innerText}
  15.            Add-Content -Path "output1.txt" -Value $content1 -Encoding UTF8
  16.            Add-Content -Path "output2.txt" -Value $content2 -Encoding UTF8
  17.      }
  18. }
  19. $url = 'https://book.douban.com/subject/1023045/comments/'
  20. get-content $url 1 11
复制代码
回复 21# tbjx138

TOP

这样运行后 查看两个文件的内容一样吗回复  tbjx138
terse 发表于 2023-5-25 10:58



    感谢terse大神耐心回复,还是没有改变,可能是我的原因吧。就这样吧,能导出就行了,再次谢谢大神了

TOP

回复 14# tbjx138


    略微改了一下
  1. Set http = CreateObject("msxml2.xmlhttp")
  2. Set fso = CreateObject("scripting.filesystemobject")
  3. Function Gethtml(url)
  4.     MsgBox url
  5.    http.open "GET",url,False
  6.    http.send()
  7.    Gethtml = http.responsetext
  8. End Function
  9. burl = InputBox("url")
  10. Set f = fso.createtextfile("1.txt",True,True)
  11. For i = 0 To 1000
  12. Set Document = CreateObject("htmlfile")
  13. Document.designmode = "on"
  14. html = gethtml(burl & "?sort=score&start="&i*20)
  15. If InStr(html,"你没有权限访问这个页面") = -1 Then
  16.     WScript.quit
  17. End If
  18. Document.write html
  19. Dim score
  20. For Each div In Document.Getelementsbytagname("div")
  21.    If div.Classname = "blockquote-list score bottom-line" Then
  22.        Set score = div
  23.        Exit For
  24.    End If
  25. Next
  26. Set ul = score.children(0)
  27. For Each li In ul.children
  28.    f.writeline li.InnerText
  29.    f.writeline ""
  30. Next
  31. Next
复制代码
就是爬原文摘录的
也要加上/
你好

TOP

回复  tbjx138


    略微改了一下就是爬原文摘录的
也要加上/
jyswjjgdwtdtj 发表于 2023-5-25 18:02


感谢jyswjjgdwtdtj大神的再次相助,已经可以导出原文摘录了,万分感谢!!!

TOP

返回列表