批处理之家 - Powered by Discuz! Board

标题: 100元求个文本处理的批处理 [打印本页]

作者: hijackle 时间: 2013-9-3 03:32 标题: 100元求个文本处理的批处理

本帖最后由 hijackle 于 2013-9-3 14:07 编辑

附件好像过大，不让上传。请到以下地址下载http://ison.cn/web.rar

要求把网页中每一行的信息以及改行点击的url地址导出到新的文本.
拿第一行为例，要求导出的文本的第一行如下:
靓装中变████ ████人气爆满今天通宵固顶精品推荐９月全新改版 ━━━最新更新双倍爆率＜全部免费＞━-通宵固顶客服QQ:╳人气爆棚╳ 点击查看 http://aaa.yx79.com/

高手帮忙，100元支付宝或者网银交易辛苦费。

作者: Lumiere 时间: 2013-9-3 15:44

回复 1# hijackle

试了下，目标文件里面的文本太乱了，没法处理，如果都和刚开始一样的格式还好，后面简直就是乱七八糟一堆一堆的字符。

作者: PowerShell 时间: 2013-9-3 16:15

你是要能用多次的脚本啊，还是要一个page的处理结果啊？

作者: DAIC 时间: 2013-9-3 16:20

@echo off
grep -v "<TR.*<TD" web.html | grep -A 9 "<TR bgColor=" > web_1.html
sed -r "/^<TR/d; s#^</TR>.*##; /点击查看/ s/.*a href=(http[^ ]+) .*/点击查看 \1/; s/<[^>]+>//g" web_1.html > web_2.html
gawk -v RS="\n\n+" "$1=$1" web_2.html | findstr "http:" | gawk "!a[$0]++" > web.txt
del /f web_1.html web_2.html
复制代码

grep.exe sed.exe gawk.exe 下载地址：
http://code.google.com/p/gnu-on-windows/downloads/list

作者: terse 时间: 2013-9-3 17:01

纯P 一个

@echo off&setlocal enabledelayedexpansion
set str=&findstr "<TD.*/TD>" web.html>$
(for /f "tokens=1-8 delims=<>" %%a in ($) do (
    if /i "%%h" == "/TD" (
       if /i "%%g" == "/a" (set "str=!str!%%e") else set "str=!str! %%b %%e"
    ) else  if /i "%%c%%d%%e%%f" == "/TD" (
               set "str=!str! %%b"
            ) else if /i "%%f%%g%%h" == "/TD" (
                      set "str=!str! %%b %%d"
                   ) else if /i "%%d%%e%%f%%g%%h" == "/a/TD" (
                             if /i "%%c" == "点击查看" (
                                for /f "tokens=3 delims== " %%i in ("%%b") do echo;!str! %%c %%i
                                set "str="
                             ) else set "str=!str! %%c"
                          )
))>web.txt
del $
复制代码

作者: hijackle 时间: 2013-9-3 17:26

回复3L，只要能达到效果随便怎样都可以
回复4L，程序执行没有问题，但是导出的web.txt只有400条左右，web.html里面应该有至少上千条信息
回复5L，同4L一样的问题，程序执行没有问题，但是导出的web.txt只有400条左右，web.html里面应该有至少上千条信息

作者: batman 时间: 2013-9-3 17:30

本帖最后由 batman 于 2013-9-3 17:40 编辑

为你解决问题后，请把钱捐到论坛基金中，具体事项找Batcher。。。

Dim objDOM, objSHELL, objFSO, Path
Set objSHELL = CreateObject("Wscript.Shell") 
Set objFSO = CreateObject("Scripting.FileSystemObject")
Path = objSHELL.CurrentDirectory & "\"
Set objDOM = GetObject(Path & "web.html","htmlfile")
Do Until objDOM.Readystate = "complete" : WScript.Sleep 200 : Loop
Dim objTRs, objTR, objTexts, objText, subStr, Wstr
Set objTRs = objDOM.GetElementsByTagName("TR")
For Each objTR In objTRs
  If InStr(objTR.InnerText, "点击查看") Then
    Set objTextS = objTR.GetElementsByTagName("td")
    subStr = vbNullString
    For each objText In objTextS
      url = Split(objText.InnerHtml, Chr(34))
      subStr = subStr & objText.InnerText & " "
    Next
    If InStr(Wstr, subStr) = 0 Then Wstr = Wstr & subStr & " "& url(1) & vbCrLf
  End If
Next
objFSO.OpenTextFile("list.txt",2,1).Write Wstr
objSHELL.Run "cmd /cstart list.txt", 0, 0
Set objDOM = Nothing
Set objFSO = Nothing
Set objSHELL = Nothing
复制代码

作者: DAIC 时间: 2013-9-3 17:50

回复 6# hijackle

我修改了一下，现在可以取到两千多条数据了。

@echo off
sed "s#></TR>#>\n</TR>#; s#><TD#>\n<TD#g" web.html > web_0.html
grep -v "<TR.*<TD" web_0.html | grep -A 9 "<TR bgColor=" > web_1.html
sed -r "/^<TR/d; s#^</TR>.*##; /点击查看/ s/.*a href=(http[^ ]+) .*/点击查看 \1/; s/<[^>]+>//g" web_1.html > web_2.html
gawk -v RS="\n\n+" "$1=$1" web_2.html | findstr "http:" | gawk "!a[$0]++" > web.txt
del /f web_0.html web_1.html web_2.html
复制代码

作者: hijackle 时间: 2013-9-3 18:34

多谢这么多人的热心，不好意思了，只能以先来后到为准了，7楼batman第一个正确解决问题，钱按照batman的意思将转入论坛基金。
再次多谢另外几位的热心。非常感谢

作者: DAIC 时间: 2013-9-3 19:13

回复 9# hijackle

你测试的结果，7楼和8楼分别获取了多少条？

作者: hijackle 时间: 2013-9-3 23:03

全部都是2368条，但是文件大小batman的是364K你的是313K，有点奇怪

欢迎光临批处理之家 (http://bathome.net./)