• 验证码的破解思路!


    研究了3天验证码破解!
     尝试了好多种方法,都以失败告终!
     不过最后还是在我不断的努力下!成功完成对验证码图片的数字化读取!
     测试了一下,正确率在85%以上,还算不错!
     总结一下自己的思路过程!
     1.用PHP读取验证码图片上每个像素的色彩值!
     2.将验证码边框上的色彩变为白色
     3.用循环方法,去除背景上的色彩杂点,将数字部分的颜色改为000000
     接着就是对图像的读取了!
       (1)分割统计点数法
           将图片分割为4个部分,每个部分对应验证码的一个数字
           然后根据黑色点数的范围来确定是什么数字
           123456789 对应的点数应该有所不同!
           结果:失败
           原因:因为生成的验证码图片,数字的点数并不是总是固定!色彩的灰度等级影响了数字对应的点数!但是能判断出一个数字!就是1 因为1 的点数最少!
       (2)细化分割
           在上一种想法的基础上,将每个部分,又划分为4个小部分,通过对比每4个小部分的点数比,来确定是什么数字
           结果:失败
           原因:生成的验证码图片中的数字,会随机产生一个倾斜角度,所以在划分的4个小区域内,点数比,很难有规律!基本上还是只能确定1,还有7,但是很容易出错,那是相当的不准确啊
       (3)发送假的SessionID
           抓包发现咧,一个固定的SessionID对应一个固定的验证码,假如我伪造COOKIES中的SessionID的值,是不是就是总是可以使用那个验证码呢?
           结果:失败
           原因:因为当你使用完了一个验证码后,服务器又会将SessionID与一个新的验证码对应上!即使你还是使用这个 SessionID,但是验证码已经过期了!
      (4)积累数据库数据,对比分析法
           将验证码图片上的像素如第一种方法那样分为4个部分,不同的是,也不数什么点数了!直接将每个部分的色彩转化为一个长字符串,黑色用0表示,白色用1表示,这样,对于一个图片,可以得到4个色彩字符串,然后将这个数据与对应的验证码上的数字,存入数据库中!
          然后就是不断的积累数据库中的色彩字符串!
          我积累了1100条数据!
          然后需要查询的图片数据,发送给PHP文件,然后在数据库中,查找对比,用PHP中的levenshtein函数比较2个色彩字符串的相似程度!找出与数据库中最相近的一个色彩字符串,这样就可以确定是什么数字了!
         当数据库越大,查询速度也就越慢,但是越准确!
         结果:当然是成功咯!
     
       之前,在网上看到了一篇关于验证码破解的文章!
       思路 和我最后一个方法很像!不过用到的东西不一样!
       原文如下:
     -------------------------------------------------------------------

    前些时候我制作了《百度贴吧群发》,可以自动换IP、并且自动更换关键字、标题、内容、图片,
    过了几天以后百度贴吧增加了验证码,所以这个程序也用不了了。

    今天好奇研究了一下百度的验证码,做了一个新的程序,做这个程序的目的完全是研究技术。
    我不会去贴吧发广告,也请大家不要去发广告。


    授人以鱼不如授人以渔,下面我简单介绍一下破解验证码的过程。

    一、序
    大家知道,破解验证码、图文识别都是技术开发的难题,人眼能轻易分别的字符,计算机却需要大量的计算,而且结果很难做到准确。就算是用C++来做,也是很费劲很难得到好的效果。不过在这里我们使用模拟精灵,可以很简单的完成图文识别,模拟精灵虽然大小不足1M、而且是绿色软件完全独立运行,却内置了大部份常用的类库,如模拟编程、WEB编程、windows编程、图像编程都可以轻松实现

    二、下载验证码样本

    打开c: est文件夹,选“查看缩略图”,然后重复运行下面的LAScript脚本(每次更换验证码的网址),下载百度贴吧的所有验证码并存为样本,例如图片一,就改名为1.jpg

    img = image.new();
    --下载图像,没有后缀名要显示指定*.bmp格式
    img:getURL("/Article/UploadFiles/200508/20050831203413603.jpg")
    image.corp(img, 9 ,0 , 41 , 20 )
    img:save("c:\test\test.jpg") --保存到硬盘

    --折分图片,指定一行四列
    img2,img3,img4,img5 = img:split(1,4);

    img2:save("c:\test\0001.jpg")
    img3:save("c:\test\0002.jpg")
    img4:save("c:\test\0003.jpg")
    img5:save("c:\test\0004.jpg")

    image.del(img);

     

    三、生成验证码样本数据库

    运行下面的脚本,把所有的验证码样本保存到ApeML数据岛

    codeKey ={};
    --添加所有数字键
    for i =0,9,1 do
    codeKey[""..i] = 0; --这里我们用字符串连接的方法把数字转换为字符串
    end;

    --k参数为键,v参数表示值 一个典型的table迭代器回调函数
    loadCodeKey = function(k,v)
    local img = image.new();
    img:load("C:\test\"..k..".jpg")
    codeKey[k]= string.encode( img:getBytes("*.jpg") , ""); --因为转换到字符串还是二进制,所以用base64进行编码
    image.del(img);
    end;

    --遍历表codekey的所有元素,调用loadcodekey加载图片文件
    table.foreach (codeKey, loadCodeKey);

    --把所有图片保存到数据岛,
    ape:saveTable(codeKey,"验证码样本")

    四、识别验证码

    运行下面的脚本测试一下


    --从数据区块读取base64编码的图片数据
    codekey = ape:loadTable("验证码样本");
    imgBinKey = {}; --这是一个图像数组,用来储存还原后的验证码样本的图片数据
    --必须进行一个转换,因为codekey里面只是base64编码的普通字符串,而imgBinKey 将是真正的图片对象(二进制数据)

    --还原到图片对象
    toImage = function(k,v)
    local img9 = image.new();
    img9:setBytes( string.decode( v ,"") ,"*.jpg");
    imgBinKey[k] = img9;
    end;
    table.foreach(codekey,toImage);

    --下载验证码图片
    imgD = image.new();
    if (imgD:getURL("/Article/UploadFiles/200508/20050831203415539.jpg") ~= true) then
    win.messageBox("下载图像失败","")
    image.del(imgD)
    do return false end;
    end;

    image.corp(imgD, 9 ,0 , 41 , 20 );
    --使用split函数分割图片
    img2,img3,img4,img5 = imgD:split(1,4);

    function test(imgX)
    limit = 1;
    chr = "";
    win.messagePrint("正在检测图片,请稍候....")
    testimg = function(k,v)

    local n = imgX:testX(imgBinKey[k]);
    if(nlimit = n;
    chr = k.."";
    end;
    end;
    table.foreach(imgBinKey,testimg);
    return chr;
    end;


    win.messageBox("验证码".. test(img2)..test(img3)..test(img4)..test(img5),"")
    五、小结
    效果很不错,百分百的准确,唯一的遗憾是识别验证码的过程不是很快,在我电脑上估计要30秒左右,不过图像处理是需要一定的时间,基本上不防碍发信息的的效率。

    ------------------------------------------------------------------------

    可以看到,上文的作者,最后提到,识别过程,差不多要消耗30秒左右!

    我测试了一下自己的程序,读取过程小于 6秒!

    不过我破解的验证码 像素少,他破解的百度贴吧的像素复杂!

    也没有什么比较价值了!

  • 相关阅读:
    读取csv文件时编码错误
    ubuntu keras
    ubuntu19.1 tensorflow
    随机数random
    获取文件夹下所有文件名
    np.random.send()
    tensorflow---识别图像特征(吴恩达课程)
    Springboot项目热部署-Devtools
    Hadoop综合大作业
    分布式文件系统HDFS 练习
  • 原文地址:https://www.cnblogs.com/systemnet123/p/3287083.html
Copyright © 2020-2023  润新知