Selenium是不少爬虫工程师都会用的一个工具,它对页面元素的属性,文本等的提取都做的不错,但有一个缺点是只能获取到img元素的链接而不是图片二进制(即便在访问时已经加载过了一次图片)。想把指定的img保存到本地,只能使用获取的链接手动下载,不仅多花费了不少时间,而且在某些限制外链的站点还可能遇到下载失败的情况。本文介绍一个直接在selenium中保存图片的方法。
原理其实有点取巧,是通过selenium的execute_script方法,注入一段脚本令网页所有img都转换为base64格式,如此一来图片的二进制信息就被编码为base64写在了<img>的src属性中。代码如下
js = """ _fetch = function(i,src){ return fetch(src).then(function(response) { if(!response.ok) throw new Error("No image in the response"); var headers = response.headers; var ct = headers.get('Content-Type'); var contentType = 'image/png'; if(ct !== null){ contentType = ct.split(';')[0]; } return response.blob().then(function(blob){ return { 'blob': blob, 'mime': contentType, 'i':i, }; }); }); }; _read = function(response){ return new Promise(function(resolve, reject){ var blob = new Blob([response.blob], {type : response.mime}); var reader = new FileReader(); reader.onload = function(e){ resolve({'data':e.target.result, 'i':response.i}); }; reader.onerror = reject; reader.readAsDataURL(blob); }); }; _replace = function(){ for (var i = 0, len = q.length; i < len; i++) {imgs[q[i].item].src = q[i].data;} } var q = []; var imgs = document.querySelectorAll('img'); for (var i = 0, len = imgs.length; i < len; i++) { _fetch(i,imgs[i].src).then(_read).then(function(data){ q.push({ 'data': data.data, 'item': data.i, }); }); } setTimeout(_replace, 1000 ); """ driver.execute_script(js)
fetch方法请求图片时浏览器会自动读取本地缓存,所以不会发生网络通讯;_replace延迟1秒执行是为了等待队列加载完成。
在driver.get(URL)后执行此脚本,源代码中所有<img>即变为base64编码。再附上一段Python的base64转文件脚本
imgsrc = "" import base64 def base64img2file(imgsrc: str): suffix = imgsrc.split(';')[0][11:] with open("demo."+suffix, 'wb') as f: f.write(base64.b64decode(imgsrc.split(',')[1]))