自动化提取51啦数据的信息

自动化提取51啦数据的信息

#!/usr/bin/python
#coding:gbk
#这个是一个自动化提取51啦数据的信息
#Lm_team 处世制作

import httplib #这个没用到
import urllib
import cookielib
import urllib2
import re
import base64 #这个也是没用到
import os
import datetime #这个时间

#设置cookie
cj = cookielib.LWPCookieJar()
cookie_support = urllib2.HTTPCookieProcessor (cj)
openner = urllib2.build_opener (cookie_support,urllib2.HTTPHandler)
urllib2.install_opener(openner)

#进行提交数据
url = 'http://www.51.la/login.asp?' #需要打开的网页
post_data = ({'uname':'abbbc这个是账户','upass':'这个是密码'}) #设置post数值
post_data = urllib.urlencode (post_data) #进行Post数据编码
headers = {'User-Agent':'Mozilla/5.0 (Windows NT 6.2; rv:22.0) Gecko/20100101 Firefox/22.0'} #设置头部信息
req = urllib2.Request (url,post_data,headers) #提交数据
result = urllib2.urlopen(req) #打开页面
text = result.read() #读取页面数据

#正则进行提取页面数据
#提取昨日流量中的所有数据
res = r'昨日流量(<Ww{2}>s*<w{2}>d{1,4}sD{2}<Ww{2}>s*<w{2}>d{1,4}sD{2}<Ww{2}>s*<w{2}>d{1,4}sD{2}<Ww{2}>s*<w{2}>d{1,4}sD{2}<Ww*>s*<w{2}>d.d{2})' #很纳闷为何不能采用(){}这种重复格式。
resIP = r'd{1,4}sIP' #ip的正则
resPV = r'd{1,4}sPV' #pv的正则
resPJ = r'd{1,2}[.]d{1,2}' #平均值的正则

#判断昨天日期
now = datetime.datetime.now()
date = now.strftime('%Y')+'-'+now.strftime('%m')+'-'+str(int(now.strftime('%d'))-1) #昨天日期

def ref_post():
print "#"*50
find_data = re.findall(res,rtext) #提取过后的数据
rdata = find_data[0].decode('gbk') #设置输出数据的格式，否则出现16进制情况xec
#print rdata
#显示Ip Pv 平均值
global find_dataIP,find_dataPV,find_dataPJ
find_dataIP = re.findall(resIP,rdata) #提取过滤后的IP数据
find_dataPV = re.findall(resPV,rdata) #提取过滤后的Pv值
find_dataPJ = re.findall(resPJ,rdata) #提取过滤后的平均值

def pr_post():
print find_dataIP[0]
print find_dataPV[0]
print find_dataPJ[0]

#打开保存的数据
mDicFile = open('F:pylibid.txt') #网站配对ID值
lines = mDicFile.readlines() #提取每一行
#以下循环每一行进行打开页面操作
for li in lines:
# rurl = "http://www.51.la/report/1_main.asp?id="+li+'&d1='+date

rurl = "http://www.51.la/report/1_main.asp?id="+li
rreq = urllib2.Request(rurl,post_data,headers)
rresult = urllib2.urlopen(rreq)
rtext = rresult.read()
ref_post()
pr_post()

#未完待续，没球门，日。太他妈纠结了新手上路亮熊出没请注意戴眼镜

#抓包过程中，发现一个极其极其ok的事情。51啦的验证登陆。cookie里边的数据，大家可以自己抓包看下。嘿嘿。xss简直就是直接暴菊太甚

#后期补充会出现填写时间，自动提取隔天某数据。或者隔天某段数据。

同时添加提取后的数据，填写exec表格中。

LM_team 制作
相关阅读:
结果偏见（行为经济学）
天下没有免费的午餐
 双环学习
 信息对称、网络效应
 为什么说盲维是认知升级的重要概念？
给思维找一个支点
 风险是一种商品
 认知方法论第一课
 A*算法深入
 A*算法入门
原文地址：https://www.cnblogs.com/yuner/p/3327061.html