• 小白看网络爬虫


    名字很猥琐,其实学问很深,小白今天做了一点点基于python的网络爬虫工作,没有太多,因为python并不是很熟

    A.python

    1、要在网上得到资料,有个非常好用的库就是上节所说到的urllib2,这库简单明了,功能不错,想看详细的可以上google搜索一下,第一条介绍的挺详细,或者在linux ipython界面下import URLlib2 之后输入urllib2.+tab就可以看库函数有什么了。在这次操作中主要运用了urlopen这个函数 格式如下:

    urllib2.urlopen('(网址)').read()

    2、记录一些文件读写操作:

    filename='';

    f=file(filename,'w') #以写的形式打开filename

    cPickle.dump(data,f) #data写入文件filename

    f.close #关闭文件

    filename='';
    f=file(filename) #打开

    ss=cPicke.load(f) #ss为读入数据

    B.json

    貌似是一个网站内容格式标准,详情json.org可以看一下,当然python中也有解析json的库,真是挺棒哒~今天主要运用了json->python 这种任务,运用的代码为json.loads(数据),之后可以通过json格式化网站看代码了解结构并用以下代码提取url值

    s1=s["data"]["items"]

    for i in range(1,len(s1))

      f.write(s1[i]["url"])

    进行网址输入文件的操作

    C.Linux

    今天熟悉了一些文件删除 移动操作

    mv file1 tmp/file2 nwdir file1与tmp/目录下file2 共同导入nwdir文件夹

    rm -f file1 删除文件

  • 相关阅读:
    .NET写的Email可以群发邮件的实用函数
    動網中用到的幾個Function和一個JS[base64encode,base64decode,md5,sendmail,js]
    HTML在线编辑器
    IIS虚拟目录控制类
    实用正则表达式(实用篇)
    IIS站点管理类
    精巧sql语句
    圖片滾動代碼
    c# 添加图片水印,可以指定水印位置+生成缩略图
    JavaScript旋转图片
  • 原文地址:https://www.cnblogs.com/Victory-walt/p/4790421.html
Copyright © 2020-2023  润新知