• Chapter 6. Simple HTML Processing with Regular Expressions


    Chapter 6. Simple HTML Processing with Regular Expressions
    
    
    前几章都是从Web上得到东西,但是 一旦你要得到一个文件,你必须处理它,如果你得到一个GIF,
    
    
    你会使用一些模块或挖补程序来读取GIFS ,同样的 如果你得到一个PNG,RSS文件或者MP3,或者其他的。
    
    然而,在网上最重要的有趣的加工信息是HTML,那么这本书的其余部分将专注于将信息从HTML特别。
    
    
    
    在这一章中,我们将使用一个基本的方法来处理HTML 资源: Perl的正则表达式,这种技术是强大的,
    
    大多数网站可以用这种方式开采。我们提出了使用正则表达式来提取数据的技术,并向你展示如何调试那些正则表达式。从亚马
    
    逊的例子,O'Reilly Network,Netscape书签文件,与地下气象网站显示技术。
    
    
    6.1. Automating Data Extraction 数据自动提取
    
    假设我们呀从Amazon 图书页面中提取数据,第一个问题是得到HTML。浏览亚马逊表明一本书的页面的URL是
    
    http://www.amazon.com/exec/obidos/asin/isbn ISBN,哪里是本书独特的国际标准图书编号。所以拿Perl食谱的网页,例如
    
    #!/usr/bin/perl -w
    use strict;
    use LWP::Simple;
    
    my $html = get("http://www.amazon.com/exec/obidos/ASIN/1565922433")
      or die "Couldn't fetch the Perl Cookbook's page.";
    The relevant piece of HTML looks like this:
    
    <br clear="left">
    <FONT FACE="Arial,Helvetica" size=2>
    <b>Paperback</b>
    - 794 pages (August 1998)
    <br></font>
    <font face="Arial,Helvetica" size=-2>
    O'Reilly & Associates; </font>
    <font face="Arial,Helvetica" size=-2>
    ISBN: 1565922433
    ; Dimensions (in inches): 1.55 x 9.22 x 7.08
    <br>
    <FONT FACE="Arial,Helvetica" size=2>
    </font><br>
    </font>
    </span>
    <font face=verdana,arial,helvetica size=-1>
    <b>Amazon.com Sales Rank: </b> 4,070 </font><br>
    <font face=verdana,arial,helvetica size=-1>
    
    
    
    
    
    
    
    
    
    
    
    
    
    
    

  • 相关阅读:
    Android课程---Activity的跳转与传值(转自网上)
    Android课程---Activity中保存和恢复用户状态
    Android课程---Activity 的生命周期
    Android课程---Activity的创建
    初学JAVA随记——练习写代码(8种数据类型)
    资料——UTF-8
    资料——ASCII码
    初学JAVA随记——8bit(1byte)的取值范围是+127到—128
    初学JAVA随记——变量与常量
    进制转换
  • 原文地址:https://www.cnblogs.com/hzcya1995/p/13351524.html
Copyright © 2020-2023  润新知