R 实例1

//转载：http://www.r-china.net/forum.php?mod=viewthread&tid=881&extra=page%3D1
//用R抓取人民日报网数据

library(RCurl)

for (i in 1:4) {
base <- "http://vip.stock.finance.sina.com.cn/corp/go.php/vMS_MarketHistory/stockid/603000.phtml?year=2013&jidu="
jidu <- i
url <- paste(base,jidu,sep='')

temp <- getURL(url)
k=strsplit(temp,"
")[[1]]    #以list形式展现，方便以下操作

   #抓取日期
   timeadr <- k[grep("<a target='_blank'",k)+1]  #第1行  日期  
   time=substring(timeadr,4,13) 
   print(unlist(strsplit(time," ")))

   #抓取  开盘价，最高价，收盘价，最低价
   for(j in 3:6)  #一个季度源代码中第3到6行  
      {

         xxx <- k[grep("<a target='_blank'",k)+j]  #   所需信息
         xx <- gregexpr(">\d+",xxx)    #找出指定元素在本行第几位


         for(m in 1:length(xxx))
            {
                yy=xx[[m]]
                xxs=substring(xxx[m],yy+1,yy+attr(yy,'match.length')+3)  #3:6行+3  
                print(xxs)   #每次循环都输出该值  
             }

       }


    #抓取交易量
    xxx=k[grep("<a target='_blank'",k)+7]   #抓取路径下第7行   交易量
    xx=gregexpr(">\d+",xxx)    #找出指定元素在本行第几位
    for(n in 1:length(xxx))
       {
          yy=xx[[n]]
          xxs=substring(xxx[n],yy+1,yy+attr(yy,'match.length')-1)  #3:6行+3  7行-1 8行-1
          print(xxs)   #每次循环都输出该值  
       }
    #抓取交易金额
    xxx=k[grep("<a target='_blank'",k)+8]   #抓取路径下第8行   交易金额
    xx=gregexpr(">\d+",xxx)    #找出指定元素在本行第几位
    for(o in 1:length(xxx))
       {
          yy=xx[[o]]
          xxs=substring(xxx[o],yy+1,yy+attr(yy,'match.length')-1)  #3:6行+3  7行-1 8行-1
          print(xxs)   #每次循环都输出该值  
       }

}

需要的基础有：RCurl包及其函数，R字符处理，正则表达式

刚入门，学习中。。。

清醒时做事，糊涂时读书，大怒时睡觉，独处时思考; 做一个幸福的人，读书，旅行，努力工作，关心身体和心情，成为最好的自己 -- 共勉

相关阅读:
Linux文件查找
Linux之正则表达式
linux文本处理
Linux压缩归档管理
spring-security问题记录
mybatis-plus&springboot
Mysql8- Public Key Retrieval is not allowed
MySQL 5.7安装（linux）
git把本地代码上传（更新）到github上
linux相关(find/grep/awk/sed/rpm)

原文地址：https://www.cnblogs.com/hello-yz/p/4367604.html