• jsoup爬虫技术+druid连接池


     

    介绍:

     优点:

      1、与java形成良好的支持

      2、jsoup技术类似于

    同类型产品:

      1、入门 级:八爪鱼提取工具

      2、jsoup:java原生提供的爬取工具

    入门案例:

      爬虫原理:模拟http请求,然后从目标网站或整个或者json数据/xml数据

      爬虫步骤:

        1、定位目标网站url

        2、模拟http请求爬取数据

        3、分析处理页面信息

        4、将数据封装特定的格式后入库

     获取静态数据

        @Test
        public void test01() throws IOException{
            String url = "http://www.it211.com.cn/web/index_new.html?tedu";
            Document dom = Jsoup.connect(url).get();
            Element element1 = dom.select(".b_search").get(0);
            Element element2 = element1.select("div h2").get(0);
            String result = element2.text();
            System.out.println(result);
        }
    获取静态数据

    获取动态数据

      有些网站出于安全性和交互性的考虑,采用了动态的数据获取的方式,进行数据加载!

      1、通过浏览器的开发者工具分析网站的js请求,根据js的返回值获取需要的数据

    @Test
        public void test03() throws IOException{
            String url = "http://www.it211.com.cn/boutiqueSeries/findSeriesCourseByCourseId?courseId=1000";
            String result = Jsoup.connect(url).ignoreContentType(true).execute().body();
            //通过objectMapper解析json串
            JsonNode node = objectMapper.readTree(result);
            String data = node.get("obj").get("bookNum").asText();
            System.out.println(data);
        }
    获取动态数据

    获得json数据并进行处理

    public void insert(String url, int status) {
            try {
                //通过url获取json数据,在截取前需要对获取的数据进行分析
                String data = Jsoup.connect(url).ignoreContentType(true).execute().body();
                StudentBookListVO studentBookListVO = objectMapper.readValue(data, StudentBookListVO.class);
                List<StudentBook> lists = studentBookListVO.getBookList();
                for(StudentBook studentBook : lists){
                    List<StudentSection> sections = studentBook.getSections();
                    if(sections!=null){
                        for (StudentSection studentSection : sections) {
                            studentSectionMapper.insert(studentSection);
                        }
                    }                
                    studentBook.setBookImg("http://www.it211.com.cn/web/library/tu_new/"+studentBook.getBookImg());
                    studentBook.setStatus(status);
                    studentBookMapper.insert(studentBook);
                }
            } catch (Exception e) {
                // TODO Auto-generated catch block
                e.printStackTrace();
            }
        }
    处理爬到孤数据

    druid连接池及监控

    说明:使用阿里的Druid数据源,是当前国内性能最好的数据库链接池.并且提供了数据的监控功能.

    添加依赖:

    <dependency>
          <groupId>com.alibaba</groupId>
          <artifactId>druid</artifactId>
          <version>1.0.29</version>
    </dependency>
    <?xml version="1.0" encoding="UTF-8"?>
    <web-app xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
        xmlns="http://java.sun.com/xml/ns/javaee"
        xsi:schemaLocation="http://java.sun.com/xml/ns/javaee http://java.sun.com/xml/ns/javaee/web-app_2_5.xsd"
        id="jt-manage" version="2.5">
        <display-name>jt-jsoup</display-name>
    
        <!-- web应用状态监控过滤器 -->
        <filter>
            <filter-name>DruidWebStatFilter</filter-name>
            <filter-class>com.alibaba.druid.support.http.WebStatFilter</filter-class>
            <init-param>
                <param-name>exclusions</param-name>
                <param-value>*.js,*.gif,*.jpg,*.png,*.css,*.ico,/druid/*</param-value>
            </init-param>
        </filter>
        
        <filter-mapping>
            <filter-name>DruidWebStatFilter</filter-name>
            <url-pattern>/*</url-pattern>
        </filter-mapping>
        
        <!-- Druid监控视图Servlet -->
        <servlet>
            <servlet-name>DruidStatView</servlet-name>
            <servlet-class>com.alibaba.druid.support.http.StatViewServlet</servlet-class>
            <!-- 可选项 登陆的用户名和密码 -->
            <init-param>
                <param-name>loginUsername</param-name>
                <param-value>druid</param-value>
            </init-param>
            <init-param>
                <param-name>loginPassword</param-name>
                <param-value>druid</param-value>
            </init-param>
        </servlet>
        <servlet-mapping>
            <servlet-name>DruidStatView</servlet-name>
            <url-pattern>/druid/*</url-pattern>
        </servlet-mapping>
        
        <!--定义前端控制器  -->
        <servlet>
            <servlet-name>springmvc</servlet-name>
            <servlet-class>org.springframework.web.servlet.DispatcherServlet</servlet-class>
            <init-param>
                <param-name>contextConfigLocation</param-name>
                <param-value>classpath:/spring/applicationContext*.xml</param-value>
            </init-param>
        </servlet>
        
        <!--/表示拦截所有请求和静态资源 不拦截动态资源 -->
        <servlet-mapping>
            <servlet-name>springmvc</servlet-name>
            <url-pattern>/</url-pattern>
        </servlet-mapping>
        
    </web-app>
    web.xml

    JDBC连接配置

    jdbc.driverClassName=com.mysql.jdbc.Driver
    
    jdbc.url=jdbc:mysql://127.0.0.1:3306/jtdb?useUnicode=true&characterEncoding=UTF-8
    
    jdbc.username=root
    jdbc.password=root
    #初始化连接数量
    jdbc.initialSize=10
    #最大并发连接数
    jdbc.maxActive=100
    #已经不再使用,配置了也没效果
    jdbc.maxIdle=10
    #最小空闲连接数
    jdbc.minIdle=5
    #获取连接等待超时的时间
    jdbc.maxWait=5000
    
    #用来检测连接是否有效的sql,要求是一个查询语句
    jdbc.validationQuery=SELECT * FROM USER
    #单位:秒,检测连接是否有效的超时时间。底层调用jdbc Statement对象的void setQueryTimeout(int seconds)方法
    jdbc.validationQueryTimeout=3
    #申请连接的时候检测,如果空闲时间大于timeBetweenEvictionRunsMillis,执行validationQuery检测连接是否有效。
    jdbc.testWhileIdle=true
    #申请连接时执行validationQuery检测连接是否有效,配置为true会降低性能
    jdbc.testOnBorrow=false
    #归还连接时执行validationQuery检测连接是否有效,配置为true会降低性能
    jdbc.testOnReturn=false
    
    #连接保活
    #打开KeepAlive之后的效果:
    #1、初始化连接池时会填充到minIdle数量。
    #2、连接池中的minIdle数量以内的连接,空闲时间超过minEvictableIdleTimeMillis,则会执行keepAlive操作。
    #3、当网络断开等原因产生的由ExceptionSorter检测出来的死连接被清除后,自动补充连接到minIdle数量。
    jdbc.keepAlive=true
    
    #对于建立时间超过removeAbandonedTimeout的连接强制关闭(连接泄露自动检测)
    jdbc.removeAbandoned=true
    #连接建立多长时间就需要被强制关闭(1800秒,也就是30分钟)(连接长时间没有使用,被认为发生泄露时长)
    jdbc.removeAbandonedTimeout=1800
    
    #配置间隔多久才进行一次检测,检测需要关闭的空闲连接,单位是毫秒
    #jdbc.timeBetweenEvictionRunsMillis=60000
    jdbc.timeBetweenEvictionRunsMillis=60000
    #连接保持空闲而不被驱逐的最长时间(Destory线程中如果检测到当前连接的最后活跃时间和当前时间的差值大于minEvictableIdleTimeMillis,则关闭当前连接)。单位是毫秒
    #jdbc.minEvictableIdleTimeMillis=1800000
    #jdbc.minEvictableIdleTimeMillis=300000
    jdbc.minEvictableIdleTimeMillis=60000
    
    #是否打开PreparedStatementCache,并且指定每个连接上PSCache的大小
    jdbc.poolPreparedStatements=true
    #指定每个连接上PSCache的大小
    jdbc.maxPoolPreparedStatementPerConnectionSize=500
    
    #关闭abanded连接时输出错误日志
    jdbc.logAbandoned=true
    #属性类型是字符串,通过别名的方式配置扩展插件,常用的插件有: 常用的插件有: 监控统计用的filter:stat     日志用的filter:log4j   防御sql注入的filter:wall
    jdbc.filters=stat,wall
    jdbc.properties

    springMVC配置

    <?xml version="1.0" encoding="UTF-8"?>
    <beans xmlns="http://www.springframework.org/schema/beans"
        xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xmlns:p="http://www.springframework.org/schema/p"
        xmlns:context="http://www.springframework.org/schema/context"
        xmlns:mvc="http://www.springframework.org/schema/mvc"
        xsi:schemaLocation="http://www.springframework.org/schema/beans http://www.springframework.org/schema/beans/spring-beans.xsd
            http://www.springframework.org/schema/mvc http://www.springframework.org/schema/mvc/spring-mvc-4.0.xsd
            http://www.springframework.org/schema/context http://www.springframework.org/schema/context/spring-context.xsd">
    
    
        <!--开启mvc注解  -->
        <mvc:annotation-driven/>
        
        <!--开启包扫描  -->
        <context:component-scan base-package="com.tedu.druid.controller"/>
        
        <!--定义视图解析器  -->
        <bean class="org.springframework.web.servlet.view.InternalResourceViewResolver">
            <!--定义前缀和后缀  -->
            <property name="prefix" value="/WEB-INF/"/>
            <property name="suffix" value=".jsp"/>
        </bean>
        
        <!--定义文件上传视图解析器  规定id的值必须为multipartResolver-->
        <bean id="multipartResolver" class="org.springframework.web.multipart.commons.CommonsMultipartResolver">
            <!--定义文件上传最大值 10M   1024*1024*10 =10485760 -->
            <property name="maxUploadSize" value="10485760"/>
            
            <!--定义文件上传的编码  -->
            <property name="defaultEncoding" value="UTF-8"/>
        </bean>
        
        
        <!--放行静态资源文件  -->
        <mvc:default-servlet-handler/>    
        
    </beans>
    applicationContext-mvc.xml

    spring配置

    <beans xmlns="http://www.springframework.org/schema/beans"
        xmlns:context="http://www.springframework.org/schema/context"
        xmlns:aop="http://www.springframework.org/schema/aop" 
        xmlns:tx="http://www.springframework.org/schema/tx"
        xmlns:util="http://www.springframework.org/schema/util"
        xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
        xsi:schemaLocation="
        http://www.springframework.org/schema/beans http://www.springframework.org/schema/beans/spring-beans-4.0.xsd
        http://www.springframework.org/schema/context http://www.springframework.org/schema/context/spring-context-4.0.xsd
        http://www.springframework.org/schema/aop http://www.springframework.org/schema/aop/spring-aop-4.0.xsd 
        http://www.springframework.org/schema/tx http://www.springframework.org/schema/tx/spring-tx-4.0.xsd
        http://www.springframework.org/schema/util http://www.springframework.org/schema/util/spring-util-4.0.xsd">
                            
        <!--开启包扫描  -->
        <context:component-scan base-package="com.tedu.druid.service"/>  
    
        <!--引入多个配置文件-->
        <bean id="propertyConfigurer"  
            class="org.springframework.beans.factory.config.PropertyPlaceholderConfigurer">
            <property name="locations">
                <list>
                    <value>classpath:jdbc.properties</value>
                </list>
            </property>  
        </bean>  
    
        <!--druid数据库连接  -->
         <bean id="dataSource" class="com.alibaba.druid.pool.DruidDataSource">
            <property name="driverClassName" value="${jdbc.driverClassName}" />
            <property name="url" value="${jdbc.url}" />
            <property name="username" value="${jdbc.username}" />
            <property name="password" value="${jdbc.password}" />
            <property name="initialSize" value="${jdbc.initialSize}" />
            <property name="maxActive" value="${jdbc.maxActive}" />
            <property name="minIdle" value="${jdbc.minIdle}" />
            <property name="maxWait" value="${jdbc.maxWait}" />
            <property name="validationQuery" value="${jdbc.validationQuery}"/>
            <property name="validationQueryTimeout" value="${jdbc.validationQueryTimeout}"/> 
            <property name="keepAlive" value="${jdbc.keepAlive}" />
            <property name="testOnBorrow" value="${jdbc.testOnBorrow}" />
            <property name="testOnReturn" value="${jdbc.testOnReturn}" />
            <property name="testWhileIdle" value="${jdbc.testWhileIdle}" />
            <property name="removeAbandoned" value="${jdbc.removeAbandoned}" />
            <property name="removeAbandonedTimeout" value="${jdbc.removeAbandonedTimeout}" />
            <property name="timeBetweenEvictionRunsMillis" value="${jdbc.timeBetweenEvictionRunsMillis}" />
            <property name="minEvictableIdleTimeMillis" value="${jdbc.minEvictableIdleTimeMillis}" />
    
            <!-- 关闭abanded连接时输出错误日志 -->
            <property name="logAbandoned" value="${jdbc.logAbandoned}" />
            <!-- 监控数据库 -->
            <property name="filters" value="${jdbc.filters}" />
        </bean>
    
        <!-- 配置druid监控spring jdbc -->
        <bean id="druid-stat-interceptor" class="com.alibaba.druid.support.spring.stat.DruidStatInterceptor"></bean>
        <bean id="druid-stat-pointcut" class="org.springframework.aop.support.JdkRegexpMethodPointcut" scope="prototype">
            <property name="patterns">
                <list>
                    <!-- 针对项目中的Service层调用进行监控 -->
                    <value>com.tedu.druid.service.*</value>
                </list>
            </property>
        </bean>
        
        <aop:config>
            <aop:advisor advice-ref="druid-stat-interceptor" pointcut-ref="druid-stat-pointcut" />
        </aop:config>
        
        
        <!-- spring和MyBatis完美整合,不需要mybatis的配置映射文件 -->  
        <bean id="sqlSessionFactory" class="org.mybatis.spring.SqlSessionFactoryBean">  
            <property name="dataSource" ref="dataSource" />
            <!-- 开启别名包  -->
            <property name="typeAliasesPackage" value="com.tedu.druid.pojo"></property>
            <property name="configLocation" value="classpath:mybatis/mybatis-config.xml"></property>  
            
            <!-- 自动扫描mapping.xml文件-->  
            <property name="mapperLocations" value="classpath:mybatis/mappers/*.xml"></property> 
        </bean>  
    
        <!-- 配置扫描Dao接口包,动态实现Dao接口,注入到spring容器中 -->  
        <bean class="org.mybatis.spring.mapper.MapperScannerConfigurer">  
            <property name="basePackage" value="com.tedu.druid.mapper" />  
            <property name="sqlSessionFactoryBeanName" value="sqlSessionFactory"></property>  
        </bean>  
    
        <!-- (事务管理)transaction manager -->  
        <bean id="transactionManager"  
            class="org.springframework.jdbc.datasource.DataSourceTransactionManager">  
            <property name="dataSource" ref="dataSource" />  
        </bean>
        <!-- 第一种方式: 注解方式配置事物 -->
        <!-- <tx:annotation-driven transaction-manager="transactionManager" /> -->
    
        <!-- 第二种方式: 拦截器方式配置事物 -->
    
        <tx:advice id="transactionAdvice" transaction-manager="transactionManager">
            <tx:attributes>
                <tx:method name="save*" propagation="REQUIRED" rollback-for="Exception" />
                <tx:method name="update*" propagation="REQUIRED" rollback-for="Exception" />
                <tx:method name="delete*" propagation="REQUIRED" rollback-for="Exception"/>
                <tx:method name="insert*" propagation="REQUIRED" rollback-for="Exception"/>
                <tx:method name="get*" propagation="SUPPORTS" read-only="true"/>
                <tx:method name="select*" propagation="SUPPORTS" read-only="true"/>
                <tx:method name="*" propagation="SUPPORTS" read-only="true"/>
            </tx:attributes>
        </tx:advice>
    
        <!-- Spring AOP config 解释一下 (* com.evan.crm.service.*.*(..)) 中几个通配符的含义: -->
        <!-- 第一个 * —— 通配 任意返回值类型 -->
        <!-- 第二个 * —— 通配 包com.evan.crm.service下的任意class -->
        <!-- 第三个 * —— 通配包com.evan.crm.service下的任意class的任意方法 -->
        <!-- 第四个 .. —— 通配 方法可以有0个或多个参数 -->
        <!-- 事务控制位置,一般在业务层service -->
    
       <aop:config>
            <aop:pointcut id="transactionPointcut" expression="execution(* com.tedu.druid.service.*.*(..))" />
            
            <!-- 多个 expression="(execution(* com.weixin.web.service..*Impl.*(..)))or(execution(* org.weixin.service..*Impl.*(..)))" -->
            <aop:advisor pointcut-ref="transactionPointcut" advice-ref="transactionAdvice" />
        </aop:config>
    </beans>
    applicationContext.xml

    mybatis-config配置

    <?xml version="1.0" encoding="UTF-8" ?>
    <!DOCTYPE configuration
      PUBLIC "-//mybatis.org//DTD Config 3.0//EN"
      "http://mybatis.org/dtd/mybatis-3-config.dtd">
    <configuration>
    
        <settings>
            <!-- 开启驼峰自动映射 -->
            <setting name="mapUnderscoreToCamelCase" value="true" />
            <!-- 二级缓存的总开关,被redis替代 -->
            <setting name="cacheEnabled" value="false" />
        </settings>
        
        <plugins>
            <!-- 通用Mapper插件 -->
            <plugin interceptor="com.github.abel533.mapperhelper.MapperInterceptor">
                <!--主键自增回写方法,默认值MYSQL,详细说明请看文档 -->
                <property name="IDENTITY" value="MYSQL" />
                <!--通用Mapper接口,多个通用接口用逗号隔开 -->
                <property name="mappers" value="com.jt.common.mapper.SysMapper" />
            </plugin>
        </plugins>
    </configuration>
    mybatis-config.xml

    访问地址:http://localhost:8097/druid/

      

  • 相关阅读:
    vue单页面项目返回上一页无效,链接变化了,但是页面没有变化
    H5页面在iOS网页中的数字被识别为电话号码,字体颜色变黑色,且颜色不可改变
    vue-quill-editor 封装成组件;图片文件流上传;同一页面多个编辑器样式异常解决办法
    React 从零搭建项目 使用 create-react-app脚手架
    使用git pull文件时和本地文件冲突怎么办?
    webpack打包vue项目,资源路径如何从绝对路径改为相对路径?css中的图片资源如何修改配置?
    前端使用JS-SDK上传图片(文件)到七牛
    vue图片裁剪插件vue-cropper
    小程序图片裁剪组件
    微信小程序1rpx border ios真机显示不全问题
  • 原文地址:https://www.cnblogs.com/xiangyuqi/p/8616269.html
Copyright © 2020-2023  润新知