• 如何利用Oracle外部表导入文本文件的数据


    同事最近在忙数据一致性比对工作,需要对不同文本文件中的数据进行比对,有的文件较大,记录较多,如果用普通的文本编辑器打开的话,很显然,会很卡,甚至打不开。

    基于此,可将该文本文件的数据导入到数据库中,在集合的层面进行比对。

    那么如何将文本文件的数据导入到数据库中呢?在这里,主要利用了Oracle的外部表特性。

    Oracle外部表支持两种类型的驱动:一种是ORACLE_LOADER,外部表的数据必须来源于文件文件,另一种则是ORACLE_DATAPUMP,外部表的数据必须是二进制dump文件,该dump文件是先前将Oracle内部表的数据导入到外部表中填充的文件。很显然,Oracle希望将数据保留在数据库内部进行处理。

    首先,我们来看一下该文本文件的大小及记录。

    [oracle@node2 ~]$ du -sm P_20150626010000_2002371.0003479598 
    274    P_20150626010000_2002371.0003479598
    [oracle@node2 ~]$ wc -l P_20150626010000_2002371.0003479598 
    2899265 P_20150626010000_2002371.0003479598

    从上面的输出可以看出,该文件274M,有2899265条记录。

    其次,构建创建外部表语句。

    复制代码
    CREATE TABLE emp_load
       (subsid number(18),
        servnumber VARCHAR2(20 CHAR),
        subsprodid NUMBER(18),
        prodid VARCHAR2(32 CHAR),
        startdate date,
        enddate  date, 
        owner VARCHAR2(4 CHAR))
    ORGANIZATION EXTERNAL
       (TYPE ORACLE_LOADER
        DEFAULT DIRECTORY tmp
        ACCESS PARAMETERS
          (RECORDS DELIMITED BY NEWLINE
            FIELDS TERMINATED BY "|"
                 ( subsid      DECIMAL EXTERNAL,
                   servnumber  CHAR(20),
                   subsprodid  DECIMAL EXTERNAL,
                   prodid  CHAR(32),
                    startdate date "yyyymmddhh24miss",
                   enddate date "yyyymmddhh24miss",
                   owner   CHAR(4) 
                  )
          )
        LOCATION ('P_20150626010000_2002371.0003479598')
       );
     
    复制代码

    注意,目录tmp必须存在,因为我是在scott用户下执行的,所以scott用户必须对该路径有读写权限。

    第三、在scott用户下执行该建表语句。

    第四、查看生成的外部表是否有问题

    SQL> select count(*) from emp_load;
    
          COUNT(*)
    ------------------
           2899265

    记录与wc-l查看的记录数吻合。

    注意,建表过程中没有报错并不一定意味着数据已经成功加载在外部表中。必须通过查询外部表来判定数据是否已成功加载,倘若有错误提示,可参看当前目录下生成的日志文件,具体在本例中,是EMP_LOAD_2000.bad和EMP_LOAD_2000.log。

    当然,外部表中的数据只能查询,不能做DML操作,譬如,随机删除表中的一条数据

    SQL> delete from emp_load where rownum=1;
    delete from emp_load where rownum=1
                *
    ERROR at line 1:
    ORA-30657: operation not supported on external organized table

    如果想对该外部表数据进行DML操作,可先将外部表的数据导入到内部表中。具体步骤如下:

    复制代码
    SQL> create table test as select * from emp_load where 1=0;
    
    Table created.
    
    Elapsed: 00:00:00.26
    SQL> INSERT /*+ APPEND */ INTO test select * from emp_load;
    
    2899265 rows created.
    
    Elapsed: 00:01:00.29
    SQL> select * from test where rownum<=100;
    select * from test where rownum<=100
                  *
    ERROR at line 1:
    ORA-12838: cannot read/modify an object after modifying it in parallel
    
    
    Elapsed: 00:00:00.10
    SQL> commit;
    
    Commit complete.
    
    Elapsed: 00:00:00.07
    SQL> select * from test where rownum<=100;
    复制代码

    在这里,为了节省时间,我用了直接路径插入,可以看出,插入近300万数据,只用了1分左右的时间,考虑到我虚拟机上的数据库,只给它分配了300M的内存,加载的效率还是相当可观的。

    复制代码
    SQL> show parameter memory
    
    NAME                     TYPE     VALUE
    ------------------------------------ ----------- ------------------------------
    hi_shared_memory_address         integer     0
    memory_max_target             big integer 300M
    memory_target                 big integer 300M
    shared_memory_address             integer     0
    复制代码

    注意:在SQL*PLUS中,number字段的输出默认为10,这样会导致对于937116510102250300这样的数值,可能会显示为9.3712E+17,在这里,可通过set numwidth 18来显示完整的number字段的值。

  • 相关阅读:
    SQL优化之博客案例
    Drools之规则属性
    Android 8.0以上系统应用如何保活
    Android 8.0(api27)静态广播和动态广播接收问题
    Android开发 WorkManager详解
    使用EOS Camera Movie Record 软件在计算机上使用 Canon EOS DSLR相机录制视频 。
    关于使用AlarmManager的注意事项
    系统服务之定时服务(AlarmManager)
    Android定时器AlarmManager
    Android 代码混淆
  • 原文地址:https://www.cnblogs.com/zhengrunjian/p/4648353.html
Copyright © 2020-2023  润新知