• 分享一个百万数量级的测试学习用的mysql数据集


    TEST_DB

    带有集成测试套件的示例数据库,用于测试应用程序和数据库服务器

    此存储库已从Launchpad迁移

    请参阅MySQL文档中的用法

    它来自哪里

    原始数据由西门子企业研究中心的Fusheng Wang和Carlo Zaniolo创建。数据采用XML格式。http://timecenter.cs.aau.dk/software.htm

    Giuseppe Maxia制作了关系模式,Patrick Crews以关系格式导出数据。

    该数据库包含大约300,000个员工记录,其中包含280万个工资条目。导出数据是167 MB,这不是很大,但是足够重,不足以进行测试。

    生成了数据,因此存在不一致和微妙的问题。我们决定不更改内容,而是将其删除,并将这些问题用作数据清理练习。

    先决条件

    您需要一个MySQL数据库服务器(5.0+)并通过具有以下权限的用户运行以下命令:

    SELECT, INSERT, UPDATE, DELETE, 
    CREATE, DROP, RELOAD, REFERENCES, 
    INDEX, ALTER, SHOW DATABASES, 
    CREATE TEMPORARY TABLES, 
    LOCK TABLES, EXECUTE, CREATE VIEW
    

    安装:

    1. 下载存储库
    2. 将目录更改为存储库

    然后跑

    mysql < employees.sql
    

    如果要使用两个大型分区表进行安装,请运行

    mysql < employees_partitioned.sql
    

    测试安装

    安装后,您可以运行以下之一

    mysql -t < test_employees_md5.sql
    # OR
    mysql -t < test_employees_sha.sql
    

    例如:

    mysql  -t < test_employees_md5.sql
    +----------------------+
    | INFO                 |
    +----------------------+
    | TESTING INSTALLATION |
    +----------------------+
    +--------------+------------------+----------------------------------+
    | table_name   | expected_records | expected_crc                     |
    +--------------+------------------+----------------------------------+
    | employees    |           300024 | 4ec56ab5ba37218d187cf6ab09ce1aa1 |
    | departments  |                9 | d1af5e170d2d1591d776d5638d71fc5f |
    | dept_manager |               24 | 8720e2f0853ac9096b689c14664f847e |
    | dept_emp     |           331603 | ccf6fe516f990bdaa49713fc478701b7 |
    | titles       |           443308 | bfa016c472df68e70a03facafa1bc0a8 |
    | salaries     |          2844047 | fd220654e95aea1b169624ffe3fca934 |
    +--------------+------------------+----------------------------------+
    +--------------+------------------+----------------------------------+
    | table_name   | found_records    | found_crc                        |
    +--------------+------------------+----------------------------------+
    | employees    |           300024 | 4ec56ab5ba37218d187cf6ab09ce1aa1 |
    | departments  |                9 | d1af5e170d2d1591d776d5638d71fc5f |
    | dept_manager |               24 | 8720e2f0853ac9096b689c14664f847e |
    | dept_emp     |           331603 | ccf6fe516f990bdaa49713fc478701b7 |
    | titles       |           443308 | bfa016c472df68e70a03facafa1bc0a8 |
    | salaries     |          2844047 | fd220654e95aea1b169624ffe3fca934 |
    +--------------+------------------+----------------------------------+
    +--------------+---------------+-----------+
    | table_name   | records_match | crc_match |
    +--------------+---------------+-----------+
    | employees    | OK            | ok        |
    | departments  | OK            | ok        |
    | dept_manager | OK            | ok        |
    | dept_emp     | OK            | ok        |
    | titles       | OK            | ok        |
    | salaries     | OK            | ok        |
    +--------------+---------------+-----------+
    

    免责声明

    据我所知,这些数据是伪造的,并不符合真实的人。与现有人的任何相似之处纯属巧合。

    源地址: https://github.com/datacharmer/test_db

  • 相关阅读:
    dfs和bfs算法
    7种查找算法详解(转)
    C语言关键字:auto、static、register、const、volatile 、extern 总结 <转>
    存储类型auto,static,extern,register的区别 <转>
    C++中的内存重叠问题
    auto和register关键字
    监控linux系统的简易脚本
    Linux下面的IO模型
    python--爬虫基础
    网络协议面试
  • 原文地址:https://www.cnblogs.com/wangbaojun/p/11154515.html
Copyright © 2020-2023  润新知