注意:以下文档只适用于TOP接口,请谨慎使用!

文档中心 > 聚石塔

导入数据

更新时间:2018/06/07 访问次数:2019

从 MySQL 导入

mysql2pgsql

工具 mysql2pgsql 支持不落地的把 MYSQL 中的表迁移到 HybridDB for PostgreSQL/Greenplum Database/PostgreSQL/PPAS。此工具的原理是,同时连接源端 mysql 数据库和目的端数据库,从 mysql 库中通过查询得到要导出的数据,然后通过 COPY 命令导入到目的端。此工具支持多线程导入(每个工作线程负责导入一部分数据库表)。

参数配置

修改配置文件 my.cfg、配置源和目的库连接信息。

  • 源库 mysql 的连接信息如下:

    注意:源库 mysql 的连接信息中,用户需要有对所有用户表的读权限。

    1. [src.mysql]
    2. host = "192.168.1.1"
    3. port = "3306"
    4. user = "test"
    5. password = "test"
    6. db = "test"
    7. encodingdir = "share"
    8. encoding = "utf8"
  • 目的库 pgsql (包括 Postgresql、PPAS 和 HybridDB for PostgreSQL )的连接信息如下:

    注意:目的库 pgsql 的连接信息,用户需要对目标表有写的权限。

    1. [desc.pgsql]
    2. connect_string = "host=192.168.1.1 dbname=test port=5888 user=test password=pgsql"

mysql2pgsql 用法

mysql2pgsql 的用法如下所示:

  1. ./mysql2pgsql -l <tables_list_file> -d -n -j <number of threads> -s <schema of target able>

参数说明:

  • -l:可选参数,指定一个文本文件,文件中含有需要同步的表;如果不指定此参数,则同步配置文件中指定数据库下的所有表。<tables_list_file>为一个文件名,里面含有需要同步的表集合以及表上查询的条件,其内容格式示例如下:

    1. table1 : select * from table_big where column1 < '2016-08-05'
    2. table2 :
    3. table3
    4. table4: select column1, column2 from tableX where column1 != 10
    5. table5: select * from table_big where column1 >= '2016-08-05'
  • -d:可选参数,表示只生成目的表的建表 DDL 语句,不实际进行数据同步。

  • -n:可选参数,需要与-d 一起使用,指定在 DDL 语句中不包含表分区定义。

  • -j:可选参数,指定使用多少线程进行数据同步;如果不指定此参数,会使用 5 个线程并发。

  • -s:可选参数,指定目标表的 schema,一次命令只能指定一个 schema。如果不指定此参数,则数据会导入到 public 下的表。

典型用法

全库迁移

全库迁移的操作步骤如下所示:

  1. 通过如下命令,获取目的端对应表的 DDL。

    1. ./mysql2pgsql -d
  2. 根据这些 DDL,再加入 distribution key 等信息,在目的端创建表。

  3. 执行如下命令,同步所有表:

    1. ./mysql2pgsql

    此命令会把配置文件中所指定数据库中的所有 mysql 表数据迁移到目的端。过程中使用 5 个线程(即缺省线程数为 5),读取和导入所有涉及的表数据。

部分表迁移

  1. 编辑一个新文件 tab_list.txt,放入如下内容:

    1. t1
    2. t2 : select * from t2 where c1 > 138888
  2. 执行如下命令,同步指定的 t1 和 t2 表(注意 t2 表只迁移符合 c1 > 138888 条件的数据):

    1. ./mysql2pgsql -l tab_list.txt

下载与说明

  • 下载 mysql2pgsql 二进制安装包下载,请单击 这里

  • 查看 mysql2pgsql 源码编译说明,请单击 这里

从 PostgreSQL 导入

工具 pgsql2pgsql 支持不落地的把 HybridDB for PostgreSQL/Greenplum Database/PostgreSQL/PPAS 中的表迁移到 HybridDB for PostgreSQL/Greenplum Database/PostgreSQL/PPAS。

pgsql2pgsql 支持的功能

pgsql2pgsql 支持如下功能:

  • PostgreSQL/PPAS/Greenplum Database/HybridDB for PostgreSQL 全量数据迁移到 PostgreSQL/PPAS/Greenplum Database/HybridDB for PostgreSQL。

  • PostgreSQL/PPAS(版本大于9.4)全量 + 增量迁移到 PostgreSQL/PPAS。

参数配置

修改配置文件 my.cfg、配置源和目的库连接信息。

  • 源库 pgsql 连接信息如下所示:

    注意:源库 pgsql 的连接信息中,用户最好是对应 DB 的 owner。

    1. [src.pgsql]
    2. connect_string = "host=192.168.1.1 dbname=test port=5888 user=test password=pgsql"
  • 本地临时 Database pgsql 连接信息如下所示:

    1. [local.pgsql]
    2. connect_string = "host=192.168.1.1 dbname=test port=5888 user=test2 password=pgsql"
  • 目的库 pgsql 连接信息如下所示:

    注意:目的库 pgsql 的连接信息,用户需要对目标表有写权限。

    1. [desc.pgsql]
    2. connect_string = "host=192.168.1.1 dbname=test port=5888 user=test3 password=pgsql"

注意:

  • 如果要做增量数据同步,连接源库需要有创建 replication slot 的权限。

  • 由于 PostgreSQL 9.4 及以上版本支持逻辑流复制,所以支持作为数据源的增量迁移。打开下列内核参数才能让内核支持逻辑流复制功能。

    wal_level = logical

    max_wal_senders = 6

    max_replication_slots = 6

pgsql2pgsql 用法

全库迁移

进行全库迁移,请执行如下命令:

  1. ./pgsql2pgsql

迁移程序会默认把对应 pgsql 库中所有用户的表数据将迁移到 pgsql。

状态信息查询

连接本地临时 Database,可以查看到单次迁移过程中的状态信息。这些信息被放在表 db_sync_status 中,包括全量迁移的开始和结束时间、增量迁移的开始时间和增量同步的数据情况。

下载与说明

  • 下载 mysql2pgsql 二进制安装包,请单击 这里
  • 查看 mysql2pgsql 源码编译说明,请单击 这里

FAQ

关于此文档暂时还没有FAQ
返回
顶部