签到成功

知道了

CNDBA社区CNDBA社区

Sqoop 概念

2019-03-01 14:17 2151 0 转载 Sqoop
作者: dave

1 Sqoop 概述

Sqoop是Hadoop和关系数据库服务器之间传送数据的一种工具。它是用来从关系数据库如:MySQL,Oracle到Hadoop的HDFS,并从Hadoop的文件系统导出数据到关系数据库。它是由Apache软件基金会提供。http://www.cndba.cn/dave/article/3288

传统的应用管理系统,也就是与关系型数据库的使用RDBMS应用程序的交互,是产生大数据的来源之一。这样大的数据,由关系数据库生成的,存储在关系数据库结构关系数据库服务器。

当大数据存储器和分析器,如MapReduce, Hive, HBase, Cassandra, Pig等,Hadoop的生态系统等应运而生,它们需要一个工具来导入和导出大数据驻留在其中的关系型数据库服务器进行交互。

在这里,Sqoop占据着Hadoop生态系统提供关系数据库服务器和Hadoop HDFS之间的可行的互动。 http://www.cndba.cn/dave/article/3288

http://www.cndba.cn/dave/article/3288

2 Sqoop工作流

下图描述了Sqoop的工作流程。
http://www.cndba.cn/dave/article/3288

http://www.cndba.cn/dave/article/3288
http://www.cndba.cn/dave/article/3288http://www.cndba.cn/dave/article/3288

3 Sqoop导入

导入工具从RDBMS到HDFS导入单个表。表中的每一行被视为HDFS的记录。所有记录被存储在文本文件的文本数据或者在Avro和序列文件的二进制数据。http://www.cndba.cn/dave/article/3288

4 Sqoop导出

导出工具从HDFS导出一组文件到一个RDBMS。作为输入到Sqoop文件包含记录,这被称为在表中的行。那些被读取并解析成一组记录和分隔使用用户指定的分隔符。http://www.cndba.cn/dave/article/3288

http://www.cndba.cn/dave/article/3288

用户评论
* 以下用户言论只代表其个人观点,不代表CNDBA社区的观点或立场
dave

dave

关注

人的一生应该是这样度过的:当他回首往事的时候,他不会因为虚度年华而悔恨,也不会因为碌碌无为而羞耻;这样,在临死的时候,他就能够说:“我的整个生命和全部精力,都已经献给世界上最壮丽的事业....."

  • 2261
    原创
  • 3
    翻译
  • 578
    转载
  • 191
    评论
  • 访问:7984068次
  • 积分:4346
  • 等级:核心会员
  • 排名:第1名
精华文章
    最新问题
    查看更多+
    热门文章
      热门用户
      推荐用户
        Copyright © 2016 All Rights Reserved. Powered by CNDBA · 皖ICP备2022006297号-1·

        QQ交流群

        注册联系QQ