1.背景 Hive是建立在Hadoop之上的数据仓库基础构架、是为了减少MapReduce编写工作的批处理系统,Hive本身不存储和计算数据,它完全依赖于HDFS和MapReduce。 Hive可以理解为一个客户端工具,将我们的sql操作转换为相应的MapReduce jobs,然后在Hadoop上面运行。 HBase全称为Hadoop Database,即HBase是Hadoop的数据库,是一个分布式的存储系统。H...
2019-05-16 11:55 3874 0
搜集了CDH常用的hive配置可进行优化的配置项 1.hive.metastore.warehouse.dir Hive 仓库目录是在 HDFS 中存储 Hive 表格的位置。注意此仓库目录的 Hive 默认值为“/user/hive/warehouse”。 2.hive.warehouse.subdir.inherit.perms 让表目录继承仓库或数据库目录的权限,替代使用从 dfs umask 派生权限创建。该操作允许通过 Hive 将 Impala 插入...
2019-05-13 17:45 4472 0
1.Hbase简介 HBase 是 BigTable 的开源 java 版本。是建立在 HDFS 之上,提供高可靠性、高性能、列存储、 可伸缩、实时读写 NoSQL 的数据库系统 2.Hbase特点 HBase线性可扩展。 它具有自动故障支持。 它提供了一致的读取和写入。 它集成了Hadoop,作为源和目的地。 客户端方便的Java API。 它提供了跨集群数据复制。 3.角色分配 Hbase角色分...
2019-05-06 17:14 3188 0
1.CDH集群里面的Hive角色分配及作用 如图所示,Hive主要有三个角色:HiveServer2、Metastore Server、以及代理角色Gateway 主要两个服务端守护进程: 1、Hiveserver2:支撑JDBC访问,Thrift服务,部署在masternode3节点。 2、MetaStore Server:支撑访问元数据库的服务,部署在toolnode1节点。 2.Hive内核结构 Complier:编译器,编译hql语法。 ...
2019-05-06 15:37 4960 0
Sqoop服务添加 Sqoop版本选择 CDH自带两个版本sqoop组件 这里选择1.4.6版本也就是sqoop1,1.99.5版本是sqoop2,是半成品,不支持关系型DB到Hive跟Hbase,故不推荐使用 Sqoop导入mySql数据到Hive操作 1、测试MySQL连接 sqoop list-databases --connect jdbc:mysql://192.168.20.160/test --username root --password 111111 2、检验SQL语句 sqo...
2019-05-06 15:13 5118 0
1、添加spark服务 设置masternode3为HistoryServer其他主机为代理 角色分配图: 2、配置Spark服务范围 3、配置Yarn Yarn需要配置两个参数:yarn.nodemanager.resource.cpu-vcores和yarn.nodemanager.resource.memory-mb。yarn.nodemanager.resource.cpu-vcores代表可以为container分配的CPU 内核的数量。yarn.nodemanager.resource.memory-mb代...
2019-05-06 14:38 4364 0
1、 主机分配 以七台测试虚拟机为例: 七台主机名分别为:cm、master1、master2、master3、node1、node2、node3 对应的ip为:192.168.138.141 ——192.168.138.147 2、修改静态IP 因为除cm外都是克隆虚拟机机,所以首先要解决克隆机的静态IP跟主机名更改问题,更改cm为例: vi /etc/udev/rules.d/70-persistent-net.rules 删除eth0的驱动,...
2019-05-06 13:59 3277 0