1.环境 CentOS 6.8 flume 1.6.0 2.下载并安装 下载地址:http://flume.apache.org/download.html 也可以通过wget直接下载: wget http://mirrors.hust.edu.cn/apache/flume/1.6.0/apache-flume-1.6.0-bin.tar.gz 3.安装 我下载到的目录是/data/software,安装到/opt/目录下 tar -zxvf apache-flume-1.6.0-bin.tar.gz -C /opt 4.将apache-flum...
2019-05-20 17:44 3908 0
1.环境说明 1.1、linux系统(我这里是centos6.8) 1.2、jdk(我这里安装的Java1.8版本) 1.3、hadoop平台(我这里使用的cdh搭建的,hive版本为1.1.0) 2.安装单节点ES 2.1、下载es安装包,去https://www.elastic.co/cn官网下载,因为最新更新到7X版本,所以这里选择6X最后一个版本Elasticsearch 6.7.2下载,选择tar格式 2.2、上传安装包到toolno...
2019-05-17 15:31 5618 0
1.背景 Hive是建立在Hadoop之上的数据仓库基础构架、是为了减少MapReduce编写工作的批处理系统,Hive本身不存储和计算数据,它完全依赖于HDFS和MapReduce。 Hive可以理解为一个客户端工具,将我们的sql操作转换为相应的MapReduce jobs,然后在Hadoop上面运行。 HBase全称为Hadoop Database,即HBase是Hadoop的数据库,是一个分布式的存储系统。H...
2019-05-16 11:55 3874 0
1.在mysql表中创建一个千万条数据的测试表card 2.在Hbase中创建对应的test表,指定一个列族info hbase shell create 'test','info' 3.将mysql数据导入hbase中 sqoop import --connect jdbc:mysql://192.168.20.160/test --username root --password 111111 --table card --hbase-table 'test' # 指定hbase表的列族名 --hbase-row-...
2019-05-15 16:19 3286 0
搜集了CDH常用的hive配置可进行优化的配置项 1.hive.metastore.warehouse.dir Hive 仓库目录是在 HDFS 中存储 Hive 表格的位置。注意此仓库目录的 Hive 默认值为“/user/hive/warehouse”。 2.hive.warehouse.subdir.inherit.perms 让表目录继承仓库或数据库目录的权限,替代使用从 dfs umask 派生权限创建。该操作允许通过 Hive 将 Impala 插入...
2019-05-13 17:45 4472 0
简介 Hive支持索引,但是Hive的索引与关系型数据库中的索引并不相同,比如,Hive不支持主键或者外键。 Hive索引可以建立在表中的某些列上,以提升一些操作的效率,例如减少MapReduce任务中需要读取的数据块的数量。 在可以预见到分区数据非常庞大的情况下,索引常常是优于分区的。 需要时刻记住的是,Hive并不像事物数据库那样针对个别的行来执...
2019-05-10 17:10 4209 0
数据准备 因为创建可以分区的数据表结构很繁琐,所以我直接使用了CDH hue自带的hive测试数据customers表 创建步骤,进入hue web 页面,在导航栏提示第二步的时候,创建hive 应用示例,几个经典hive结构表就创建好了 查看示例表,发现customers表结构很适合作为分区表,里面的address字段里面的state(州)很适合做分区处理,但是customers并不是...
2019-05-09 16:43 3625 0
1 基本操作 备注:写错 HBase Shell 命令时将光标移动到你要删除的字符上,按下‘Backspace’或者‘Delete’删除,一定要注意Hbase Shell里面删除是删除光标后面的字符,跟linux操作完全相反,一定要注意,刚开始会很不习惯 1.1 成功启动HBase之后,想要使用HBase Shell ,得输入命令行:hbase shell 并且控制台成功打印以下信息: 1.2 输入help...
2019-05-08 17:36 3783 0
26、查询每门课程被选修的学生数: select a.c_id,a.c_name,count(b.s_score) num_course from course a join score b on a.c_id = b.c_id group by a.c_id,a.c_name 27、查询出只有两门课程的全部学生的学号和姓名: select b.s_id,a.s_name,count(b.c_id) num_course from student a join score b on a.s_id = b.s_id group by b.s_id,...
2019-05-08 15:39 3856 0
搜集了50个经典SQL语句,以便加强对Hive的理解,包含了基本操作,UDF函数,以及很多常用统计函数,与mySQL写法有一定差别,用来做HQL练习 1.数据准备 home目录下新建data文件夹存放准备数据 mkdir data 创建student数据文本 vi student.txt 添加如下数据: 01 赵雷 1990-01-01 男 02 钱电 1990-12-21 男 03 孙风 ...
2019-05-07 17:35 4288 1
1.Hbase简介 HBase 是 BigTable 的开源 java 版本。是建立在 HDFS 之上,提供高可靠性、高性能、列存储、 可伸缩、实时读写 NoSQL 的数据库系统 2.Hbase特点 HBase线性可扩展。 它具有自动故障支持。 它提供了一致的读取和写入。 它集成了Hadoop,作为源和目的地。 客户端方便的Java API。 它提供了跨集群数据复制。 3.角色分配 Hbase角色分...
2019-05-06 17:14 3188 0
1.CDH集群里面的Hive角色分配及作用 如图所示,Hive主要有三个角色:HiveServer2、Metastore Server、以及代理角色Gateway 主要两个服务端守护进程: 1、Hiveserver2:支撑JDBC访问,Thrift服务,部署在masternode3节点。 2、MetaStore Server:支撑访问元数据库的服务,部署在toolnode1节点。 2.Hive内核结构 Complier:编译器,编译hql语法。 ...
2019-05-06 15:37 4960 0
Sqoop服务添加 Sqoop版本选择 CDH自带两个版本sqoop组件 这里选择1.4.6版本也就是sqoop1,1.99.5版本是sqoop2,是半成品,不支持关系型DB到Hive跟Hbase,故不推荐使用 Sqoop导入mySql数据到Hive操作 1、测试MySQL连接 sqoop list-databases --connect jdbc:mysql://192.168.20.160/test --username root --password 111111 2、检验SQL语句 sqo...
2019-05-06 15:13 5118 0
1、添加spark服务 设置masternode3为HistoryServer其他主机为代理 角色分配图: 2、配置Spark服务范围 3、配置Yarn Yarn需要配置两个参数:yarn.nodemanager.resource.cpu-vcores和yarn.nodemanager.resource.memory-mb。yarn.nodemanager.resource.cpu-vcores代表可以为container分配的CPU 内核的数量。yarn.nodemanager.resource.memory-mb代...
2019-05-06 14:38 4364 0
1、 主机分配 以七台测试虚拟机为例: 七台主机名分别为:cm、master1、master2、master3、node1、node2、node3 对应的ip为:192.168.138.141 ——192.168.138.147 2、修改静态IP 因为除cm外都是克隆虚拟机机,所以首先要解决克隆机的静态IP跟主机名更改问题,更改cm为例: vi /etc/udev/rules.d/70-persistent-net.rules 删除eth0的驱动,...
2019-05-06 13:59 3277 0