签到成功

CNDBA社区

文章
问题
存档

CDH Hive集成Hbase

1.背景 Hive是建立在Hadoop之上的数据仓库基础构架、是为了减少MapReduce编写工作的批处理系统，Hive本身不存储和计算数据，它完全依赖于HDFS和MapReduce。 Hive可以理解为一个客户端工具，将我们的sql操作转换为相应的MapReduce jobs，然后在Hadoop上面运行。 HBase全称为Hadoop Database，即HBase是Hadoop的数据库，是一个分布式的存储系统。H...

2019-05-16 11:55 4379 0
CDH常用优化配置项

搜集了CDH常用的hive配置可进行优化的配置项 1.hive.metastore.warehouse.dir Hive 仓库目录是在 HDFS 中存储 Hive 表格的位置。注意此仓库目录的 Hive 默认值为“/user/hive/warehouse”。 2.hive.warehouse.subdir.inherit.perms 让表目录继承仓库或数据库目录的权限，替代使用从 dfs umask 派生权限创建。该操作允许通过 Hive 将 Impala 插入...

2019-05-13 17:45 5000 0
Hive索引的创建与性能测试

 简介 Hive支持索引，但是Hive的索引与关系型数据库中的索引并不相同，比如，Hive不支持主键或者外键。 Hive索引可以建立在表中的某些列上，以提升一些操作的效率，例如减少MapReduce任务中需要读取的数据块的数量。在可以预见到分区数据非常庞大的情况下，索引常常是优于分区的。需要时刻记住的是，Hive并不像事物数据库那样针对个别的行来执...

2019-05-10 17:10 4611 0
Hive动态分区表的学习测试与总结

 数据准备因为创建可以分区的数据表结构很繁琐，所以我直接使用了CDH hue自带的hive测试数据customers表创建步骤，进入hue web 页面，在导航栏提示第二步的时候，创建hive 应用示例，几个经典hive结构表就创建好了查看示例表，发现customers表结构很适合作为分区表，里面的address字段里面的state（州）很适合做分区处理，但是customers并不是...

2019-05-09 16:43 4023 0
Hive经典HQL语句练习（二）

26、查询每门课程被选修的学生数: select a.c_id,a.c_name,count(b.s_score) num_course from course a join score b on a.c_id = b.c_id group by a.c_id,a.c_name 27、查询出只有两门课程的全部学生的学号和姓名: select b.s_id,a.s_name,count(b.c_id) num_course from student a join score b on a.s_id = b.s_id group by b.s_id,...

2019-05-08 15:39 4217 0
Hive经典HQL语句练习（一）

搜集了50个经典SQL语句，以便加强对Hive的理解，包含了基本操作，UDF函数，以及很多常用统计函数，与mySQL写法有一定差别，用来做HQL练习 1.数据准备 home目录下新建data文件夹存放准备数据 mkdir data 创建student数据文本 vi student.txt 添加如下数据： 01 赵雷 1990-01-01 男 02 钱电 1990-12-21 男 03 孙风 ...

2019-05-07 17:35 4642 1

1 共1页第页 GO

lirui

lirui

15
原创
0
翻译
0
转载
1
评论

访问：68657次
积分：56
等级：注册会员
排名：第39名

加关注

文章分类

阅读排行

评论排行

文章存档

最新评论

友情链接： CNDBA社区 | openGauss | openEuler | openAnolis | 广告联系: database@ustc.edu

Copyright © 2016 All Rights Reserved. Powered by CNDBA · 皖ICP备2022006297号-1·