1.背景 Hive是建立在Hadoop之上的数据仓库基础构架、是为了减少MapReduce编写工作的批处理系统,Hive本身不存储和计算数据,它完全依赖于HDFS和MapReduce。 Hive可以理解为一个客户端工具,将我们的sql操作转换为相应的MapReduce jobs,然后在Hadoop上面运行。 HBase全称为Hadoop Database,即HBase是Hadoop的数据库,是一个分布式的存储系统。H...
2019-05-16 11:55 3874 0
搜集了CDH常用的hive配置可进行优化的配置项 1.hive.metastore.warehouse.dir Hive 仓库目录是在 HDFS 中存储 Hive 表格的位置。注意此仓库目录的 Hive 默认值为“/user/hive/warehouse”。 2.hive.warehouse.subdir.inherit.perms 让表目录继承仓库或数据库目录的权限,替代使用从 dfs umask 派生权限创建。该操作允许通过 Hive 将 Impala 插入...
2019-05-13 17:45 4472 0
简介 Hive支持索引,但是Hive的索引与关系型数据库中的索引并不相同,比如,Hive不支持主键或者外键。 Hive索引可以建立在表中的某些列上,以提升一些操作的效率,例如减少MapReduce任务中需要读取的数据块的数量。 在可以预见到分区数据非常庞大的情况下,索引常常是优于分区的。 需要时刻记住的是,Hive并不像事物数据库那样针对个别的行来执...
2019-05-10 17:10 4209 0
数据准备 因为创建可以分区的数据表结构很繁琐,所以我直接使用了CDH hue自带的hive测试数据customers表 创建步骤,进入hue web 页面,在导航栏提示第二步的时候,创建hive 应用示例,几个经典hive结构表就创建好了 查看示例表,发现customers表结构很适合作为分区表,里面的address字段里面的state(州)很适合做分区处理,但是customers并不是...
2019-05-09 16:43 3625 0
26、查询每门课程被选修的学生数: select a.c_id,a.c_name,count(b.s_score) num_course from course a join score b on a.c_id = b.c_id group by a.c_id,a.c_name 27、查询出只有两门课程的全部学生的学号和姓名: select b.s_id,a.s_name,count(b.c_id) num_course from student a join score b on a.s_id = b.s_id group by b.s_id,...
2019-05-08 15:39 3856 0
搜集了50个经典SQL语句,以便加强对Hive的理解,包含了基本操作,UDF函数,以及很多常用统计函数,与mySQL写法有一定差别,用来做HQL练习 1.数据准备 home目录下新建data文件夹存放准备数据 mkdir data 创建student数据文本 vi student.txt 添加如下数据: 01 赵雷 1990-01-01 男 02 钱电 1990-12-21 男 03 孙风 ...
2019-05-07 17:35 4288 1