在上篇我们了解了Spark相关的基本概念,如下: Spark 基本架构和原理 https://www.cndba.cn/dave/article/3340 本篇我们学习一下Spark集群的安装。 1 搭建Hadoop 集群环境 Spark的运行以来与HDFS和Zookeeper,关于这2个组件的安装和配置参考如下博客: Linux 7.6 平台 Hadoop 3.1.1 集群搭建手册 https://www.cndba.cn/download/dave/6 Zookeepe...
2019-03-10 02:43 2808 0
Apache Spark是一个围绕速度、易用性和复杂分析构建的大数据处理框架,最初在2009年由加州大学伯克利分校的AMPLab开发,并于2010年成为Apache的开源项目之一,与Hadoop和Storm等其他大数据和MapReduce技术相比,Spark有如下优势: 1) Spark提供了一个全面、统一的框架用于管理各种有着不同性质(文本数据、图表数据等)的数据集和数据源(批...
2019-03-10 02:02 2649 0
1. Hadoop 概述 直接比较Hadoop和Spark有难度,因为它们处理的许多任务都一样,但是在一些方面又并不相互重叠。 比如说,Spark没有文件管理功能,因而必须依赖Hadoop分布式文件系统(HDFS)或另外某种解决方案。 Hadoop框架的主要模块包括如下: Hadoop Common Hadoop分布式文件系统(HDFS) Hadoop YARN Hadoop MapReduce 虽然上述四个模块构成了Ha...
2019-01-19 18:00 2339 0
人的一生应该是这样度过的:当他回首往事的时候,他不会因为虚度年华而悔恨,也不会因为碌碌无为而羞耻;这样,在临死的时候,他就能够说:“我的整个生命和全部精力,都已经献给世界上最壮丽的事业....."
ACE 搜索
中国ORACLE用户组
中国DBA联盟(ACDU)· 核心伙伴
墨天轮 · MVP
CNDBA_2: 142216823(2k群)
CNDBA_3: 283816689(2k群)
CNDBA_4: 391125754
CNDBA_5: 104207940
CNDBA_6: 62697977