签到成功

知道了

CNDBA社区CNDBA社区

Pig 安装 与 运行

2019-03-10 13:21 2255 0 转载 Pig
作者: dave

在上篇了解了Pig的概念,如下:

Pig 概念 与 架构
https://www.cndba.cn/dave/article/3342

本篇学习一下Pig的安装和运行。

1 搭建Hadoop 集群环境

Pig的运行依赖与HDFS,所以在安装Pig之前先安装Hadoop:

Linux 7.6 平台 Hadoop 3.1.1 集群搭建手册
https://www.cndba.cn/download/dave/6

2 安装Pig

2.1 下载Spark

直接从官方下载:

http://pig.apache.org/
https://mirrors.tuna.tsinghua.edu.cn/apache/pig/latest/pig-0.17.0.tar.gz

2.2 解压缩文件

[hadoop@hadoopMaster ~]$ tar xzvf pig-0.17.0.tar.gz
[hadoop@hadoopMaster ~]$ mv pig-0.17.0 pig

2.3 修改环境变量

在/etc/profile文件中添加如下内容:

#Pig
export PIG_HOME=/home/hadoop/pig
export PATH=$PATH:$PIG_HOME/bin
export PIG_CLASSPATH=$HADOOP_HOME/conf

2.4 验证安装

[hadoop@hadoopMaster ~]$ pig -version
SLF4J: Failed to load class "org.slf4j.impl.StaticLoggerBinder".
SLF4J: Defaulting to no-operation (NOP) logger implementation
SLF4J: See http://www.slf4j.org/codes.html#StaticLoggerBinder for further details.
Apache Pig version 0.17.0 (r1797386) 
compiled Jun 02 2017, 15:41:58
[hadoop@hadoopMaster ~]$

3 Pig 执行

3.1 Apache Pig执行模式

Apache Pig有两种模式运行,即Local(本地)模式和HDFS模式。

3.1.1 Local模式

在此模式下,所有文件都从本地主机和本地文件系统安装和运行,不需要Hadoop或HDFS。此模式通常用于测试目的。

3.1.2 MapReduce模式

MapReduce模式是我们使用Apache Pig加载或处理Hadoop文件系统(HDFS)中存在的数据的地方。在这种模式下,每当我们执行Pig Latin语句来处理数据时,会在后端调用一个MapReduce作业,以对HDFS中存在的数据执行特定的操作。http://www.cndba.cn/cndba/dave/article/3343

3.2 Apache Pig执行机制

Apache Pig脚本可以通过三种方式执行,即交互模式,批处理模式和嵌入式模式。

  • 1.交互模式(Grunt shell) -可以使用Grunt shell以交互模式运行Apache Pig。在此shell中,可以输入Pig Latin语句并获取输出(使用Dump运算符)。
  • 2.批处理模式(脚本) - 可以通过将Pig Latin脚本写入具有 .pig 扩展名的单个文件中,以批处理模式运行Apache Pig。
  • 3.嵌入式模式(UDF) - Apache Pig允许在Java等编程语言中定义我们自己的函数(UDF用户定义函数),并在脚本中使用它们。

3.3 调用Grunt Shell

可以使用“-x”选项以所需的模式(local/MapReduce)调用Grunt shell,如下所示。

Local模式:

[hadoop@hadoopMaster ~]$ pig -x local
SLF4J: Failed to load class "org.slf4j.impl.StaticLoggerBinder".
SLF4J: Defaulting to no-operation (NOP) logger implementation
SLF4J: See http://www.slf4j.org/codes.html#StaticLoggerBinder for further details.
2019-03-10 12:59:59,777 INFO pig.ExecTypeProvider: Trying ExecType : LOCAL
2019-03-10 12:59:59,779 INFO pig.ExecTypeProvider: Picked LOCAL as the ExecType
2019-03-10 12:59:59,851 [main] INFO  org.apache.pig.Main - Apache Pig version 0.17.0 (r1797386) compiled Jun 02 2017, 15:41:58
2019-03-10 12:59:59,851 [main] INFO  org.apache.pig.Main - Logging error messages to: /home/hadoop/pig_1552193999849.log
2019-03-10 12:59:59,893 [main] INFO  org.apache.pig.impl.util.Utils - Default bootup file /home/hadoop/.pigbootup not found
2019-03-10 13:00:00,054 [main] INFO  org.apache.pig.backend.hadoop.executionengine.HExecutionEngine - Connecting to hadoop file system at: file:///
2019-03-10 13:00:00,334 [main] INFO  org.apache.pig.PigServer - Pig Script ID for the session: PIG-default-38fa41b6-d13a-45ee-b80c-2c3da490d4c3
2019-03-10 13:00:00,334 [main] WARN  org.apache.pig.PigServer - ATS is disabled since yarn.timeline-service.enabled set to false
grunt>

MapReduce 模式:

[hadoop@hadoopMaster ~]$ pig -x mapreduce
SLF4J: Failed to load class "org.slf4j.impl.StaticLoggerBinder".
SLF4J: Defaulting to no-operation (NOP) logger implementation
SLF4J: See http://www.slf4j.org/codes.html#StaticLoggerBinder for further details.
2019-03-10 13:00:50,683 INFO pig.ExecTypeProvider: Trying ExecType : LOCAL
2019-03-10 13:00:50,684 INFO pig.ExecTypeProvider: Trying ExecType : MAPREDUCE
2019-03-10 13:00:50,685 INFO pig.ExecTypeProvider: Picked MAPREDUCE as the ExecType
2019-03-10 13:00:50,743 [main] INFO  org.apache.pig.Main - Apache Pig version 0.17.0 (r1797386) compiled Jun 02 2017, 15:41:58
2019-03-10 13:00:50,743 [main] INFO  org.apache.pig.Main - Logging error messages to: /home/hadoop/pig_1552194050742.log
2019-03-10 13:00:50,773 [main] INFO  org.apache.pig.impl.util.Utils - Default bootup file /home/hadoop/.pigbootup not found
2019-03-10 13:00:51,199 [main] INFO  org.apache.pig.backend.hadoop.executionengine.HExecutionEngine - Connecting to hadoop file system at: hdfs://192.168.56.100:9000
2019-03-10 13:00:51,942 [main] INFO  org.apache.pig.PigServer - Pig Script ID for the session: PIG-default-1242940f-38ee-4c36-b86d-9a18ba9717bf
2019-03-10 13:00:51,942 [main] WARN  org.apache.pig.PigServer - ATS is disabled since yarn.timeline-service.enabled set to false
grunt>

这两个命令都给出了Grunt shell提示符,在调用Grunt shell之后,可以通过直接输入Pig中的Pig Latin语句来执行Pig脚本。

grunt> customers = LOAD ‘customers.txt’ USING PigStorage(‘,’);

http://www.cndba.cn/cndba/dave/article/3343

3.4 在批处理模式下执行Apache Pig

可以在文件中编写整个Pig Latin脚本,并使用 -x command 执行它。假设在 sample_script.pig 的文件中有一个Pig脚本,如下所示。

student = LOAD 'hdfs://localhost:9000/pig_data/student.txt' USING
   PigStorage(',') as (id:int,name:chararray,city:chararray);
Dump student;

Local模式:

$ pig -x local Sample_script.pig

MapReduce模式:

$ pig -x mapreduce Sample_script.pig

4 Pig Grunt Shell

调用Grunt shell后,可以在shell中运行Pig脚本。除此之外,还有由Grunt shell提供的一些有用的shell和实用程序命令。

4.1 Shell 命令

Apache Pig的Grunt shell主要用于编写Pig Latin脚本。在此之前,我们可以使用 sh 和 fs 来调用任何shell命令。

4.1.1 sh 命令

使用 sh 命令,可以从Grunt shell调用任何shell命令,但无法执行作为shell环境( ex - cd)一部分的命令。
语法
下面给出了 sh 命令的语法。

grunt> sh shell command parameters

示例:
可以使用 sh 选项从Grunt shell中调用Linux shell的 ls 命令,如下所示。在此示例中,它列出了 /pig/bin/ 目录中的文件。

grunt> sh ls
ahdba.txt
apache-hive-3.1.1-bin.tar.gz
current_dept_emp.java
dave.txt
departments.java
grunt>

4.1.2 fs命令

使用 fs 命令,可以从Grunt shell调用任何FsShell命令。
语法:http://www.cndba.cn/cndba/dave/article/3343

grunt> sh File System command parameters

示例:可以使用fs命令从Grunt shell调用HDFS的ls命令。它列出了HDFS根目录中的文件。

grunt> fs -ls
Found 8 items
drwxr-xr-x   - hadoop supergroup          0 2019-03-09 21:51 -
drwxr-xr-x   - hadoop supergroup          0 2019-03-03 01:31 _sqoop
drwxr-xr-x   - hadoop supergroup          0 2019-03-03 01:54 current_dept_emp
drwxr-xr-x   - hadoop supergroup          0 2019-03-03 01:55 departments
drwxr-xr-x   - hadoop supergroup          0 2019-03-03 01:55 dept_emp
drwxr-xr-x   - hadoop supergroup          0 2019-03-03 01:56 dept_emp_latest_date
drwxr-xr-x   - hadoop supergroup          0 2019-03-03 01:56 dept_manager
drwxr-xr-x   - hadoop supergroup          0 2019-03-03 00:43 employees
grunt>

4.2 实用程序命令

Grunt shell提供了一组实用程序命令。这些包括诸如clear,help,history,quit和set等实用程序命令;以及Grunt shell中诸如 exec,kill和run等命令来控制Pig。下面给出了Grunt shell提供的实用命令的描述。

4.2.1 clear命令

clear 命令用于清除Grunt shell的屏幕。

grunt> clear

4.2.2 help命令

help 命令提供了Pig命令或Pig属性的列表。http://www.cndba.cn/cndba/dave/article/3343

grunt> help

4.2.3 history命令

此命令显示自Grunt shell被调用以来执行/使用的语句的列表。

grunt> historyhttp://www.cndba.cn/cndba/dave/article/3343

4.2.4 set命令

set 命令用于向Pig中使用的key显示/分配值。使用此命令,可以将值设置到以下key。

Key 说明和值
default_parallel 通过将任何整数作为值传递给此key来设置映射作业的reducer数。
debug 关闭或打开Pig中的调试功能通过传递on/off到这个key。
job.name 通过将字符串值传递给此key来将作业名称设置为所需的作业。
job.priority 通过将以下值之一传递给此key来设置作业的优先级:
very_low
low
normal
high
very_high
stream.skippath 对于流式传输,可以通过将所需的路径以字符串形式传递到此key,来设置不传输数据的路径。

4.2.5 quit命令

使用此命令从Grunt shell退出。

grunt> quit

4.2.6 exec命令

使用 exec 命令,我们可以从Grunt shell执行Pig脚本。
语法
下面给出了实用程序命令 exec 的语法。

grunt> exec [–param param_name = param_value] [–param_file file_name] [script]

假设在HDFS的 /pig_data/ 目录中有一个名为 student.txt 的文件,其中包含以下内容。

Student.txt
001,Rajiv,Hyderabad
002,siddarth,Kolkata
003,Rajesh,Delhi

并且我们在HDFS的 /pig_data/ 目录中有一个名为 sample_script.pig 的脚本文件,并具有以下内容。

http://www.cndba.cn/cndba/dave/article/3343

Sample_script.pig
student = LOAD 'hdfs://localhost:9000/pig_data/student.txt' USING PigStorage(',') 
   as (id:int,name:chararray,city:chararray);

Dump student;

现在,使用 exec 命令从Grunt shell中执行上面的脚本,如下所示。

http://www.cndba.cn/cndba/dave/article/3343
http://www.cndba.cn/cndba/dave/article/3343

grunt> exec /sample_script.pig

输出
exec 命令执行 sample_script.pig 中的脚本。按照脚本中的指示,它会将 student.txt 文件加载到Pig中,并显示Dump操作符的结果,显示以下内容。

(1,Rajiv,Hyderabad)
(2,siddarth,Kolkata)
(3,Rajesh,Delhi)

4.2.7 kill命令

使用此命令从Grunt shell中终止一个作业。

grunt> kill JobId

示例,假设有一个具有id Id_0055 的正在运行的Pig作业,使用 kill 命令从Grunt shell中终止它,如下所示。

grunt> kill Id_0055

4.2.8 run命令

使用run命令从Grunt shell运行Pig脚本
语法:

grunt> run [–param param_name = param_value] [–param_file file_name] script

http://www.cndba.cn/cndba/dave/article/3343

假设在HDFS的 /pig_data/ 目录中有一个名为 student.txt 的文件,其中包含以下内容。

Student.txt
001,Rajiv,Hyderabad
002,siddarth,Kolkata
003,Rajesh,Delhi

并且我们在本地文件系统中有一个名为 sample_script.pig 的脚本文件,并具有以下内容。

Sample_script.pig
student = LOAD 'hdfs://localhost:9000/pig_data/student.txt' USING
   PigStorage(',') as (id:int,name:chararray,city:chararray);

现在使用run命令从Grunt shell运行上面的脚本,如下所示。

grunt> run /sample_script.pig

你可以使用Dump操作符查看脚本的输出,如下所示。

http://www.cndba.cn/cndba/dave/article/3343

grunt> Dump;

(1,Rajiv,Hyderabad)
(2,siddarth,Kolkata)
(3,Rajesh,Delhi)

注意:
exec 和 run 命令之间的区别是,如果使用run,则脚本中的语句在history命令中可用。

用户评论
* 以下用户言论只代表其个人观点,不代表CNDBA社区的观点或立场
dave

dave

关注

人的一生应该是这样度过的:当他回首往事的时候,他不会因为虚度年华而悔恨,也不会因为碌碌无为而羞耻;这样,在临死的时候,他就能够说:“我的整个生命和全部精力,都已经献给世界上最壮丽的事业....."

  • 2262
    原创
  • 3
    翻译
  • 578
    转载
  • 192
    评论
  • 访问:8066941次
  • 积分:4349
  • 等级:核心会员
  • 排名:第1名
精华文章
    最新问题
    查看更多+
    热门文章
      热门用户
      推荐用户
        Copyright © 2016 All Rights Reserved. Powered by CNDBA · 皖ICP备2022006297号-1·

        QQ交流群

        注册联系QQ