当前位置:首页 > 开发 > 编程语言 > 大数据 > 正文

Hadoop(二)对话单的操作

发表于: 2015-07-13   作者:朱辉辉33   来源:转载   浏览:
摘要: Debug: 1、 A = LOAD '/user/hue/task.txt' USING PigStorage(' ') AS (col1,col2,col3); DUMP A; //输出结果前几行示例: (>ggsnPDPRecord(21),,) (-->recordType(0),,) (-->networkInitiation(1),,)
Debug:

1、

A = LOAD '/user/hue/task.txt' USING PigStorage(' ')
AS (col1,col2,col3);
DUMP A;

//输出结果前几行示例:
(>ggsnPDPRecord(21),,)
(-->recordType(0),,)
(-->networkInitiation(1),,)
(-->servedIMSI(3),,)
(-->ggsnAddress(4),,)
(---->iPTextV4Address(2),,)
//只显示了第一列,后面两列是空的,因为第一列和第二、三列之间间隔多个空格

2、

A = LOAD '/user/hue/task.txt' USING PigStorage(',')
AS (col1,col2,col3);
DUMP A;

//输出结果前几行示例:
(>ggsnPDPRecord(21),,)
(-->recordType(0)    value: ggsnPDPRecord(19),,)
(-->networkInitiation(1)    value: false(0),,)
(-->servedIMSI(3)    value: 0x460026676534541f,,)
(-->ggsnAddress(4),,)
(---->iPTextV4Address(2)    value: 221.177.57.165,,)
(-->chargingID(5)    value: 1192448557,,)
//因为数据中没有逗号,所以每一行只是一个字段显示

3、尝试查找“-->servedIMSI(3)”

A = LOAD '/user/hue/task.txt' USING PigStorage(':')    --划分方式为引号
AS (col1,col2);     --划分为两个字段
B = FILTER A BY col1 matches'-->servedIMSI(3)    value';
DUMP B;   

//成功运行,但是没有输出结果  

4、

A = LOAD '/user/hue/task.txt' USING PigStorage(':')    --划分方式为引号
AS (col1,col2);     --划分为两个字段
B = FILTER A BY col1 == '-->servedIMSI(3)    value';
DUMP B;  --STORE B INTO 'output/IMSI.csv';可以另存

//成功输出了servedIMSI(3)相关的内容

A = LOAD '/user/hue/task.txt' USING PigStorage(':')    --划分方式为引号
AS (col1,col2);     --划分为两个字段
B = FILTER A BY col1 == '-->chargingID(5)    value';
STORE B INTO 'output/chargingID.csv';

//成功导出chargingID(5)

A = LOAD '/user/hue/task.txt' USING PigStorage(':')    --划分方式为引号
AS (col1,col2);     --划分为两个字段
B = FILTER A BY col1 == '-->recordOpeningTime(13)    value';
STORE B INTO 'output/recordOpeningTime.csv';

//导出-->recordOpeningTime(13)

A = LOAD '/user/hue/task.txt' USING PigStorage(':')    --划分方式为引号
AS (col1,col2);     --划分为两个字段
B = FILTER A BY col1 == '-->duration(14)    value';
STORE B INTO 'output/duration.csv';

//导出-->duration(14)

A = LOAD '/user/hue/task.txt' USING PigStorage(':')    --划分方式为引号
AS (col1,col2);     --划分为两个字段
B = FILTER A BY col1 == '-->nodeID(18)    value';
STORE B INTO 'output/nodeID.csv';

//导出-->nodeID(18)

5、取出IMEISV的数据(含空格)

A = LOAD '/user/hue/task.txt' USING PigStorage(':')    --划分方式为引号
AS (col1,col2);     --划分为两个字段
B = FILTER A BY col1 == '-->servedIMEISV(29)    value';
C = FOREACH B GENERATE col2; --取第二个字段
DUMP C;--STORE C INTO 'output/IMEISV_2.csv';

6、取出IMEISV的数据(不含空格)

A = LOAD '/user/hue/output/IMEISV_2.csv' USING PigStorage(' ')    --划分方式为引号
AS (col1,col2);     --划分为两个字段
B = FILTER A BY col1 == '-->servedIMEISV(29)    value';
C = FOREACH B GENERATE col1; --取第一个字段
STORE C INTO 'output/IMEISV.csv';

//无论取字段一还是字段二,取出来的都是空

A = LOAD '/user/hue/output/IMEISV_2.csv' AS(col1);
B = FOREACH A GENERATE CONCAT('1', (chararray)col1);
STORE B INTO 'output/IMEISV_1.csv';

//在每一行字段前面加上一个1

A = LOAD '/user/hue/output/IMEISV_1.csv' USING PigStorage(' ') AS(col1,col2);
B = FOREACH A GENERATE col2;
STORE B INTO 'output/IMEISV.csv';

//取出正式的数据

_整理____________________________________________________________________________________________

step1

A = LOAD '/user/hue/task.txt' USING PigStorage(':')    --划分方式为引号
AS (col1,col2);     --划分为两个字段
B = FILTER A BY col1 == '-->servedIMEISV(29)    value';
C = FOREACH B GENERATE col2; --取第二个字段
STORE C INTO 'output/IMEISV_2.csv';

step2

A = LOAD '/user/hue/output/IMEISV_2.csv' AS(col1);
B = FOREACH A GENERATE CONCAT('1', (chararray)col1);
STORE B INTO 'output/IMEISV_1.csv';

step3

A = LOAD '/user/hue/output/IMEISV_1.csv' USING PigStorage(' ') AS(col1,col2);
B = FOREACH A GENERATE col2;
STORE B INTO 'output/IMEISV.csv';

________________________________________________________________________________________________

7、

A = LOAD '/user/hue/output/IMEISV.csv' AS (col);
B = FOREACH A GENERATE SUBSTRING(col,2,8);
DUMP B;
STORE B INTO '/user/hue/output/sixnumber.csv';

//截取了前3-9位

Hadoop(二)对话单的操作

  • 0

    开心

    开心

  • 0

    板砖

    板砖

  • 0

    感动

    感动

  • 0

    有用

    有用

  • 0

    疑问

    疑问

  • 0

    难过

    难过

  • 0

    无聊

    无聊

  • 0

    震惊

    震惊

我来说两句
评论内容:
验  证  码:
 
(网友评论仅供其表达个人看法,并不表明本站同意其观点或证实其描述。)
评论列表
已有 0 条评论(查看更多评论)
编辑推荐
2.2. OWC组件 1、 OWC组建在Web页面的展现方法; A、将OWC中Sheet导出为本地Excel文件,再将导出的
单客户端,顾名思义,就是客户端只有一个用户去访问服务器,然后服务器根据该客户请求返回信息,先
本系列文章由 @YhL_Leo 出品,转载请注明出处。 文章链接: http://blog.csdn.net/yhl_leo/article/
本人的个人博客为: www.ourd3js.com csdn博客为: blog.csdn.net/lzhlzz 转载请注明出处,谢谢。
首先来了解一下HDFS的一些基本特性 HDFS设计基础与目标 硬件错误是常态。因此需要冗余 流式数据访问
首先来了解一下HDFS的一些基本特性 HDFS设计基础与目标 硬件错误是常态。因此需要冗余 流式数据访问
前提和设计目标 硬件错误 硬件错误是常态而不是异常。HDFS可能由成百上千的服务器所构成,每个服务
单链表: 1 2 3 4 5 6 1.设计节点 typedef int datatype; typedef struct node { datatype data; str
1、启动hadoop工程 2、eclipse导入插件 将hadoop-eclipse-plugin-2.6.0.jar插件导入eclipse中,重启
1. Hadoop集群介绍 Hadoop集群部署,就是以Cluster mode方式进行部署。 Hadoop的节点构成如下: HDF
版权所有 IT知识库 CopyRight © 2009-2015 IT知识库 IT610.com , All Rights Reserved. 京ICP备09083238号