《大数据开发项目实战》实验

一、Hive应用实践: 实践环境: 1、使用ubuntu-22.04的Linux操作系统。下载地址: https://releases.ubuntu.com/22.04/ubuntu-22.04.5-desktop-amd64.iso 2、使用JDK 1.8。 3、使用hadoop-3.3.0的搭建

一、Hive应用实践:

实践环境:

1、使用ubuntu-22.04的Linux操作系统。下载地址:

https://releases.ubuntu.com/22.04/ubuntu-22.04.5-desktop-amd64.iso

2、使用JDK 1.8。

3、使用hadoop-3.3.0的搭建4个节点的集群(其中包含1个主节点和3个从节点)。

4、使用apache-hive-3.1.2-bin版本的Hive

二、作业实践内容:

1、现有一份航空公司客户价值数据文件air_data_base.txt,一个客户的信息为一行数据。

2、要求对该数据进行数据探索分析,统计SUM_YR_1(观测窗口的票价收入)、SEG_KM_SUM(观测窗口的总飞行千米数)、AVG_DISCOUNT(平均折扣率)3个字段的空值记录数及最小值。

对数据进行数据清洗,对数据中存在的缺失值、票价为0或平均折扣率为0的数据等进行丢弃处理。

对数据进行属性规约,根据航空公司客户价值LRFMC模型,选择与LRFMC指标相关的6个字段:FFP_DATE、LOAD_TIME、FLIGHT_COUNT、AVG_DISCOUNT、SEG_KM_SUM、LAST_TO_END。

3、对数据进行数据转换,构造LRFMC的5个指标,并统计5个指标的取值范围。其中,5个指标分别如下。

会员入会时间距离观测窗口结束的月数=观测窗口的结束时间-入会时间 [单位:月],即L = LOAD_TIME - FFP_DATE。

客户最近一次乘坐公司飞机距观测窗口结束的月数 = 最后一次乘机时间至观测窗口末端时长 [单位:月],即R = LAST_TO_END。

客户在观测窗口内乘坐公司飞机的次数 = 观测窗口的飞行次数 [单位:次],即F = FLIGHT_COUNT。

客户在观测时间内在公司累计的飞行里程 = 观测窗口总飞行千米数 [单位:千米],即M = SEG_KM_SUM。

客户在观测时间内乘坐舱位所对应的折扣率的平均值 = 平均折扣率,即C = AVG_DISCOUNT。

三、实践步骤:

1、将文件air_data_base.txt通过Xshell的文件资源管理器上传到master节点的/opt/data目录下,若目录不存在,则执行命令“mkdir -p /opt/data”进行创建目录操作。

2、启动Hive前,先启动Hadoop集群和开启MySQL服务,然后执行命令“hive --service metastore &”启动Hive服务,再执行命令“hive”以进入Hive。

3、创建Hive数据表前应通过执行“create database”命令创建数据库,并在数据库中进行表的创建等操作。

4、创建表后,需将数据导入air_data_base表,数据导入完成后可通过执行“select”命令查询air_data_base表的内容。

LICENSED UNDER CC BY-NC-SA 4.0
Comment