首先了解Hive、Spark的基本概念:

从大数据生态到大数据生态

广义上,是指围绕其构建的大数据生态系统。

对应三驾马车:HDFS对应GFS,分布式文件系统,也就是并行计算框架,HBase对应分布式NoSQL列式数据库,加上分布式锁设施。

hive和MySQL的区别_hive_hive官网

发展历程:

“文件”: 分布式文件系统 GFS

“:大数据”: 分布式计算框架

“:A for Data”:结构化数据存储系统

种类:

①.x时代,在同时处理业务逻辑操作和资源调度时,耦合性比较大。

② .x时代,增加了Yarn。 Yarn只负责资源调度和计算。

③ .x的组成没有变化。

现状:

HDFS作为分布式文件存储系统,处于生态系统的底层和核心;

YARN作为分布式、通用的集群资源管理系统和任务调度平台,支持各种计算引擎的运行并保证其状态;

作为大数据生态中的第一代分布式计算引擎,由于其自​​身设计模型的缺陷,一线企业几乎不再直接使用它进行编程处理。 然而,很多软件的底层仍然使用引擎来处理数据。

大数据技术生态系统

hive和MySQL的区别_hive官网_hive

来源网络| 入侵与删除

Sqoop:Sqoop是一个开源工具,主要用于Hive和传统数据库(MySQL)之间传输数据。 它可以将数据从关系数据库(例如:MySQL等)导入到HDFS中。 其中,HDFS数据也可以导入到关系型数据库中。

Flume:Flume是一个高可用、高可靠的分布式系统,用于收集、聚合和传输海量日志。 Flume支持自定义日志系统中的各种数据发送器进行数据采集;

Kafka:Kafka是一个高吞吐量的分布式发布订阅消息系统

Spark:Spark是目前最流行的开源大数据内存计算框架。 计算可以基于互联网上存储的大数据。

Flink:Flink是目前最流行的开源大数据内存计算框架。 实时计算的场景有很多。

Oozie:Oozie 是一个管理作业的工作流调度管理系统。

Hbase:HBase是一个分布式、面向列的开源数据库。 HBase与一般关系型数据库的不同之处在于,它是适合非结构化数据存储的数据库。

Hive:Hive是基于Hive的数据仓库工具,可以将结构化数据文件映射成数据库表,并提供简单的SQL查询功能,可以将SQL语句转换成任务来运行。 其优点是学习成本低,通过类SQL语句即可快速实现简单的统计,无需开发专门的应用程序。 非常适合数据仓库的统计分析。

:是大规模分布式系统的可靠协调系统。 提供的功能包括:配置维护、名称服务、分布式同步、群组服务等。

附件:官方文档内容

好了,今天的主题就讲到这里吧,不管如何,能帮到你我就很开心了,如果您觉得这篇文章写得不错,欢迎点赞和分享给身边的朋友。

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注