hive官网_hive是什么意思_hive

蜂巢简介

1.什么是蜂巢

Hive是基于Hive的数据仓库工具,可以将结构化数据文件映射到数据库表中,并提供类似SQL的查询功能。

其本质是将SQL转换为任务进行计算,底层是HDFS提供数据存储。 说白了,hive可以理解为一个将SQL转换为任务的工具。 更进一步,hive可以说是一个客户端。

为什么使用蜂巢

Ø 直接使用面临的问题

人员学习成本太高

项目周期要求太短

开发复杂的查询逻辑太难

Ø 为什么使用Hive

操作接口采用类SQL语法,提供快速开发能力。

避免了编写,降低了开发者的学习成本。

功能扩展非常方便。

蜂巢的特点

Ø 可扩展

Hive可以自由扩展集群规模,一般不需要重启服务。

Ø 延展性

Hive支持用户自定义函数,用户可以根据自己的需求实现自己的功能。

Ø 容错能力

容错性好,如果节点出现问题,SQL仍然可以执行。

2.Hive架构

架构图

hive是什么意思_hive官网_hive

基本成分

用户界面:包括CLI、JDBC/ODBC。 其中,CLI(line)是shell命令行; JDBC/ODBC是Hive的JAVA实现,与传统数据库JDBC类似; Hive 是通过浏览器访问的。

元数据存储:通常存储在mysql/derby等关系数据库中。 Hive 将元数据存储在数据库中。 Hive中的元数据包括表的名称、表的列和分区及其属性、表的属性(是否是外部表等)、表数据所在的目录等。

解释器、编译器、优化器、执行器:完成HQL查询语句的词法分析、语法分析、编译、优化和查询计划生成。 生成的查询计划存储在 HDFS 中并与后续调用一起执行。

3.Hive与的关系

Hive 使用 HDFS 存储数据并查询分析数据。

hive是什么意思_hive官网_hive

4. Hive与传统数据库对比

Hive用于海量数据的离线数据分析

hive_hive官网_hive是什么意思

总结:hive有着sql数据库的外观,但是应用场景却完全不同。 hive只适合批量数据统计分析。

5.Hive数据存储

(1)Hive中的所有数据都存储在HDFS中,没有特殊的数据存储格式(可以支持Text、、、ORC格式等)

是一种文件格式:

文件内容被组织为序列化的 kv 对象

(2)只需要在创建表时告诉Hive数据中的列分隔符和行分隔符,Hive就可以解析数据。

(3)Hive包含以下数据模型:DB、Table、Table、、。

Ø db:显示为hdfs中${hive…dir}目录下的文件夹

Ø table:显示hdfs中对应db目录下的文件夹

Ø table:与table类似,但其数据存储位置可以在任意指定路径

Ø:作为HDFS中表目录下的子目录出现

Ø:基于hash散列在HDFS中显示为同一个表目录中的多个文件

好了,今天的主题就讲到这里吧,不管如何,能帮到你我就很开心了,如果您觉得这篇文章写得不错,欢迎点赞和分享给身边的朋友。

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注