Hive简介

Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射成一张数据库表，并提供类SQL查询功能
Hive设计目的是让精通SQL技能（但Java编程技能相对较弱）的分析师能够对Facebook存放在HDFS中的大规模数据集执行查询。今天，Hive已经是一个成功的Apache项目，很多组织把它用作一个通用的，可伸缩的数据处理平台

架构图：
用户接口：包括CLI，JDBC/ODBC和WebGUI。最常用的是CLI，CLI在启动的时候会同时启动一个Hive副本。JDBC/ODBC是Hive的Java实现，与传统数据库JDBC类似
元数据存储：Hive 将元数据存储在数据库中。Hive 中的元数据包括表的名字，表的列和分区及其属性，表的属性（是否为外部表等），表的数据所在目录等
解释器、编译器、优化器完成 HQL 查询语句从词法分析、语法分析、编译、优化以及查询计划的生成。生成的查询计划存储在 HDFS 中，并在随后有 MapReduce 调用执行
Hive的数据存储在HDFS中，大部分的查询，计算由MapReduce完成

Introduction of Hive