Hive 基本教程

Hive SQL

Hive 笔记

original icon
版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://www.knowledgedict.com/tutorial/hive-intro.html

Apache Hive 中文教程


Apache Hive 是基于 Hadoop 架构之上的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供类 SQL 查询功能,它可以将类 SQL 语句转换为 MapReduce 任务进行运行。Hive 最初由 Facebook 技术团队开发,后开源贡献到 Apache,并成为了其顶级项目。

Apache Hive 产生背景

在 Apache Hive 出现之前,Facebook 已经面临很多挑战,比如随着数据的爆炸式增长,要处理这些数据变得非常困难。而传统的关系型数据库面对这样海量的数据可以说无能为力。Facebook 为了克服这个难题,开始尝试使用 MapReduce。但使用它需要具备 java 编程能力以及必须掌握 SQL,这使得该方案变得有些不切实际。而 Apache Hive 可以很好的解决 Facebook 面临的问题。

Apache Hive 避免开发人员给临时需求开发复杂的 Hadoop MapReduce 作业。因为 hive 提供了数据的摘要、分析和查询。Hive 具有比较好的扩展性和稳定性,并且由于 Hive 跟 SQL 语法上比较类似,这对于 SQL 开发人员在学习和开发 Hive 时成本非常低,比较容易上手。Apache Hive 最重要的特性就是不会 Java,依然可以用好 Hive。

Django最早由LawrenceJournal-World公司的AdrianHolovaty和SimonWillison于2003年7月份 ...
Pandas 是一款开放源码的 BSD 许可的 Python 库,为 Python 编程语言提供了高性能,易于使用的数据结构和数据分析工具。 ...
Laravel是一种流行的开源PHPWeb应用程序框架,由TaylorOtwell在2011年首次发布。它采用MVC(Model-View- ...
SciPy 是一个开放源码的 BSD 许可的数学,科学和工程库。SciPy 库依赖于 NumPy,它提供了便捷且快速的N维数组操作。构建 S ...
MariaDB 是一个基于 MySQL 关系数据库管理系统的社区项目(可以简单地理解为 MySQL 的社区版本的一个分支)。它是开源和关系数 ...