Apache Hadoop 是一款支持数据密集型分布式应用程序,并以 Apache 2.0 许可协议发布的开源软件框架。它是根据谷歌公司发表的 MapReduce 和 Google 文件系统的论文自行实现而成。
项目
Hadoop 它是一个平台,包括 Hadoop 内核、MapReduce、Hadoop 分布式文件系统(HDFS)以及一些相关项目,有 Apache Hive 和 Apache HBase 等等。
主要子项目
- MapReduce:并行计算框架,在 0.20 版本之前,使用
org.apache.hadoop.mapred
旧接口,0.20 版本开始引入org.apache.hadoop.mapreduce
的新 API。 - HDFS:Hadoop 分布式文件系统,英文全称 Hadoop Distributed File System。
- Hadoop Common:在 0.20 及以前的版本中,包含 HDFS、MapReduce 和其他项目公共内容,从 0.21 开始,HDFS 和 MapReduce 被分离为独立的子项目,其余内容为 Hadoop Common。
相关项目
- Apache HBase:分布式 NoSQL 列数据库,类似谷歌公司 BigTable。
- Apache Hive:构建于 hadoop 之上的数据仓库,通过一种类 SQL 语言 HiveQL 为用户提供数据的归纳、查询和分析等功能。Hive 最初由 Facebook 贡献。
- Apache Mahout:机器学习算法软件包。
- Apache Sqoop:结构化数据(如关系数据库)与 Apache Hadoop 之间的数据转换工具。
- Apache ZooKeeper:分布式锁设施,提供类似 Google Chubby 的功能,由 Facebook 贡献。
- Apache Avro:新的数据序列化格式与传输工具,将逐步取代 Hadoop 原有的 IPC 机制。