HBase 基础教程

original icon
版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://www.knowledgedict.com/tutorial/hbase-intro.html

HBase 介绍


HBase 是一个开源的非关系型分布式数据库,它是 Apache 的 Hadoop 项目的一部分,运行于 HDFS 文件系统之上,其参考了 Google 的 Bigtable 思想,HBase 在 Hadoop 和 HDFS 之上提供类似于 Bigtable 的功能。

特点

HBase 在列上实现了 BigTable 论文提到的压缩算法、内存操作和布隆过滤器。HBase 的表能够作为 MapReduce 任务的输入和输出,也可以通过 REST、Avro 或者 Thrift 的 API 来访问。在 Eric Brewer 的 CAP 理论中,HBase 属于 CP 类型的系统。

  • 线性和模块化可扩展性。
  • 严格一致的读写。
  • 表的自动和可配置分片。
  • RegionServer 之间的自动故障转移支持。
  • 易于Java API 使用的客户端访问。
  • 支持块缓存和布隆过滤器的实时查询。
  • 支持 Thrift、Rest API 等访问。
  • 可扩展的基于 Jruby 的(JIRB)Shell。

历史

HBase 于 2006 年诞生于 Powerset,一家从事自然语言处理和搜索的创业公司(后被微软收购)。

  • 2006 年,Powerset 公司为了处理自然语言搜索产生的海量数据而开展了 HBase 项目。
  • 2007 年 4 月,HBase 做为一个模块提交到 Hadoop 的代码库中,代码量在 8000 行。
  • 2010 年 5 月,HBase 成为 Apache 的顶级项目,同年,Facebook 把 HBase 使用在其消息平台中。
Lombok(ProjectLombok)是一个用于Java编程语言的开源库,旨在减少Java代码中的冗余和样板代码,提高开发人员的生产力。 ...
Nginx 是由1994年毕业于俄罗斯国立莫斯科鲍曼技术大学的 Igor Sysoeyv 为俄罗斯访问量居首的 rambler.ru 站点设 ...
推荐系统是一种信息过滤系统,用于预测用户对物品的“评分”或“偏好”。推荐系统近年来非常流行,应用于各行各业。推荐的对象包括:电影、音乐、新闻 ...
MLlib 是 Spark 中可扩展的机器学习库,它由一系列机器学习算法和实用程序组成, 包括分类、回归、聚类、协同过滤、降维,还包括一些底 ...
特征工程,是指用一系列工程化的方式从原始数据中筛选出更好的数据特征,以提升模型的训练效果。特征工程是机器学习、深度学习中不可或缺的一部分,在 ...