0%

Apache Spark 是一个开源集群运算框架,作用类似于 HadoopMapReduce 。但是相对于 MapReduce 来说它的速度要快得多。

阅读全文 »

我接触的第一个 非关系型数据库 就是 HBase ,有关它的更多概念我这里就不说了。本文关注的是它的搭建、配置、使用。

阅读全文 »

因为 HDFS 的 NameNode 存在单点问题,当它出现问题的时候整个 HDFS 都会无法访问。基于 ZooKeeper 搭建一个 Hadoop HA 高可用分布式署集群就尤为重要。

阅读全文 »

之前有说过Hadoop伪分布的部署,这次来讲讲完全分布。总体来说和伪分布的配置差别不大,只是不同机子之前的衔接和小部分的配置修改。

阅读全文 »

如何将一个基于传统关系型数据库和结构化查询语句(SQL)的现有数据转移到 Hadoop ,对于大量的 SQL 用户来说 HIVE 就是解决这个问题的方案。它提供了一个被称为 Hive 查询语言(简称 HiveQL 或 HQL)的 SQL 方言,来查询储存在 Hadoop 集群中的数据。

阅读全文 »