1.Hbase简介

HBase 是 BigTable 的开源 java 版本。是建立在 HDFS 之上，提供高可靠性、高性能、列存储、可伸缩、实时读写 NoSQL 的数据库系统

2.Hbase特点

HBase线性可扩展。
它具有自动故障支持。
它提供了一致的读取和写入。
它集成了Hadoop，作为源和目的地。
客户端方便的Java API。
它提供了跨集群数据复制。

3.角色分配

Hbase角色分配如下：

主要有三个角色：
1、Maser
为Region server分配region、负责Region server的负载均衡、发现失效的Region、server并重新分配其上的region、管理用户对table的增删改操作
2、RegionServer
Region server维护region处理对这些region的IO请求、Region server负责切分在运行过程中变得过大的region　
3、Hbase Thirft Server

4. RowKey

与 nosql 数据库们一样,row key 是用来检索记录的主键。访问 hbase table 中的行，只有三种方式：
(1) 通过单个 row key 访问
(2) 通过 row key 的 range
(3) 全表扫描
Row key 行键 (Row key)可以是任意字符串(最大长度是 64KB，实际应用中长度一般为 10-100bytes)，最好是 16或者8。在 hbase 内部， row key 保存为字节数组。 Hbase 会对表中的数据按照 rowkey 排序(字典顺序) http://www.cndba.cn/lirui/article/3385

存储时，数据按照 Row key 的字典序(byte order)排序存储。设计 key 时，要充分排序存储这个特性，将经常一起读取的行存储放到一起。 (位置相关性)
注意：
字典序对 int 排序的结果是
1,10,100,11,12,13,14,15,16,17,18,19,2,20,21,„,9,91,92,93,94,95,96,97,98,99。要保持整形的自然序，行键必须用 0 作左填充。
行的一次读写是原子操作 (不论一次读写多少列)。这个设计决策能够使用户很容易的理解程序在对同一个行进行并发更新操作时的行为。

5. 列簇

hbase 表中的每个列，都归属与某个列族。列族是表的 schema 的一部分(而列不是)，必须在使用表之前定义。

列名都以列族作为前缀。例如 courses:history ， courses:math 都属于 courses 这个列族。访问控制、磁盘和内存的使用统计都是在列族层面进行的。
列族越多，在取一行数据时所要参与 IO、搜寻的文件就越多，所以，如果没有必要，不要设置太多的列族
（每个列族存放在不同的文件中，建表时列族越少越好）

6. 时间戳

HBase 中通过 row 和 columns 确定的为一个存储单元称为 cell。每个 cell 都保存着同一份数据的多个版本。版本通过时间戳来索引。时间戳的类型是 64 位整型。时间戳可以由 hbase(在数据写入时自动 )赋值，此时时间戳是精确到毫秒的当前系统时间。时间戳也可以由客户显
式赋值。如果应用程序要避免数据版本冲突，就必须自己生成具有唯一性的时间戳。每个 cell 中，不同版本的数据按照时间倒序排序，即最新的数据排在最前面。
为了避免数据存在过多版本造成的的管理 (包括存贮和索引)负担， hbase 提供了两种数据版本回收方式：
保存数据的最后 n 个版本
保存最近一段时间内的版本（设置数据的生命周期 TTL）。
用户可以针对每个列族进行设置。

7. cell

由

{row key, column( =<family> + <label>), version}

唯一确定的单元。
cell 中的数据是没有类型的，全部是字节码形式存贮。

8、HBase创建表

可以使用命令创建一个表，在这里必须指定表名和列族名。在HBase shell中创建表的语法如下所示。

create‘<table name>’,’<column family>’

在HBase shell创建该表如下所示。

hbase(main):002:0> create 'emp', 'personal data', ’professionaldata’

它会给下面的输出。

0 row(s)in 1.1300 seconds
=> Hbase::Table – emp

可以验证是否已经创建，使用 list 命令如下所示。在这里，可以看到创建的emp表。

hbase(main):002:0> list
TABLE
emp
2 row(s)in 0.0340 seconds

9. Java API创建一个表

可以使用HBaseAdmin类的createTable()方法创建表在HBase中。这个类属于org.apache.hadoop.hbase.client 包。下面给出的步骤是来使用Java API创建表在HBase中。
1. 第1步：实例化HBaseAdmin
这个类需要配置对象作为参数，因此初始实例配置类传递此实例给HBaseAdmin。

Configuration conf =HBaseConfiguration.create();
HBaseAdmin admin =new HBaseAdmin(conf);

2. 第2步：创建TableDescriptor

HTableDescriptor类是属于org.apache.hadoop.hbase。这个类就像表名和列族的容器一样。
//creating table descriptor
HTableDescriptor table =new HTableDescriptor(toBytes("Table name"));
//creating column family descriptor
HColumnDescriptorfamily = new HColumnDescriptor(toBytes("column family"));
//adding coloumn family to HTable
table.addFamily(family);

3. 第3步：通过执行管理
使用HBaseAdmin类的createTable()方法，可以在管理模式执行创建的表。
admin.createTable(table);
下面给出的是完整的程序，通过管理员创建一个表。

import java.io.IOException;
import org.apache.hadoop.hbase.HBaseConfiguration;
import org.apache.hadoop.hbase.HColumnDescriptor;
import org.apache.hadoop.hbase.HTableDescriptor;
import org.apache.hadoop.hbase.client.HBaseAdmin;
import org.apache.hadoop.hbase.TableName;
import org.apache.hadoop.conf.Configuration;
public class CreateTable {
   public static void main(String[]args) throws IOException {
   // Instantiating configuration class
   Configuration con =HBaseConfiguration.create();
   // Instantiating HbaseAdmin class
   HBaseAdmin admin =new HBaseAdmin(con);
   // Instantiating table descriptor class
   HTableDescriptor tableDescriptor =new
   TableDescriptor(TableName.valueOf("emp"));
   // Adding column families to table descriptor
   tableDescriptor.addFamily(new HColumnDescriptor("personal"));
   tableDescriptor.addFamily(new HColumnDescriptor("professional"));
   // Execute the table through admin
   admin.createTable(tableDescriptor);
   System.out.println(" Table created ");
   }
  }

编译和执行上述程序如下所示。
$javacCreateTable.java
$javaCreateTable
下面列出的是输出：
Table created

10. HBase列出表

list 是用来列出HBase中所有表的命令。下面给出了 list 命令的语法。

hbase(main):001:0> list

当输入这个命令，并在HBase提示符下执行，它会显示HBase中的所有表的列表，如下图所示。http://www.cndba.cn/lirui/article/3385

hbase(main):001:0> list
TABLE
emp

在这里，可以看到一个名为表emp。

11. 使用Java API列出表

按照下面给出的步骤来使用Java API从HBase获得表的列表。
1.第1步
在类HBaseAdmin中有一个方法叫 listTables()，列出HBase中所有的表的列表。这个方法返回HTableDescriptor对象的数组。

//creating a configuration object
Configuration conf =HBaseConfiguration.create();
//Creating HBaseAdmin object
HBaseAdmin admin =new HBaseAdmin(conf);
//Getting all the list of tables using HBaseAdmin object
HTableDescriptor[] tableDescriptor =admin.listTables();

2.第2步
就可以得到使用HTableDescriptor类长度可变的HTableDescriptor[]数组的长度。从该对象使用getNameAsString()方法获得表的名称。运行’for’循环而获得HBase表的列表。
下面给出的是使用Java API程序列出所有HBase中表的列表。

import java.io.IOException;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.hbase.HBaseConfiguration;
import org.apache.hadoop.hbase.HTableDescriptor;
import org.apache.hadoop.hbase.MasterNotRunningException;
import org.apache.hadoop.hbase.client.HBaseAdmin;
public class ListTables {
   public static void main(String args[])throws MasterNotRunningException, IOException{
   // Instantiating a configuration class
   Configuration conf =HBaseConfiguration.create();
   // Instantiating HBaseAdmin class
   HBaseAdmin admin =new HBaseAdmin(conf);
   // Getting all the list of tables using HBaseAdmin object
   HTableDescriptor[] tableDescriptor =admin.listTables();
   // printing all the table names.
   for (int i=0; i<tableDescriptor.length;i++){
      System.out.println(tableDescriptor[i].getNameAsString());
   }
   }
 }

编译和执行上述程序如下所示。
$javacListTables.java
$javaListTables
下面列出的是输出：
User
Emp

12.HBase删除表

用drop命令可以删除表。在删除一个表之前必须先将其禁用。

hbase(main):018:0> disable 'emp'
0 row(s) in 1.4580 seconds
hbase(main):019:0> drop 'emp'
0 row(s) in 0.3060 seconds

使用exists 命令验证表是否被删除。

hbase(main):020:0> exists 'emp'
Table emp does not exist
row(s) in 0.0730 seconds
drop_all

这个命令是用来在给出删除匹配“regex”表。它的语法如下：

hbase> drop_all ‘t.*’

注意：要删除表，则必须先将其禁用。

示例
假设有一些表的名称为raja, rajani, rajendra, rajesh, 和raju。

hbase(main):017:0> list
TABLE
raja
rajani
rajendra 
rajesh
raju
9 row(s) in 0.0270 seconds

所有这些表以字母raj开始。首先使用disable_all命令禁用所有这些表如下所示。

hbase(main):002:0> disable_all 'raj.*'
raja
rajani
rajendra
rajesh
raju
Disable the above 5 tables (y/n)?
y
5 tables successfully disabled

现在，可以使用 drop_all 命令删除它们，如下所示。

hbase(main):018:0> drop_all 'raj.*'
raja
rajani
rajendra
rajesh
raju

Drop the above 5 tables (y/n)?

y
5 tables successfully dropped

13. 使用Java API删除表

可以使用 HBaseAdmin 类的deleteTable()方法删除表。按照下面给出是使用Java API来删除表中的步骤。
1.第1步
实例化HBaseAdmin类。

// creating a configuration object
Configuration conf = HBaseConfiguration.create();
// Creating HBaseAdmin object
HBaseAdmin admin = new HBaseAdmin(conf);

2.第2步
使用HBaseAdmin类的disableTable()方法禁止表。
admin.disableTable(“emp1”);
3.第3步
现在使用HBaseAdmin类的deleteTable()方法删除表。

admin.deleteTable(“emp12”);
下面给出的是完整的Java程序用于删除HBase表。

import java.io.IOException;
import org.apache.hadoop.hbase.HBaseConfiguration;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.hbase.client.HBaseAdmin;
public class DeleteTable {
   public static void main(String[] args) throws IOException {
      // Instantiating configuration class
      Configuration conf = HBaseConfiguration.create();
      // Instantiating HBaseAdmin class
      HBaseAdmin admin = new HBaseAdmin(conf);
      // disabling table named emp
      admin.disableTable("emp12");

      // Deleting emp
      admin.deleteTable("emp12");
      System.out.println("Table deleted");
   }

}
编译和执行上述程序如下所示。
$javac DeleteTable.java
$java DeleteTable
下面是输出结果：
Table deleted

14.HBase更新数据

可以使用put命令更新现有的单元格值。按照下面的语法，并注明新值，如下图所示。

put ‘table name’,’row ’,'Column family:column name',’new value’

新给定值替换现有的值，并更新该行。

示例
假设HBase中有一个表emp拥有下列数据

hbase(main):003:0> scan 'emp'
 ROW              COLUMN+CELL
row1 column=personal:name, timestamp=1418051555, value=raju
row1 column=personal:city, timestamp=1418275907, value=Hyderabad
row1 column=professional:designation, timestamp=14180555,value=manager
row1 column=professional:salary, timestamp=1418035791555,value=50000
1 row(s) in 0.0100 seconds

以下命令将更新名为“Raju’员工的城市值为’Delhi’。

hbase(main):002:0> put 'emp','row1','personal:city','Delhi'
0 row(s) in 0.0400 seconds

更新后的表如下所示，观察这个城市Raju的值已更改为“Delhi”。http://www.cndba.cn/lirui/article/3385

hbase(main):003:0> scan 'emp'
  ROW          COLUMN+CELL
row1 column=personal:name, timestamp=1418035791555, value=raju
row1 column=personal:city, timestamp=1418274645907, value=Delhi
row1 column=professional:designation, timestamp=141857555,value=manager
row1 column=professional:salary, timestamp=1418039555, value=50000
1 row(s) in 0.0100 seconds

15. 使用Java API更新数据

使用put()方法将特定单元格更新数据。按照下面给出更新表的现有单元格值的步骤。
1.第1步：实例化Configuration类
Configuration类增加了HBase的配置文件到它的对象。使用HbaseConfiguration类的create()方法，如下图所示的配置对象。
Configuration conf = HbaseConfiguration.create();
2.第2步：实例化HTable类
有一类叫HTable，实现在HBase中的Table类。此类用于单个HBase的表进行通信。在这个类实例，它接受配置对象和表名作为参数。实例化HTable类，如下图所示。

HTable hTable = new HTable(conf, tableName);
3.第3步：实例化Put类
要将数据插入到HBase表中，使用add()方法和它的变体。这种方法属于Put类，因此实例化Put类。这个类必须以字符串格式的列名插入数据。可以实例化Put类，如下图所示。
Put p = new Put(Bytes.toBytes(“row1”));
4.第4步：更新现有的单元格
Put 类的add()方法用于插入数据。它需要表示列族，列限定符（列名称）3字节阵列，并要插入的值。将数据插入HBase表使用add()方法，如下图所示。

p.add(Bytes.toBytes("coloumn family "), Bytes.toBytes("column
name"),Bytes.toBytes("value"));
p.add(Bytes.toBytes("personal"),
Bytes.toBytes("city"),Bytes.toBytes("Delih"));

5.第5步：保存表数据
插入所需的行后，HTable类实例的put()方法添加如下所示保存更改。
hTable.put(p);

6.第6步：关闭HTable实例
创建在HBase的表数据之后，使用close()方法，如下所示关闭HTable实例。
hTable.close();
下面给出的是完整的程序，在一个特定的表更新数据。

import java.io.IOException;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.hbase.HBaseConfiguration;
import org.apache.hadoop.hbase.client.HTable;
import org.apache.hadoop.hbase.client.Put;
import org.apache.hadoop.hbase.util.Bytes;
public class UpdateData{
public static void main(String[] args) throws IOException {
      // Instantiating Configuration class
      Configuration config = HBaseConfiguration.create();
      // Instantiating HTable class
      HTable hTable = new HTable(config, "emp");
      // Instantiating Put class
      //accepts a row name
      Put p = new Put(Bytes.toBytes("row1"));
      // Updating a cell value
      p.add(Bytes.toBytes("personal"),
      Bytes.toBytes("city"),Bytes.toBytes("Delih"));
      // Saving the put Instance to the HTable.
      hTable.put(p);
      System.out.println("data Updated");
      // closing HTable
      hTable.close();
   }
}

编译和执行上述程序如下所示。
$javac UpdateData.java
$java UpdateData
下面列出的是输出结果：
data Updated

16. HBase读取数据

get命令和HTable类的get()方法用于从HBase表中读取数据。使用 get 命令，可以同时获取一行数据。它的语法如下：

get ’<table name>’,’row1’

下面的例子说明如何使用get命令。扫描emp表的第一行。

hbase(main):012:0> get 'emp', '1'
   COLUMN                     CELL

personal : city timestamp=1417521848375, value=hyderabad
personal : name timestamp=1417521785385, value=ramu
professional: designation timestamp=1417521885277, value=manager
professional: salary timestamp=1417521903862, value=50000
4 row(s) in 0.0270 seconds

读取指定列
下面给出的是语法，使用get方法读取指定列。

hbase>get 'table name', ‘rowid’, {COLUMN => ‘column family:column name ’}

下面给出的示例，是用于读取HBase表中的特定列。

hbase(main):015:0> get 'emp', 'row1', {COLUMN=>'personal:name'}
  COLUMN                CELL
personal:name timestamp=1418035791555, value=raju
1 row(s) in 0.0080 seconds

17.使用Java API读取数据

从一个HBase表中读取数据，要使用HTable类的get()方法。这种方法需要Get类的一个实例。按照下面从HBase表中检索数据给出的步骤。
1.第1步：实例化Configuration类
Configuration类增加了HBase的配置文件到它的对象。使用HbaseConfiguration类的create()方法，如下图所示的配置对象。

Configuration conf = HbaseConfiguration.create();

2.第2步：实例化HTable类
有一类叫HTable，实现在HBase中的Table类。此类用于单个HBase的表进行通信。在这个类实例，它接受配置对象和表名作为参数。实例化HTable类，如下图所示。

HTable hTable = new HTable(conf, tableName);

3.第3步：实例化获得类
可以从HBase表使用HTable类的get()方法检索数据。此方法提取从一个给定的行的单元格。它需要一个 Get 类对象作为参数。创建如下图所示。

Get get = new Get(toBytes("row1"));

4.第4步：读取数据
当检索数据，可以通过ID得到一个单列，或得到一组行一组行ID，或者扫描整个表或行的子集。
可以使用Get类的add方法变种检索HBase表中的数据。
从特定的列族获取指定的列，使用下面的方法。
get.addFamily(personal)
要得到一个特定的列族的所有列，使用下面的方法。
get.addColumn(personal, name)
5.第5步：获取结果
获取结果通过Get类实例的HTable类的get方法。此方法返回Result类对象，其中保存所请求的结果。下面给出的是get()方法的使用。

Result result = table.get(g);

6.第6步：从Result实例读值
Result 类提供getValue()方法从它的实例读出值。如下图所示，使用它从Result 实例读出值。http://www.cndba.cn/lirui/article/3385

byte [] value =
result.getValue(Bytes.toBytes("personal"),Bytes.toBytes("name"));
byte [] value1 =
result.getValue(Bytes.toBytes("personal"),Bytes.toBytes("city"));

下面给出的是从一个HBase表中读取值的完整程序http://www.cndba.cn/lirui/article/3385

import java.io.IOException;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.hbase.HBaseConfiguration;
import org.apache.hadoop.hbase.client.Get;
import org.apache.hadoop.hbase.client.HTable;
import org.apache.hadoop.hbase.client.Result;
import org.apache.hadoop.hbase.util.Bytes;

public class RetriveData{
   public static void main(String[] args) throws IOException, Exception{
      // Instantiating Configuration class
      Configuration config = HBaseConfiguration.create();
      // Instantiating HTable class
      HTable table = new HTable(config, "emp");
      // Instantiating Get class
      Get g = new Get(Bytes.toBytes("row1"));
      // Reading the data
      Result result = table.get(g);
      // Reading values from Result class object
      byte [] value = result.getValue(Bytes.toBytes("personal"),Bytes.toBytes("name"));
      byte [] value1 = result.getValue(Bytes.toBytes("personal"),Bytes.toBytes("city"));
      // Printing the values
      String name = Bytes.toString(value);
      String city = Bytes.toString(value1); 
      System.out.println("name: " + name + " city: " + city);
   }
}

编译和执行上述程序如下所示。
$javac RetriveData.java
$java RetriveData
下面列出的是输出：
name: Raju city: Delhi

18. HBase删除数据

从表删除特定单元格
使用 delete 命令，可以在一个表中删除特定单元格。 delete 命令的语法如下：

delete ‘<table name>’, ‘<row>’, ‘<column name >’, ‘<time stamp>’

下面是一个删除特定单元格和例子。在这里，我们删除salaryhttp://www.cndba.cn/lirui/article/3385

hbase(main):006:0> delete 'emp', '1', 'personal data:city',
1417521848375
0 row(s) in 0.0060 seconds

删除表的所有单元格
使用“deleteall”命令，可以删除一行中所有单元格。下面给出是 deleteall 命令的语法。

deleteall ‘<table name>’, ‘<row>’,

这里是使用“deleteall”命令删去 emp 表row1 的所有单元的一个例子。

hbase(main):007:0> deleteall 'emp','1'
0 row(s) in 0.0240 seconds

使用scan命令验证表。表被删除后的快照如下。

hbase(main):022:0> scan 'emp'
ROW                  COLUMN+CELL
2 column=personal data:city, timestamp=1417524574905, value=chennai 
2 column=personal data:name, timestamp=1417524556125, value=ravi
2 column=professional data:designation, timestamp=1417524204, value=sr:engg
2 column=professional data:salary, timestamp=1417524604221, value=30000
3 column=personal data:city, timestamp=1417524681780, value=delhi
3 column=personal data:name, timestamp=1417524672067, value=rajesh
3 column=professional data:designation, timestamp=1417523187, value=jr:engg
3 column=professional data:salary, timestamp=1417524702514, value=25000

19.使用Java API删除数据

可以从使用HTable类的delete()方法删除HBase表数据。按照下面给出从表中删除数据的步骤。
1.第1步：实例化Configuration类
Configuration类增加了HBase配置文件到它的对象。可以创建使用HbaseConfiguration类的create()方法，如下图所示的Configuration 对象。

Configuration conf = HbaseConfiguration.create();

2.第2步：实例化HTable类
有一个类叫HTable，实现在HBase中的Table类。此类用于单个HBase的表进行通信。在这个类实例，它接受配置对象和表名作为参数。实例化HTable类，如下图所示。

HTable hTable = new HTable(conf, tableName);

3.第3步：实例化Delete 类
通过传递将要删除的行的行ID，在字节数组格式实例化Delete类。也可以通过构造时间戳和Rowlock。

Delete delete = new Delete(toBytes("row1"));

4.第4步：选择删除数据
可以使用Delete类的delete方法删除数据。这个类有各种删除方法。选择使用这些方法来删除列或列族。这里显示Delete类方法的用法在下面的例子。http://www.cndba.cn/lirui/article/3385

delete.deleteColumn(Bytes.toBytes("personal"), Bytes.toBytes("name"));
delete.deleteFamily(Bytes.toBytes("professional"));

5.第5步：删除数据
通过HTable类实例的delete()方法，如下所示删除所选数据。

table.delete(delete);

6.第6步：关闭HTable实例
删除数据后，关闭HTable实例。
table.close();
下面给出的是从HBase表中删除的数据的完整程序。

import java.io.IOException;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.hbase.HBaseConfiguration;
import org.apache.hadoop.hbase.client.Delete;
import org.apache.hadoop.hbase.client.HTable;
import org.apache.hadoop.hbase.util.Bytes;
public class DeleteData {
public static void main(String[] args) throws IOException {
      // Instantiating Configuration class
      Configuration conf = HBaseConfiguration.create();
      // Instantiating HTable class
      HTable table = new HTable(conf, "employee");
      // Instantiating Delete class
      Delete delete = new Delete(Bytes.toBytes("row1"));
      delete.deleteColumn(Bytes.toBytes("personal"), Bytes.toBytes("name"));
      delete.deleteFamily(Bytes.toBytes("professional"));

      // deleting the data
      table.delete(delete);
      // closing the HTable object
      table.close();
      System.out.println("data deleted.....");
   }
}

编译和执行上述程序如下所示。
$javac Deletedata.java
$java DeleteData
下面列出的是输出：
data deleted

签到成功

CNDBA社区

Hbase使用简介