Apache HBase

Apache HBase は、Apache HadoopのファイルシステムであるHadoop分散ファイルシステム (HDFS) 上の大規模分散データストアです。

HBaseは、エンタープライズデータハブ (EDH) のコアとなるコンポーネントであり、大容量データセットに対する高速なランダムアクセスを必要とするアプリケーションに対応できるようにデザインされています。GoogleによるBigTableの後発としてモデリングされたHBaseは、数十億の行、数百億の列を持つ巨大なデータテーブルを取り扱うことができます。
 CDH_Download

エンタープライズ向けHBase

多くのユーザーやアプリケーションへのデータ提供
Apache HBaseは、拡張性を考慮して構築されています。従来のリレーショナルデータベースは、本質的に分散型とは言えず、データベースの(データの読み込みや書き込みを行う)利用者が増えると、必要なストレージ、メモリおよびCPUが、1台のマシンでは賄えないほど急激に増加します。一方HBaseの場合には、当初から分散システムとしてデザインされているため問題は発生しません。HBaseでは、費用対効果に優れたHadoopやEDHを使用し、クラスタ内にある複数のサーバーのストレージ、メモリ、CPUといったリソースを活用することで、処理負荷やパフォーマンス要件に応じてデータベースを水平拡張することが可能です。ユーザーは、Cloudera ImpalaのインタラクティブSQL、Cloudera Searchの全文ファセット検索など、EDHが提供するさまざまな処理エンジンを使ってデータを検索することができます。

ユーザーとアプリケーションに高速ランダムREAD/WRITEアクセスを提供
HDFSは、「Write Once, Read Many (WORM)」なファイルシステムであり、バッチ処理やインタラクティブSQL、検索処理に適しています。HDFSでは、I/Oレイテンシの低さよりも、スループットの高さを重視しています。ユーザーやアプリケーションが、ランダムREAD/WRITE処理を高速に実行できるよう、レコードベースのストレージ層を提供する形に拡張されています。このデザインによって、HadoopベースのEDHは、ユーザーやアプリケーションにリアルタイムなランダムREAD/WRITE機能を提供し、同時に、HDFSの持つフォールトトレラント性や永久性を実現します。

Apache HBaseの主な特長
スケールアウトなアーキテクチャー – サーバーを追加することでキャパシティを向上
完全な一貫性 – ノードの停止や同じレコードに対する同時書き込みからの保護
高可用性 – 複数のマスターノードにより継続的なデータアクセスを確保
自動シャーディング – クラスタにおける全マシンのデータを透過的かつ効率的にスケール
アクティブ–アクティブなレプリケーション – ディザスタリカバリーやデータ保全のため複数のロケーションにデータを配信
セキュリティ – Kerberos認証によるテーブルおよび列(カラム)単位でのセキュリティ設定
SQLアクセス – Cloudera ImpalaによるインタラクティブなデータクエリとApache Hiveによるバッチ処理
テキスト全文検索、ファセット検索 – 一般のユーザーやアプリケーションから容易に利用できる強力でインタラクティブな検索エクスペリエンスの提供

HBase に関する詳細は、Apache HBase をご覧いただくか、Cloudera のソリューションアーキテクトである Lars George による HBaseを参照ください。

Cloudera EnterpriseにおけるHBaseのサポート

Cloudera Enterpriseを利用することで、実環境においてApache Hadoopの能力を十分に引き出すことができます。エンタープライズデータハブの一部として、HBaseとCloudera Enterprise Flex Edition、または、Data Hub Editionを同時使用することで、HBaseに対する優れた技術支援を積極的な形で受けることができプロジェクトに好影響を及ぼすことができます。

Cloudera Enterpriseの詳細について >>

Enterprise