Cloudera Impala

Hadoop向けオープンソースのインタラクティブSQL

Cloudera Impalaは、Apache Hadoopでネイティブに動作する、業界をリードする大規模な並列処理(MPP)のSQLクエリエンジンです。ApacheライセンスのオープンソースであるImpalaプロジェクトが、最新のスケーラブルな並列データベース技術と強力なHadoopを組み合せました。これによりユーザーは、データの移行や変換をすることなく、HDFSやApache HBaseにおいてクエリデータを直接格納することができます。Impalaは、Hadoopエコシステムの基礎をなす一部として設計されており、MapReduce、Apache Hive、Apache PigやほかのHadoopスタックコンポーネントで利用されているのと同じように、フレキシブルなファイルやデータフォーマット、メタデータ、セキュリティやリソース管理フレームワークを共有します。

選択肢の提供

Impalaの登場前には、リレーショナルデータベースが処理能力に達した場合、期待するパフォーマンスを維持するためにはシステムを拡張しするしか選択肢がありませんでした。Hadoopを利用して、どんな量・種類のデータも手頃に分析するだけでなく、インタラクティブなパフォーマンスを望むのであれば、より速いリレーショナルデータベースにデータを移行しなければなりませんでした。ストレージの複製やデータ同期にかけるコストや努力、スキーマの修正に要求される厳格さ、データ移行や変換の際に必然的に失われてしまう情報、導入を目指すデータベースの分析オプション機能の限界などを受け入れる必要がありました。

Impalaを採用することで、以下の選択が生まれます。

  • アナリストやデータサイエンティストが、既存のBIツールや業界標準のSQLインターフェースを使って、Hadoopに格納されたあらゆるデータと直接やり取りできるようになります。
  • 既存の分析データベースやBIバックログの削減の負荷を軽減し、HadoopのBI負荷を軽減します。

Impalaは以下の効果を提供します。

  •  パフォーマンス:業界をリードする大規模並列処理データベースと同等で、Apache Hive/Stingerより10~100倍高速
  • インサイトまでの時間をより高速に:データ移行やスキーマの定義なしに、Hadoopの格納データを直接インタラクティブに分析するパフォーマンスは、従来のデータベースより高速
  • コスト抑制:データ移行、モデリング、ストレージに要するコストを削減
  • より完全な分析:固定スキーマの同化やアグリゲーションにおけるデータロスなしに、より完全に生データや履歴データを分析
  • 親和性:既存のBIツールやSQLのスキルと親和性が高く、導入の障壁を削減
  • セキュリティ:セキュアなKerberos認証と、Apache Sentryプロジェクトによるロールベースの認証機能
  • 自由度:オープンソースであるApacheライセンスにより、ベンダー依存から解放

 

Impalaの主な特徴

• Apacheライセンス、かつ100%オープンソース
• Hadoopのスケーラビリティによるパフォーマンスを維持する大規模な並列処理(MPP)アーキテクチャ
• HDFS、HBaseに格納されたあらゆるデータに対してインタラクティブな分析を実行
•ネイティブなHadoopセキュリティの構築:Kerberos認証と、きめの細かいロールベースの認証に向け、Apache Sentryを統合
• ANSI-92 SQL、ユーザー定義関数(UDFs)、以下のHadoop共通ファイルフォーマットをサポート:text、SequenceFile、Avro、RCFile、LZO、Parquet
• ワークロード管理、メタデータ、ODBCドライバー、SQLシンタックスとユーザーインターフェースをApacheと共有

Cloudera EnterpriseにおけるImpalaのサポート

Cloudera Enterpriseは、本番環境においてImpalaの威力を効果的に活用する最適な方法です。エンタープライズデータハブの一部であるCloudera Enterprise FlexエディションやData HubエディションでImpalaをデプロイする場合、当社独自のImpalaサポートにお任せください。プロジェクトの将来に好影響を与えることができます。

Cloudera Enterpriseの詳細はこちら

Enterprise