Apache Spark

バッチ処理、リアルタイム処理、そして高度な分析を、柔軟にインメモリでデータ処理するオープンスタンダード

Apache Spark とは?

Apache Sparkは、Apache Hadoopエコシステムの汎用的なオープンソースデータ処理フレームワークであり、バッチ処理やストリーミング処理、インタラクティブ分析を組み合わせた、どんなデータにも対応する広範なビッグデータアプリケーションの開発が、容易にかつ短期間で可能になります。Apache Sparkは、CDHの重要な内部コンポーネントであり、Clouderaのオープンソースプラットフォームであり、さらに、エンタープライズに必須となるサポートや機能が、Cloudera Enterpriseによって提供されます。



Hadoop内のSpark

Clouderaは、MapReduceにかわるHadoopエコシステムのコアなデータ処理エンジンとして、Apache Sparkの採用をコミットしています。ユーザーの移行を支援するため、ClouderaのApacheコミッターは、Apache Crunch on Spark、Apache Solr on Spark、Apache HBase-Spark 連携 (Cloudera Labs)、Apache Hive on Spark(ベータ)および Apache Pig on Spark(アルファ)など、HadoopエコシステムコンポーネントのSparkで、MapReduceを補完できるよう作業しています。

Hadoopエコシステムで、Apache SparkをMapReduceの後継とする理由

Apache Sparkの特長

データを実践的な知識に変え、いつでもすぐに最大の効果を得ることができる

開発者やデータサイエンティストにとっては:

  • 豊富なオペレータや機械学習ライブラリにより、ScalaやPython、Javaの開発が容易に
  • 共通の拡張性が高いAPIで、バッチやストリーミングアプリケーションの生産性を向上
  • MapReduceを遙かにしのぐパフォーマンスで、インタラクティブな開発が可能

開発者がApache Sparkを歓迎する理由、Apache Sparkがデータサイエンティストに評判な理由、その他多くのハウツー

アーキテクトにとっては:

  • バッチやストリーミング、高度な分析のための標準エンジンで、複雑さやコストを低減
  • 強靭なパートナー認定プログラム(1,600以上のパートナー)や、専門のSpark Accelerator Partner Programが提供するサードパーティツールと、シームレスな連携が可能
  • 世界でもっとも活発なオープンソースコミュニティによる継続的な革新

Hadoopの未来:Sparkの詳細

Apache Sparkに対するClouderaの差別化

Apache Sparkを初めて出荷しサポートするプラットフォームベンダーとして、また、どんな競合他社よりも多くのコミッターやコントリビューターを擁するベンダーとして、Clouderaには次のような強みがあります:

  •  あらゆる業界でのプロダクション導入や、幅広い適用事例をサポートしてきた豊富な経験(200以上のカスタマー、300以上のパッチと43,000行以上のソースコードの提供に寄与)
  • Sparkと統合ソース管理機能(YARN)との密接な連携、シンプルな管理(Cloudera Manager)、セキュリティやガバナンス遵守対応(Apache SentryとCloudera Navigator)など、プロダクション環境で必須となる機能を提供
  • カスタマー要件を満足できるよう、製品ロードマップに影響を与えることができる
  • 開発者やデータサイエンス向けの総合的なSparkトレーニングの提供

 

カスタマーの成功事例

他のどんなプラットフォームよりも、多くのカスタマーがClouderaでApache Sparkを動かしています。例えば:

Apache Sparkの未来

One Platform InitiativeがSparkとHadoopを統合

Apache Sparkは、MapReduceの代替として安定したポジションにありますが、エンタープライズグレードとして、Apache Hadoopで十分な活用を図りたいカスタマー向けとしては、まだやるべきことがあります。One Platform Initiativeは、SparkをHadoopの標準的なデータ処理エンジンにすべく、コミュニティの背後で活動しています。MapReduceをSparkで置き換えるというビジョンを実現するため、Clouderaはコミュニティと協力し、次のような対応を行なっています:

主要分野 計画作業
管理

Hadoopネイティブのリソース管理を利用

共有リソース管理のための初期のSpark-on-Yarn統合
簡単診断のための評価基準を追加
Spark-on-Yarnのマルチテナンシー、パフォーマンスおよび使い良さの向上
自動設定により、最適化を経時的に可能に
リソース使用状態の可視化
PySparkとPythonアクセスの連携を向上
セキュリティ

Hadoopのセキュリティとそれ以上のサポート

Kerberosとの連携による認証機能
きめ細かいアクセスコントロールによる権限設定
監査とリネージによるガバナンス
IntelのAdvanced Encryptionライブラリと連携
Spark PCIコンプライアンスの完全遵守
拡張性

10,000ノードのクラスタを可能に

HDFSとの連携を向上し、データローカリティやキャッシュデータに基づくスケジューリングを可能に
大規模なジョブのメモリ消費を低減
ダイナミックなリソース割当てと優先順位付け
マルチテナントワークロード混在状態での、大規模なストレステスト
ストリーミング

一般的なストリーム処理ワークロードの80%をサポート

データロスのないSpark Streamingの回復性能
データの取り込みとKafkaやFlumeを統合
パフォーマンス向上のためのステータス管理機能の改善
高級言語を使用可能にし、リアルタイムワークロードを広くユーザーが利用できるようにする