Apache Hadoopの0.23.0がリリースされました

※本コラムは、2011年11月15日にTom Whiteが投稿したブログ記事の翻訳です。※

Apache Hadoopプロジェクト管理委員会は、Apache Hadoop 0.23.0のリリースを表明しました。本リリースは1年以上を経たHadoop初のメジャーリリースであり、0.20シリーズのリリース以降多数の追加機能や改善を組み込んだ、大変意味のあるリリースです。最大の新機能は、HDFSフェデレーションと、新しいMapReduceフレームワークです。さらに、 新しいビルドシステム Maven の採用、Kerberos HTTP SPNEGOのサポートだけでなく、近々本ブログに投稿するように、パフォーマンスも劇的に改善しています。
ただし、今回の0.23.0は実環境での利用を目指したものではないので、現在稼働中の実システムクラスタにはインストールなさらないよう、ご注意ください。

新機能

HDFSフェデレーションは、複数の独立したネームノードをサポートし、それぞれが名前空間を管理できるようにすることで、HDFSのスケーラビリティを改善する機能です。クラスタ内のデータノードは、すべての名前空間にストレージを提供できます(たとえば単一の名前空間には属していないデータノード)。HDFSフェデレーションは、将来の0.23でリリースされる予定のHDFS High Availabilityと混同しないようにご注意ください。

MapReduce2では、ジョブトラッカーでのスケーラビリティボトルネックを解消するために、MapReduceランタイムを書き直しています。これは「YARN」と呼ばれるクラスタ管理のための新しいフレームワークに基づいており、ユーザのジョブを実行するMapReduceアプリケーションはYARN上で動きます。この設計によりMapReduceはユーザ空間ライブラリとなるので、MapReduceアプリケーションの横で別の並列アプリケーションをHadoop上で実行できるようになります。

Hadoop 0.23.0には、ジョブトラッカーとタスクトラッカーを実行する旧MapReduceランタイム(MapReduce1)は含まれていないことにご注意ください。新旧両方のMapReduce APIをサポートします(古いAPIはorg.apache.hadoop.mapred packageに、新しいAPIはorg.apache.hadoop.mapreduceにあります)が、0.23.0において古いAPIは廃止されているので、このリリース以降は新しいAPIに切り替えることをお勧めします。もし旧ランタイムやAPIを引き続き使いたい場合は、CDH3のように、0.20.xをベースとしたバージョンをお使いいただくよう、ここに明記いたします。

安定性、互換性とテスト

0.23.0は、まだ実運用のものではないことにご注意ください。本リリースは、0.23以降のリリースの安定性を高めるために、ユーザ側で検証するための早期リリースとなります。われわれは今後、早急に実運用ベースのバージョンをリリースすること、そして新バージョンをCDH4に組み込むことを目指しております。

互換性という観点からいえば、ほとんどのケースにおいて、0.20.xで公開されているHadoop APIを使ったプログラムは0.23.0上でも正しく動作します(再コンパイルが必要です)。互換性についてより詳しいことは、HADOOP-7738をごらんください。

0.23.0で動くHadoopエコシステムプロジェクトは、現在進行中です。Apache Bigtopプロジェクト(Apache Incubator プロジェクトの一つ)の目標の1つは、Hadoopコンポーネントの相互運用性検証であり、プロジェクトはHadoopを利用するダウンストリームのビルドの状況を追跡しているとBIGTOP-162にあります。もしこれをお読みの方がHadoopを使っていれば、あなたのシステムの負荷そしてアプリケーションをHadoop0.23.0で検証していただき、発見した問題点をHadoopプロジェクトへレポートしていただければ幸いです。

謝辞

本リリースに貢献してくれたすべての方々(問題報告、バグフィックス、変更点のレビュー、ドキュメント整備等々)、そしてリリースマネージャとしてすばらしい仕事をしてくれたArun C Murthyに感謝します。


Contact us

製品やサービス、サポート、トレーニングについてのより詳しい情報は、下記までお問い合わせください。

Cloudera全般(日本語)
info-jp@cloudera.com
二ユースレター購読 (日本語)
Clouderaからの日本語での二ユースレター購読希望の方は
info-jp@cloudera.com
件名: ML_SUBSCRIBE
でメールをお送りください