なぜ私達はHDFS上にプラットフォームを構築するのか

本記事は、Cloudera プロダクト・バイス・プレジデント Charles Zedlewski による記事を翻訳したものです。

原文についてはこちらをご覧ください。

HortonworksのE14と同意見となる機会はそうそうないのですが、彼の最近のブログ記事はその絶好の機会を与えてくれました。私はE14の指摘した点のうちいくつかを足がかりとし、自分の意見を追加したいと思います。

最近のGigaOmの記事で、HDFSの代替として8つの製品が紹介されました 。彼らは実際には他に少なくとも4つの製品を紹介しませんでした。1年以上にわたって、ParaScaleはHDFSの代替として自社製品を販売していました(日立に資産を売却するまで)。Appistryは、HDFSの代替を販売し続けています。まだリリースされているかどうかはわかりませんが、シマンテック社のVeritas部門もHDFSの代替としてクラスタファイルシステム(CFS)を提案しているのは明白です。HP Ibrixは何年も前からHDFS APIをサポートしています。

GigaOmの記事が意味しているのは、代替物を推進している12の他のベンダーの存在はHDFSの何らかの欠陥を指摘しなければならないということです。他に誰がそのようなことをするでしょうか。これは本当に間違った結論です。私はこのことを聞きたいです。

私達は以下の事実からどのような結論を導きだせるでしょうか。

 

  • 12種類のファイルシステムは、HDFSの代替として自分自身を推進しています。
  • 大半の12の代替はHDFSよりも6-14年長い歴史を持っています(長く市場に残っているということは、それらに優位性があるということを意味しているはずです)
  • しかしHDFSは他の代替を圧倒するほどのエンタープライズのデータ(数百ペタバイト)を格納しています
  • HDFSは、大規模なベンダー·サポート(シスコ、デル、HP、IBM、NetApp、オラクル、SAP、SGI、Supermicro)の広範な基盤を持っています

私達 Cloudera は、HDFS がデータマネジメントの業界標準としてこれらのレガシーファイルシステムを圧倒している最中であると結論づけています。

実際に我々は前に似たようなストーリーを見てきました。20年前に戻ることができれば、我々は似たような状況を思い出すことができるでしょう。その市場では、

 

  • 12個以上の選択肢がありました。それらは、AIX、HP-UX、Solaris、Seequent、Darwin、BSD、SCO、Unixware などと呼ばれていました。
  • 全ての代替は遠い昔に機能の飽和に達していて、それはエンタープライズマーケティング担当者が隠すのに苦心していた事実でした。トリビア的質問ですが、SCOとOpenBSDとの間の機能的な違いを覚えていますか?
  • 彼らはしばしば独自の高価なハードウェアに密結合させました。
  • そうした断片化は、一回のR&Dサイクルで幅広い市場をターゲットにするアプリケーション開発者とハードウェア製造業者にとっては悪夢でした。

この状況は、Linuxの点火を待っている火薬庫のようなものでした。Linuxが成熟し、人気が成長するにつれて、多くのUnixベンダーが流行と戦おうとしました。多くのマーケティングとPRの費用は、オペレーティングシステムの新顔に対する恐怖、不確実性、疑問を創りだすために費やされました。しかしこれは無駄に終わり、時が経つにつれてLinuxはIT業界に非常に大きなインパクトを与えていきました。Linuxはすべてのハードウェアベンダに公平な場所を作成することで、ハードウェアコストのさらなる低下につながりました。Linuxはプラットフォームの断片化を減らすことでより多くのアプリケーションの導入につながりました。そしてまた、Linuxは互換性を確保するために、ソフトウェア、ハードウェア、デバイス製造業者がLinuxに貢献するような共有R&Dシステムにつながっていきました。

HDFSは断片化や過度のマージン、怪しげな道具の不要な機能の息苦しそうなマーケティングに疲れているお客様達の市場にLinux役として踊り出る準備ができています。今日でもまだプロプライエタリなUnixオペレーティングシステムは広く使われ続けています。プロプライエタリのファイルシステムについても同じことが言えるのは間違いありません。老製品は死なず、ただ関連性を失うのみなのです。

EricはHDFSの経済性、データ処理の帯域幅と信頼性を強調しました。機能レベルでは、素晴らしいセキュリティ、耐障害性、そして高可用性(そう、これはSPOFの問題を解決してくれます。CDH4のダウンロードはこちら!)を追加します。HDFSが提供するエンタープライズ顧客向けの機能よりもおそらくもっと重要なのは、

 

  • 選択 – お客様は任意の大手ハードウェアベンダと協力し、可能な限り最適なコストで手に入れることができます。決定権はお客様にあり、ベンダーがバンドルすると決定したものではありません。
  • 移植性 – お客様は、クラスタの再フォーマットや大量のデータのコピーの必要なく、HDFSベースのHadoopディストリビューションから別のHDFSベースのディストリビューションに移行することができます。もしペタバイトのデータを持っている場合、このような移植性は非常に重要です。もし移植性がなければ、次のリニューアルの交渉のとき、ベンダは信じられないほどの力を持つことになります。
  • 共有の業界R&D – 我々はClouderaにおいて、個々の社員によるHDFSに対しての個別の貢献を誇りに思っています。我々は皆、Hortonworksの同業者達と協力しています。しかし今日では、IBM、マイクロソフト、VMWareが各社の製品を向上させるためにHDFSに貢献しているのを見つけることができるでしょう。将来、ハードドライブ、ネットワーク、サーバなどのベンダも自社の製品がHDFSに最適化できるよう、HDFSにパッチを追加すると私は予想しています。

歴史が全く同じように繰り返すことは非常にまれであり、それはHDFSについても同じことが言えます。今日HDFSは、コンテンツ用のストレージ(Content Addressable Storage)やニアラインアーカイブとしては最適なファイルシステムではないかもしれません。しかし、Linuxがノートパソコンやルータ、携帯電話や空港のキオスク端末に使われるなどと15年前に誰が想像したでしょうか?

Linuxは、私たちに地図を描いてくれました。賢い投資家は既に後ろからついてきているのです。

 


Cloudera University

Clouderaが提供するApache Hadoopトレーニングと認定資格はこちらをご覧ください

Contact us

製品やサービス、サポート、トレーニングについてのより詳しい情報は、下記までお問い合わせください。

Cloudera全般(日本語)
info-jp@cloudera.com
二ユースレター購読 (日本語)
Clouderaからの日本語での二ユースレター購読希望の方は
info-jp@cloudera.com
件名: ML_SUBSCRIBE
でメールをお送りください