IMG_5114
IMG_5235

こんにちは,時差ボケがあるようでないような,ないようであるような,ないと信じたい ATL の石川有です.
昨日に引き続き Spark Summit 2014 の報告として,2日めのハイライトをお伝えしたいと思います.

  • ビッグデータ分析におけるトレンドのキーテクノロジー
  • Spark の展望
  • Hive on Spark

ビッグデータ分析におけるトレンドのキーテクノロジー

SAP の Aiaz Kazi さんの発表でも話されたことですが,ビッグデータ分析のシステム上はやはり「分散インメモリでスケールアウト」する必要があります.
その上で,バッチ処理からストリーミング処理のようなリアルタイム性やそれに近いものの分析をサポートするようなミドルウェアの開発が盛んです.
Spark はクラスタによる分散インメモリ処理や Spark Streaming のようなストリーミング処理にも対応できます.

このような技術的トレンドに加えて,企業におけるデータ分析としてはデータ分析作業の「コラボレーション」をどうサポートするかなどが,データ分析サービスを提供する側のトレンドのようです.
また高速にインタラクティブに分析できるように目指すところも,ひとつのトレンドだと思います.

Spark の展望

  • The Future of Spark
  • 発表者:Patrick Wendell (Databricks)

Spark をメインに開発している Databricks 社の Cofounder である Patrick Wendell さんが Spark の展望について話してくれました.
Patrick Wendell さんは,2014-07-08 に開催される Hadoop Conference Japan 2014 でも公演されるので,まだ申し込んでいなくて興味のある方はぜひお申込みください.弊社リクルートテクノロジーズも後援しております.

Spark プロジェクトが目指すものはいくつかありますが,そのうちの2つを紹介します.

データサイエンティストやエンジニアをより自由に

環境構築やメンテナンス性の高い分析環境を提供することでエンジニアの負担を軽くし,より高速な分析が簡単に行える環境を提供することで分析にかかる負担を軽くすることを目指しているようです.
Spark では,バッチ処理に加えて,インタラクティブに分析できる環境やストリーミング処理でリアルタイムの分析にもひとつのフレームワークで対応できるのが特徴です.

そのほかにも Spark の処理を SQL で記述できる Spark SQL が最近リリースされた version 1.0 で追加されました.
また R から Spark を実行して,R の 3rd party ライブラリを Spark 上で実行できるようにする SparkR: Interactive R programs at Scale の発表もありました.

強力な標準ライブラリの提供

Spark 上で機械学習を実行できる MLLib などを提供することで,Spark 上でさまざまな分析処理を行えるようにしていくようです.
1日目の Scalable Distributed Decision Trees in Spark MLLib でも,Spark で Decision Tree を実行するライブラリについて紹介がされました.

このように Spark をビッグデータ分析のコアエンジンとして機能させることが,Spark の目標といえます.

Hive on Spark

上記のコアエンジンとしての Spark の一つの例として,Apache Hive を Spark で実行できるようにする開発が進められているというのが The Emergence of the Enterprise Data Hub にて発表されました.

おそらく多くの企業で実行されている Hadoop 系のバッチ処理は,Apache Hive で実装されているのではないかと思います.
その Hive を Hadoop MapReduce だけでなく,Tez や Apache Spark 上でも実行できるようにすることで,より高速なデータ分析環境を提供しようとしているようです.

このほかにもメモリにも展開できるフォールトトレラントで分散のファイルシステムである Tachyon についての発表もありました.
この記事では書ききれないことがたくさんあるので,私も 2014-07-08 の Hadoop Conference Japan 2014 に参加する予定なので,捕まえてご質問ください.

TAGS: