アドバンストテクノロジーラボの石川有です.Hadoop/Spark Conference Japan 2016 にて,「Spark MLlib Now and Beyond」というタイトルで発表致しました.

発表資料

内容は,機械学習初学者のエンジニアやSpark初学者のデータ分析者向けのエントリーなものになります.

訂正

発表中口頭で,「機械学習モデルや Pipeline を HDFS や Amazon S3 に永続化できます」という説明をしました.しかしきちんと確認してみたところ,デフォルトのファイルシステムを HDFS にしているとき,Spark 1.6.0 では Amazon S3 上に永続化できないことがわかりました.

ということで,さっそくそのバグを修正しました.Spark 1.6.1では直されてリリースされます.

TAGS: