ATLの大杉です.以前公募していたリクルート自然言語処理ハッカソンの報告です.

遠方1から総勢10名の参加者が,PCPの一室に5日間引きこもって,リクルートグループの運営している、あるサービス内のニュースコンテンツと商材情報の,それらに紐付いたアクセスログ2を分析しました.

1hackathon_work

ちょっと狭かったことが反省点ですが、非常に集中できる環境が提供できたかな,と思います.

関根聡

ニューヨーク大学の関根聡先生も見学に来られました.

1hackathon_prezen

最終日はリクルートテクノロジーズ社長も含めた社員の前でプレゼンを行い,自分の分析アイデアや分析結果の素晴らしさについて語っていただきました.

1hackathon_ending

ハッカソンなので順位もつけます.最優秀賞は某電子書籍デバイス,優秀賞(テクノロジー部門,技術部門の2つ)は図書券1万円分でした.

  1. ニュース記事内の単語間の距離を計算することで,「受けるキーワードの組み合わせの生成」
  2. 高PVの記事タイトルから「受けた記事の文法構造の発見」
  3. 記事内容からPVを予測した上で,内容だけからは説明のつかない低PVの記事タイトルの特徴の考察

など,同じデータセットでもかなりバラエティに富んだ結果が生まれました.

終わってみて印象的だったのは,技術的には比較的劣っていたはずの(初めてPythonやSQLを覚えた)学部生3が,良い結果を出せていたことでした.

「今自分ができる手法」に引っ張られることがなく,何ができるのかをデータに真摯に向き合って考えたことが大きかったではないのか?と勝手に考えています.生データをどれだけしっかりと把握できていたのかは分析する上で非常に大きな要因です.

参加者も運営も,どちらも良い勉強&刺激になった良いイベントでした.携わった皆様,ありがとうございました.好評につき,近々第2回を企画したいと思います.では,またノシ


  1. 近畿を中心に,東京になかなか来れない方を優先しました.交通費,ホテル代はリクルートテクノロジーズ持ちの太っ腹仕様でした.
  2. 協力: リクルート住まいカンパニー
  3. ガチで自然言語処理の研究をしている修士の方と比較して,という意味です.プログラミング初心者などでは全くなかったです.ハッカソン期間中にすごい成長しました.