Profile cover photo
Profile photo
Atsushi KOMIYA
35 followers -
よろずやエンジニアリングしています。
よろずやエンジニアリングしています。

35 followers
About
Atsushi's posts

Post has attachment
「詳解 Apache Spark」を共著で執筆しました (ので、みなさんぜひご購入ください!)
はじめに 昨年の秋ごろから、リクルートテクノロジーズの石川有さんらとともに共著で執筆していた「 詳解 Apache Spark 」 が遂に本日 4/29 に、技術評論社より発売となりました!
なお、発売に先立って出版社および共著陣より献本させていただいた方々から、ありがたいことに書評や感想をいただいております。ぜひご購入の際の参考にしていただければと思います。 豊富な具体例,DataFrameの詳細な説明,Spark1.6で導入された機能の説明,統一感のある文体・構成など,データ解析者にも得るものの多い素晴ら...

Post has attachment
OS X で XGBoost & xgboost4j をビルドする手順 2016-03-07 版
いつのまにやら XGBoost のビルド手順が変更されていたので、メモしておきます (と言っても、 Installation guide に書いていることをほとんどそのまま日本語に直しただけですけどね)。 リポジトリの clone 手元に XGBoost の git リポジトリが存在しない場合は、以下のコマンドで submodule 含めて clone してしまいましょう。 git clone --recursive https://github.com/dmlc/xgboost もし手元にリポジトリが存在す...

Post has attachment
エンジニアと機械学習、そして自分自身の振り返り ( #CROSS2016x に登壇しました)
2/5 (金) に開催された CROSS 2016 の「 おーい、いそのー、エンジニアにとっての機械学習について考えようぜー! 」というセッションにパネラーとして登壇してきました。セッションの内容はリンク先からの引用になりますが、 「機械学習は興味あるが、身に付けるためには何が必要?」 「機械学習を学ぶためにはいったい何からはじめればいい?」 「機械学習を身に付けたとして、その先のエンジニアとしてのキャリアはどうなる?」 と思ってる、そこのアナタ。 本セッションでは、機械学習や統計はもともと専門じゃないけど気...

Post has attachment
弊社主催のイベントで、広告の配信最適化について喋りました
僕は最近こんなお仕事をしているんですよー、という意味をこめて喋ってきました。 SmartNews TechNight Vol.5 : SmartNews Ads の配信最適化の仕組みはどうなってるの? (エンジニア / SmartNews Ads : 小宮 篤史) from SmartNews, Inc. プレゼンテーションに盛り込む内容について、細かいことを言わない上司に恵まれているので、僕が担当している・していたお仕事の特に興味深そうなところをほぼすべてを余すことなくしたためた資料です。 遡ること 1 年...

Post has attachment
Spark/MLlib 向けに、評価メトリクスとして Logarithmic loss (LogLoss) を利用する Evaluator を実装してみた
ロジスティック回帰を使って確率を予測したいときに「評価メトリクスとして使いたいのは AUC (areaUnderROC) じゃなくて Logarithmic loss (LogLoss) なんだよ!」と常々思っているのですが、現在の MLlib には二値分類 ( BinaryClassificationEvaluator ) 、他クラス分類 ( MulticlassClassificationEvaluator )、回帰 ( RegressionEvaluator ) 用の Evaluator 実装しか用意さ...

Post has attachment
xgboost4j より数千倍速く predict できる Pure Java な XGBoost 互換の予測器を作ってみた
TL;DR XGBoost で構築した予測モデルを Java から利用したい、それも特徴ベクトルが一つ一つ、任意のタイミングで与えられるような オンライン環境下 で リアルタイムな予測 を実現するために利用したい、という目的を叶えるためのモジュールを作りました。 Github: komiya-atsushi/xgboost-predictor-java Bintray: xgboost-predictor (XGBoost の凄さとか XGBoost そのものの使い方とか GBDT/GBRT の解説は本エント...

Post has attachment
よりコンパクトな Bloom filter 的なものを探して
Approximate membership query (AMQ) が実現できるデータ構造としてそれなりに広く使われていそうな Bloom filter ですが、機能性を高めたバリエーションはそこそこ存在する一方で、空間効率を追求した・コンパクトなバリエーションはあんまり見つからないものです。 ここ最近、ふとデータ構造熱が高まってきたこともあったので、オリジナルの Bloom filter よりもコンパクトに表現できる代替データ構造を探してメモしてみました。 Compressed bloom filters...

Post has attachment
SCIP を使って最適化問題を解いてみる
最適化問題、とりわけ線形計画問題が気になり始めるお年頃になってきたので、 SCIP というソルバーを使ってみましたよ、というメモ。 インストール まずは手元にある MBP に、 SCIPをMacにインストール - Qiita の手順を参考にインストールを試してみる。ところが、 src/rational.h:32:10: fatal error: 'gmp.h' file not found などの gmp.h がない旨のコンパイルエラーが発生してしまう状況に遭遇してインストールできない。
なので、ひとまず m...

Post has attachment
クリック率やコンバージョン率の信頼区間を求めたい! (3) シミュレーション編
過去二回にわたって、 クリック率やコンバージョン率の信頼区間を求めたい! (1) クリック率やコンバージョン率の信頼区間を求めたい! (2) 実装編 と綴ってきた、CTR, CVR の区間推定をするお話の総集編的なエントリです。 今回は commmons-math3 を使って、各区間推定方法における実際のカバレッジを測定するシミュレータを作ってみました。あわせて測定結果より、それぞれの方法の特性を確認していきます。 まずは復習から 「二項比率の区間推定 (英語 Wikipedia) 」は、統計的に独立・有限回...

Post has attachment
第 42 回 #TokyoWebmining 深層学習・表現学習 徹底活用 祭りに行ってきたよ
今回の TokyoWebmining はここ最近、特に注目を集めている Deep Learning と word2vec がトピックということで、参加者募集も数分で枠が埋まってしまうほどの大人気っぷりでした。 せっかくなので、(参加したくても参加できなかった方々も多いことかと思いますし)たまにはまとめエントリを、会場内での質問やディスカッションを中心に書いてみようかと思います。 (聞き間違い・勘違いなどがあるかと思いますので、気づかれたかたはツッコミ願います) 深層学習時代の自然言語処理 by @unnono...
Wait while more posts are being loaded