https://code.google.com/p/word2vec/ 

で少し遊んでみた。いわゆる deep learning で 単語のベクトル表現を学習してくれる。

面白いのは、2つのベクトルの差が、2つの単語の関係をよく近似してくれること。

It was recently shown that the word vectors capture many linguistic regularities, for example vector operations vector('Paris') - vector('France') + vector('Italy') results in a vector that is very close to vector('Rome'), and vector('king') - vector('man') + vector('woman') is close to vector('queen')

日本語のコーパスを mecab で解析して、何個か試してみた。うまくいった例を抜き出したとはいえ、それっぽい結果が得られた。いいじゃん。


A B C → X  (A → Bの関係に対し、 C → X に当てはまるXを探す)

グーグル ヤフー トヨタ → 日産
渋谷 新宿 札幌 → 旭川
警察 泥棒 正義 → くそ
平和 戦争 左 → 右
社員 会社 生徒 → 小学校
空 海 天井 → 床板
生きる 死ぬ 動く → 止まる
テレビ ラジオ 大阪 → 京都
車 車輪 人間 → 海馬
買う 売る 行く → 帰る
知る 忘れる 借りる → 貸す
夏 秋 冬 → 春
夏 中元 冬 → 歳暮
ニコン キヤノン ソニー → 東芝
扇風機 クーラー 空気 → 冷気
広島 牡蠣 北海道 → 昆布
Shared publiclyView activity