レコメンドエンジン - yamanetoshi's diary

色々確認中。以下とか。

MapReduce風の手順でレコメンドエンジンを作る

ここで計算されてる_ベクトルの近さ_なんですが、似た頻度のソレが多いかどうか、というかデータの山があるのかどうかによってその値が変わってくる、という理解なんですがどうなんでしょ。
例えば pmf なナニが以下な形だった場合

{{1, 0.1}, {2, 0.1}, {3, 0.1}, {4, 0.1}, {5, 0.1}, 
 {6, 0.1}, {7, 0.1}, {8, 0.1}, {9, 0.1}, {10, 0.1}}

ベクトルの近さはどの要素も 1 (/ 0.1 0.1) になるはず。逆に以下な形だった場合

{{1, 0.4}, {2, 0.3}, {3, 0.2}, {4, 0.1}}

ベクトルの近さは例えば 2 な key だと 1 (/ 0.3 0.3) だし 4 な key だと 1/3 (/ 0.1 0.3) になるのかどうか。近さ、というのは多いものに近いかどうか、という事なのかな。確かに多いものに近い方が類似、という見方はあるかもしれません。

基本的な考えかたとして

あるページを見たユーザが見たことのあるページについてその重みにベクトルの類似度を掛けてページ毎に積算していくのか。最終的に比較対象になったものを除いたものを積算された重み順 (降順) でソートした上位の順位が、ということなのかどうか。
週末に色々確認入れてみる方向です。面白そうなんですが、Python で実装できそげにないあたりが残念だったりなんかして (何