レコメンドエンジン
色々確認中。以下とか。
ここで計算されてる_ベクトルの近さ_なんですが、似た頻度のソレが多いかどうか、というかデータの山があるのかどうかによってその値が変わってくる、という理解なんですがどうなんでしょ。
例えば pmf なナニが以下な形だった場合
{{1, 0.1}, {2, 0.1}, {3, 0.1}, {4, 0.1}, {5, 0.1}, {6, 0.1}, {7, 0.1}, {8, 0.1}, {9, 0.1}, {10, 0.1}}
ベクトルの近さはどの要素も 1 (/ 0.1 0.1) になるはず。逆に以下な形だった場合
{{1, 0.4}, {2, 0.3}, {3, 0.2}, {4, 0.1}}
ベクトルの近さは例えば 2 な key だと 1 (/ 0.3 0.3) だし 4 な key だと 1/3 (/ 0.1 0.3) になるのかどうか。近さ、というのは多いものに近いかどうか、という事なのかな。確かに多いものに近い方が類似、という見方はあるかもしれません。
基本的な考えかたとして
あるページを見たユーザが見たことのあるページについてその重みにベクトルの類似度を掛けてページ毎に積算していくのか。最終的に比較対象になったものを除いたものを積算された重み順 (降順) でソートした上位の順位が、ということなのかどうか。
週末に色々確認入れてみる方向です。面白そうなんですが、Python で実装できそげにないあたりが残念だったりなんかして (何