Tanimoto関数でを勉強してみる
で、Tanimoto 関数は何かというと、T=Nc/(Na + Nb - Nc)
で、ブックマークの情報で例にすると、A さんのお気に入りブックマーク数を Na、B さんのお気に入りブックマーク数を Nb、二人が共通してお気に入りに入れているブックマークを Nc としていると。
つまり、0 or 1 で評価するときにその傾向がどれだけ似ているのか、また、どれだけ同じサイトを巡回しているのかを 0 以上、1 以下で評価すると。
値が 1 に近づくほど、二人は同じ視点、同じ好みを持ってると言える訳だ。
欠点はその評価点数を考慮出来ない所か?完全に二値評価だから、5段階評価とかそう言ったものの比較には利用できない。Movielens はダメか…。
で、半日くらい探しまわったら良いのを見つけた。
R.I.T. | Rakuten Institute of Technology | 楽天データ公開
更にライブドア(現LINE:買収された)も公開してる。
で、色々データ探してたら…
(゜д゜;三;゜д゜)
な…ナンダト?
そして良さげなデータが見当たらない…とw
まぁ代わりに結構データを拾えそうなものが見つかったのである意味よしとしようか。
*1:何か「こうかい」と打つと「高階」で変換されてしまう今日このごろ