技術をかじる猫

適当に気になった技術や言語、思ったこと考えた事など。

Tanimoto関数でを勉強してみる

で、Tanimoto 関数は何かというと、T=Nc/(Na + Nb - Nc) で、ブックマークの情報で例にすると、A さんのお気に入りブックマーク数を Na、B さんのお気に入りブックマーク数を Nb、二人が共通してお気に入りに入れているブックマークを Nc としていると。

つまり、0 or 1 で評価するときにその傾向がどれだけ似ているのか、また、どれだけ同じサイトを巡回しているのかを 0 以上、1 以下で評価すると。

値が 1 に近づくほど、二人は同じ視点、同じ好みを持ってると言える訳だ。

欠点はその評価点数を考慮出来ない所か?完全に二値評価だから、5段階評価とかそう言ったものの比較には利用できない。Movielens はダメか…。

で、半日くらい探しまわったら良いのを見つけた。

オープンデータのまとめ - NAVER まとめ

ちなみに楽天も公開してた。*1

R.I.T. | Rakuten Institute of Technology | 楽天データ公開

更にライブドア(現LINE:買収された)も公開してる。

LINE Corporation · GitHub

で、色々データ探してたら…

個別銘柄株価データ 2014年06月20日

(゜д゜;三;゜д゜)な…ナンダト?

そして良さげなデータが見当たらない…とw

まぁ代わりに結構データを拾えそうなものが見つかったのである意味よしとしようか。

*1:何か「こうかい」と打つと「高階」で変換されてしまう今日このごろ