技術をかじる猫

適当に気になった技術や言語、思ったこと考えた事など。

Twitter メッセージを解析してみた

細かいやり方やコードは後日とあるサイトで。

試しに Twitter をStreamで取得しつつ解析を Akka で並列化しながら走らせてみた。
日本語のみを 5 スレッドでガリガリやってみた。

[INFO] [05/28/2013 23:36:57.499] [sample-akka.actor.default-dispatcher-5] [akka://sample/user/token_parse/$d]   Word(雀,名詞,一般)      2
[INFO] [05/28/2013 23:36:57.499] [sample-akka.actor.default-dispatcher-5] [akka://sample/user/token_parse/$d]   Word(勉強,動名詞,自立)  2
[INFO] [05/28/2013 23:36:57.499] [sample-akka.actor.default-dispatcher-5] [akka://sample/user/token_parse/$d]   Word(さ,動名詞,自立)    2
[INFO] [05/28/2013 23:36:57.500] [sample-akka.actor.default-dispatcher-5] [akka://sample/user/token_parse/$d]   Word(午後9時,名詞,固有名詞)     2
[INFO] [05/28/2013 23:36:57.500] [sample-akka.actor.default-dispatcher-2] [akka://sample/user/token_parse/$e]   Word(時間,名詞,副詞可能)        2
[INFO] [05/28/2013 23:36:57.525] [sample-akka.actor.default-dispatcher-5] [akka://sample/user/token_parse/$d]   Word(反日左翼,名詞,固有名詞)    1
[INFO] [05/28/2013 23:36:57.538] [sample-akka.actor.default-dispatcher-2] [akka://sample/user/token_parse/$e]   Word(ハンコ,名詞,固有名詞)      2
[INFO] [05/28/2013 23:36:57.539] [sample-akka.actor.default-dispatcher-5] [akka://sample/user/token_parse/$d]   Word(美文字,名詞,固有名詞)      1
[INFO] [05/28/2013 23:36:57.539] [sample-akka.actor.default-dispatcher-5] [akka://sample/user/token_parse/$d]   Word(記事,名詞,一般)    1
[INFO] [05/28/2013 23:36:57.540] [sample-akka.actor.default-dispatcher-2] [akka://sample/user/token_parse/$e]   Word(www,名詞,一般)  2
[INFO] [05/28/2013 23:36:57.541] [sample-akka.actor.default-dispatcher-5] [akka://sample/user/token_parse/$d]   Word(ベテラン,名詞,一般)        1
[INFO] [05/28/2013 23:36:57.541] [sample-akka.actor.default-dispatcher-2] [akka://sample/user/token_parse/$e]   Word(フォロー,名詞,一般)    2
[INFO] [05/28/2013 23:36:57.542] [sample-akka.actor.default-dispatcher-5] [akka://sample/user/token_parse/$d]   Word(一口,名詞,一般)    1
[INFO] [05/28/2013 23:36:57.543] [sample-akka.actor.default-dispatcher-2] [akka://sample/user/token_parse/$e]   Word(J('ー`),動名詞,自立)        2
[INFO] [05/28/2013 23:36:57.544] [sample-akka.actor.default-dispatcher-5] [akka://sample/user/token_parse/$d]   Word(頭,動名詞,自立)    1
[INFO] [05/28/2013 23:36:57.544] [sample-akka.actor.default-dispatcher-2] [akka://sample/user/token_parse/$e]   Word(ー,名詞,一般)      2
[INFO] [05/28/2013 23:36:57.545] [sample-akka.actor.default-dispatcher-5] [akka://sample/user/token_parse/$d]   Word(日本文明,名詞,固有名詞)    1
[INFO] [05/28/2013 23:36:57.545] [sample-akka.actor.default-dispatcher-5] [akka://sample/user/token_parse/$d]   Word(倒幕,名詞,サ変接続)        1
[INFO] [05/28/2013 23:36:57.545] [sample-akka.actor.default-dispatcher-2] [akka://sample/user/token_parse/$e]   Word(今日,名詞,副詞可能)        1
[INFO] [05/28/2013 23:36:57.546] [sample-akka.actor.default-dispatcher-5] [akka://sample/user/token_parse/$d]   Word(センス,名詞,一般)  1
[INFO] [05/28/2013 23:36:57.546] [sample-akka.actor.default-dispatcher-2] [akka://sample/user/token_parse/$e]   Word(人,名詞,一般)      1
[INFO] [05/28/2013 23:36:57.547] [sample-akka.actor.default-dispatcher-5] [akka://sample/user/token_parse/$d]   Word(効率,名詞,一般)    1
[INFO] [05/28/2013 23:36:57.547] [sample-akka.actor.default-dispatcher-2] [akka://sample/user/token_parse/$e]   Word(ベートーベン,名詞,固有名詞)        1
[INFO] [05/28/2013 23:36:57.548] [sample-akka.actor.default-dispatcher-5] [akka://sample/user/token_parse/$d]   Word(パ・リーグ,名詞,固有名詞)  1
[INFO] [05/28/2013 23:36:57.548] [sample-akka.actor.default-dispatcher-2] [akka://sample/user/token_parse/$e]   Word(イントラ化,名詞,固有名詞)  1
[INFO] [05/28/2013 23:36:57.549] [sample-akka.actor.default-dispatcher-5] [akka://sample/user/token_parse/$d]   Word(ー,動名詞,自立)    1

凄いなものの30秒程度で 621 個の名詞と 342 通りの組み合わせが発生していた。
というか日本語に絞れば個人マシンでも一応追いつくのね。

これ統計の取り方次第では金になるぜよ。