Twitter メッセージを解析してみた
細かいやり方やコードは後日とあるサイトで。
試しに Twitter をStreamで取得しつつ解析を Akka で並列化しながら走らせてみた。
日本語のみを 5 スレッドでガリガリやってみた。
[INFO] [05/28/2013 23:36:57.499] [sample-akka.actor.default-dispatcher-5] [akka://sample/user/token_parse/$d] Word(雀,名詞,一般) 2 [INFO] [05/28/2013 23:36:57.499] [sample-akka.actor.default-dispatcher-5] [akka://sample/user/token_parse/$d] Word(勉強,動名詞,自立) 2 [INFO] [05/28/2013 23:36:57.499] [sample-akka.actor.default-dispatcher-5] [akka://sample/user/token_parse/$d] Word(さ,動名詞,自立) 2 [INFO] [05/28/2013 23:36:57.500] [sample-akka.actor.default-dispatcher-5] [akka://sample/user/token_parse/$d] Word(午後9時,名詞,固有名詞) 2 [INFO] [05/28/2013 23:36:57.500] [sample-akka.actor.default-dispatcher-2] [akka://sample/user/token_parse/$e] Word(時間,名詞,副詞可能) 2 [INFO] [05/28/2013 23:36:57.525] [sample-akka.actor.default-dispatcher-5] [akka://sample/user/token_parse/$d] Word(反日左翼,名詞,固有名詞) 1 [INFO] [05/28/2013 23:36:57.538] [sample-akka.actor.default-dispatcher-2] [akka://sample/user/token_parse/$e] Word(ハンコ,名詞,固有名詞) 2 [INFO] [05/28/2013 23:36:57.539] [sample-akka.actor.default-dispatcher-5] [akka://sample/user/token_parse/$d] Word(美文字,名詞,固有名詞) 1 [INFO] [05/28/2013 23:36:57.539] [sample-akka.actor.default-dispatcher-5] [akka://sample/user/token_parse/$d] Word(記事,名詞,一般) 1 [INFO] [05/28/2013 23:36:57.540] [sample-akka.actor.default-dispatcher-2] [akka://sample/user/token_parse/$e] Word(www,名詞,一般) 2 [INFO] [05/28/2013 23:36:57.541] [sample-akka.actor.default-dispatcher-5] [akka://sample/user/token_parse/$d] Word(ベテラン,名詞,一般) 1 [INFO] [05/28/2013 23:36:57.541] [sample-akka.actor.default-dispatcher-2] [akka://sample/user/token_parse/$e] Word(フォロー,名詞,一般) 2 [INFO] [05/28/2013 23:36:57.542] [sample-akka.actor.default-dispatcher-5] [akka://sample/user/token_parse/$d] Word(一口,名詞,一般) 1 [INFO] [05/28/2013 23:36:57.543] [sample-akka.actor.default-dispatcher-2] [akka://sample/user/token_parse/$e] Word(J('ー`),動名詞,自立) 2 [INFO] [05/28/2013 23:36:57.544] [sample-akka.actor.default-dispatcher-5] [akka://sample/user/token_parse/$d] Word(頭,動名詞,自立) 1 [INFO] [05/28/2013 23:36:57.544] [sample-akka.actor.default-dispatcher-2] [akka://sample/user/token_parse/$e] Word(ー,名詞,一般) 2 [INFO] [05/28/2013 23:36:57.545] [sample-akka.actor.default-dispatcher-5] [akka://sample/user/token_parse/$d] Word(日本文明,名詞,固有名詞) 1 [INFO] [05/28/2013 23:36:57.545] [sample-akka.actor.default-dispatcher-5] [akka://sample/user/token_parse/$d] Word(倒幕,名詞,サ変接続) 1 [INFO] [05/28/2013 23:36:57.545] [sample-akka.actor.default-dispatcher-2] [akka://sample/user/token_parse/$e] Word(今日,名詞,副詞可能) 1 [INFO] [05/28/2013 23:36:57.546] [sample-akka.actor.default-dispatcher-5] [akka://sample/user/token_parse/$d] Word(センス,名詞,一般) 1 [INFO] [05/28/2013 23:36:57.546] [sample-akka.actor.default-dispatcher-2] [akka://sample/user/token_parse/$e] Word(人,名詞,一般) 1 [INFO] [05/28/2013 23:36:57.547] [sample-akka.actor.default-dispatcher-5] [akka://sample/user/token_parse/$d] Word(効率,名詞,一般) 1 [INFO] [05/28/2013 23:36:57.547] [sample-akka.actor.default-dispatcher-2] [akka://sample/user/token_parse/$e] Word(ベートーベン,名詞,固有名詞) 1 [INFO] [05/28/2013 23:36:57.548] [sample-akka.actor.default-dispatcher-5] [akka://sample/user/token_parse/$d] Word(パ・リーグ,名詞,固有名詞) 1 [INFO] [05/28/2013 23:36:57.548] [sample-akka.actor.default-dispatcher-2] [akka://sample/user/token_parse/$e] Word(イントラ化,名詞,固有名詞) 1 [INFO] [05/28/2013 23:36:57.549] [sample-akka.actor.default-dispatcher-5] [akka://sample/user/token_parse/$d] Word(ー,動名詞,自立) 1
凄いなものの30秒程度で 621 個の名詞と 342 通りの組み合わせが発生していた。
というか日本語に絞れば個人マシンでも一応追いつくのね。
これ統計の取り方次第では金になるぜよ。