【ワードクラウド】有名映画の感想レビューから作成してみた。【python】

シェアする

スポンサーリンク
映画 君の名は ワードクラウド Word Cloudで文章の単語出現頻度を可視化する。[Python]を参考にした

なぜタイトルの話題になったかというと、株の情報をtwitterなどのビックデータを使って分析できないかと調べていたら

Twitter Apiの挙動が荒すぎて、日本語データを取得するのに使いづらかったので保留中(Streaming Apiで取得できるちゃできるんですけどね。Trackは日本語とか対応してないみたいですが)、以下の記事を見つけました。

ディープラーニングを使って転職会議の企業クチコミデータを感情分析してみるという記事を見てテストデータとして映画の感想レビューでも同様に使えないかなと。

映画感想レビューの情報を集めているついでに、このテキストデータを使って何かできないかとWord Cloudで文章の単語出現頻度を可視化する。[Python]という見た目に面白そうなのがあったのを思い出し、参考にしていくつか出力してみました。

ワードクラウドとは

ワード‐クラウド(word cloud) 文章中で出現頻度が高い単語を複数選び出し、その頻度に応じた大きさで図示する手法。 ウェブページやブログなどに頻出する単語を自動的に並べることなどを指す。 文字の大きさだけでなく、色、字体、向きに変化をつけることで、文章の内容をひと目で印象づけることができる。

WordCloudのPythonのサンプルとほぼ変わらないので不要な単語が削除できてない感じになってますが、以下いくつかワードクラウドの表示結果です。

スター・ウォーズ フォースの覚醒

映画 スターウォーズ ワードクラウド Word Cloudで文章の単語出現頻度を可視化する。[Python]を参考にした

スターウォーズは子どもの頃にテレビで中途半端に見たからか、私の中では「スター」で始まるといえば、海外ドラマ(1994映画じゃない)「スターゲイト」になってしまいます。

君の名は。

映画 君の名は ワードクラウド Word Cloudで文章の単語出現頻度を可視化する。[Python]を参考にした

「映画」という単語主張しすぎ。

新海誠監督の長編アニメーション映画。

シン・ゴジラ

映画 シン・ゴジラ ワードクラウド Word Cloudで文章の単語出現頻度を可視化する。[Python]を参考にした

総監督・脚本は庵野秀明、監督・特技監督は樋口真嗣、主演は長谷川博己。東宝製作のゴジラシリーズの第29作であり、『ゴジラ FINAL WARS』以来約12年ぶりの日本製作のゴジラ映画である。

Word Cloud

参考にしたソースだとストップワードがunicodeで渡せないよとエラーがでました。unicode,strの型の違い?ここはまだよくわかってないので、とりあえずre.subとかで先にカットしておきました。

MeCab

日本語の単語抽出でよく使われますね。mecab-ipadic-neologdという最近のワードも含まれる辞書があるようですが、「君の名は。」とかは含まれていないんですかね。私が使用した「君の名は。」の感想レビューに「君の名は。」という単語が含まれていなかったのかもしれません。

mecab-ipadic-NEologd とは

mecab-ipadic-NEologd は、多数のWeb上の言語資源から得た新語を追加することでカスタマイズした MeCab 用のシステム辞書です。

Web上の文書の解析をする際には、この辞書と標準のシステム辞書(ipadic)を併用することをオススメします。

MeCab 用の新語辞書 mecab-ipadic-neologd を公開しました
mecab-ipadic-NEologd : Neologism dictionary for MeCab

error: