夏目漱石さんの「こころ」の心を自然言語処理モデルGiNZAを用いて感情分析してみた

2

2023年01月08日 13:14

こんにちにゃんです。
水色桜(みずいろさくら)です。
今回は言語商会・長岡技術科学大学、山本先生の日本語感情表現辞書( https://www.jnlp.org/GengoHouse/snow/d18 )を用いて夏目漱石さんの「こころ」(青空文庫( https://www.aozora.gr.jp/    
))の感情分析を行っていきたいと思います。
山本先生のコーパスは単語に対して被験者の3人が48の感情のうちどの感情を感じたかが記されています。このコーパスを用いることで、文章に含まれている最も強い感情を特定することが可能です。
解析結果は次のような感じです。
image.png
内訳を見ると、好きという感情が最も多く出現していることがわかります。ネタバレになってしまうので詳しくは言えませんが、「こころ」という文章の内容を鑑みると適切な内訳であると感じました。

前置きはこのくらいにしてプログラムの構成について話していきます。
文章の形態素解析には自然言語処理ライブラリGiNZAを用いました。GiNZAはリクルートさんと国立国語研究所さんが開発したものであり、高精度な解析が可能なライブラリです。
形態素解析で単語に分割した後、言語商会・長岡技術科学大学山本先生の日本語感情表現辞書( https://www.jnlp.org/GengoHouse/snow/d18 )に検索をかけます。そして、単語ごとに含まれている感情を抽出し、文全体の感情を計測します。

では早速ソースコードを見てみましょう。

img

流れは先ほど説明したとおりです。

img

まずGiNZAで文章の解析を行い、

img

その文章の持つ感情を辞書から取得します。あとは感情の出現回数を記録してグラフとして表示するだけです。
意外と簡単だと思われたのではないでしょうか?
もしよろしければ皆さんもいろいろな文章の感情分析を行ってみてください。
ではばいにゃん~

# Python
2

診断を受けるとあなたの現在の業務委託単価を算出します。今後副業やフリーランスで単価を交渉する際の参考になります。また次の単価レンジに到達するためのヒントも確認できます。

目次を見る