imtecinc210727’s blog

Python学習中です♬

pythonでこんなことやってみた(自然言語処理編)

おはようございます!

 

せっかくPythonを学習していますので、具体的に何を学んでいるのか?

について簡単に書きたいと思います!

 

現在私は ” 自然言語処理 ” について学習しています。

そもそも自然言語処理ってなに? と思うかもしれません。

結論から申し上げますと、我々の普段用いる文章(言語)を分析したり予測するための技術です。この技術のおかげで今書いているブログ記事をはじめ、SNS、メールなど様々な「文章」がデータとして日々蓄積されるようになりました。

 

一番簡単なところを紹介すると、

どのような単語が小説の中で何回登場するかといった分析ができるシステム

をご紹介します。

 

題材は宮沢賢治の不朽の名作『銀河鉄道の夜』です。

銀河鉄道の夜といえば、私は

「どうして僕はこんなに悲しいのだろう」

といったジョバンニのセリフが好きです。

物理的に近くても心が遠いと感じた時に放ったジョバンニのセリフですよね

孤独と冒険を描くこの名作の核心ともいえる言葉で、

すごい記憶に残ってました。もう一回読もうかな。。。。

 

話が逸れたので戻します(笑)

 

青空文庫から文章全文のデータをダウンロードしてきて

分析するためのコードを書きます(画像のコードは一部です)

f:id:imtecinc210727:20210826011605p:plain

少し見づらいかもしれませんが小説内で

最も多く登場した言葉は「の」で1265回登場しています。

ジョバンニは190回登場してますね!

 

今後はこうしたデータをさらに磨き上げ、データを見易くグラフ化したり、

宮沢賢治の文章の傾向を分析したりします。

 

難しい分非常にやりがいがありますね!

また皆さんにご紹介できるように精進します!!!