言語処理

python3で日本語文章の単語を集計する。

概要 「この文章の中でもっとも出てくる単語はなにか分かりますか??」という自然言語処理をしている人からすると抽象度の高い質問に対してまぁなんとなく適当に答えるというものです。 文字列をカウントする時の手順。 形態素解析などを用いて文章を単語に分…

Basic Summarization Modelを用いた文章要約ツールの作成

概要 前回のブログでBasic Summarization Modelを用いた文章要約をしてみました。 syu-m-5151.hatenablog.com なので、ツールとして使えるようにしました。 github.com 小ネタ bannerコマンドとは引数で渡した文字を#で大きく表示すものです。 $banner word_…

Basic Summarization Modelを用いてアイドルのブログの文章をさらっと読むオタク気持ち悪い

概要 僕自身が精神的に追い込まれると何も進捗を生やせなくなるアイドルオタクになる。しかし、怠惰なオタクはいちいちアイドルの意味のない文章を全て読んでいるわけにはいきません。要約する。 前回 アイドルのホームページから画像を自動で取得するオタク…

1000番煎じ!Python3でmecabを愛でたい -環境構築編-

はじめに 道にあった蟻の巣を見ていたら形態素解析をやりたいと思い至りました。 なので、下調べも含めてブログに書いていきたいと思います。 (Python3を使っていてpip3でmecabをインストール出来ない人には価値のある記事) 概要 形態素解析 - Wikipedia 形…

就活生が東京で時間が空いたしWebスプレイピングのことがよく分かんないのでPythonでちょこちょこってやった話。

2016年4月20日現在で必要なモジュールがなかったので一部、Python2で行っているため注意していただきたい。 今回はPython3でWebスクレイピングを行おうとおもう github.com サンプルコードはここに置いてあるので各自、自己責任で取り扱ってもらいたい。 コ…