Subscribed unsubscribe Subscribe Subscribe

就活生が東京で時間が空いたしWebスプレイピングのことがよく分かんないのでPythonでちょこちょこってやった話。

python sec shell Ubuntu Network 言語処理

 

2016年4月20日現在で必要なモジュールがなかったので一部、Python2で行っているため注意していただきたい。

 

今回はPython3でWebスクレイピングを行おうとおもう

github.com

 

 

サンプルコードはここに置いてあるので各自、自己責任で取り扱ってもらいたい。

コードのリンクを貼ってまとめておくので気が向いて解説を書くまで放置します。

 

socketモジュールを使ってHTTP通信を行っている例(Python3)

joke/web_socket.py at master · nwiizo/joke · GitHub

urllibモジュールを使ったを使ったHTTP通信を行ってる例(Python3)

joke/read_web.py at master · nwiizo/joke · GitHub

BeautifulSoupを使って<span>タグの行だけ呼び出す(Python3)

joke/bs4_test.py at master · nwiizo/joke · GitHub

Mechanizeを使って2chに書き込みを行う(Python2)

joke/mecha_test.py at master · nwiizo/joke · GitHub

残念ながらMechanizeはPython3に対応してませんでした、。

stackoverflow.com

 

 

歴代仮面ライダーの列挙

歴代の仮面ライダー(劇場版のみの登場も含む)を列挙してみました。(2016/04/20 現在)

でも、これとても、しょっぱいので(文字列として1行ずつ読みこませて先頭、一致させるのが正解っぽい)これを使って仮面ライダー全員知りたいと言う方にはおすすめしません。普通にサイトを見てふーんとおもってください。

joke/kamen_all.py at master · nwiizo/joke · GitHub

 

最後に

就活で東京に来たはずなのにこんなに穏やかな時間を過すことになるとは思ってもみませんでした。危機感感じています。

引き続き就活頑張っていきたいです

環境

Ubuntu 14.04.3 LTS

Python 3.4.3

Python 2.7.6

モジュールなどはpipで適当にインストールした。

 

参考

Installing mechanize for python 3.4 - Stack Overflow

Beautiful Soupドキュメント — BeautifulSoup Document 0.1 ドキュメント

自分でブックマークするのもだるくなってきたので、ロボットにブックマークの選別を頼んだ - 蟲!虫!蟲! - #!/usr/bin/bugrammer

18.1. socket — 低水準ネットワークインターフェース — Python 3.5.1 ドキュメント

21.6. urllib.request — Extensible library for opening URLs — Python 3.5.1 documentation

一応、書籍にもなっているので紹介(僕は読んでないけど誰かクレ)

O'Reilly Japan - PythonによるWebスクレイピング

 

 

 ※スクリプトの使用は自己責任でよろしくお願いします。