2016年4月20日現在で必要なモジュールがなかったので一部、Python2で行っているため注意していただきたい。
今回はPython3でWebスクレイピングを行おうとおもう
サンプルコードはここに置いてあるので各自、自己責任で取り扱ってもらいたい。
コードのリンクを貼ってまとめておくので気が向いて解説を書くまで放置します。
socketモジュールを使ってHTTP通信を行っている例(Python3)
joke/web_socket.py at master · nwiizo/joke · GitHub
urllibモジュールを使ったを使ったHTTP通信を行ってる例(Python3)
joke/read_web.py at master · nwiizo/joke · GitHub
BeautifulSoupを使って<span>タグの行だけ呼び出す(Python3)
joke/bs4_test.py at master · nwiizo/joke · GitHub
Mechanizeを使って2chに書き込みを行う(Python2)
joke/mecha_test.py at master · nwiizo/joke · GitHub
残念ながらMechanizeはPython3に対応してませんでした、。
歴代仮面ライダーの列挙
歴代の仮面ライダー(劇場版のみの登場も含む)を列挙してみました。(2016/04/20 現在)
でも、これとても、しょっぱいので(文字列として1行ずつ読みこませて先頭、一致させるのが正解っぽい)これを使って仮面ライダー全員知りたいと言う方にはおすすめしません。普通にサイトを見てふーんとおもってください。
joke/kamen_all.py at master · nwiizo/joke · GitHub
最後に
就活で東京に来たはずなのにこんなに穏やかな時間を過すことになるとは思ってもみませんでした。危機感感じています。
池袋のスタバでボーーっとしてる pic.twitter.com/L1kCs4PRUF
— もとうち (@SMotouchi_net) April 20, 2016
引き続き就活頑張っていきたいです
環境
Ubuntu 14.04.3 LTS
Python 3.4.3
Python 2.7.6
モジュールなどはpipで適当にインストールした。
参考
Installing mechanize for python 3.4 - Stack Overflow
Beautiful Soupドキュメント — BeautifulSoup Document 0.1 ドキュメント
自分でブックマークするのもだるくなってきたので、ロボットにブックマークの選別を頼んだ - 蟲!虫!蟲! - #!/usr/bin/bugrammer
18.1. socket — 低水準ネットワークインターフェース — Python 3.5.1 ドキュメント
21.6. urllib.request — Extensible library for opening URLs — Python 3.5.1 documentation
一応、書籍にもなっているので紹介(僕は読んでないけど誰かクレ)
O'Reilly Japan - PythonによるWebスクレイピング
※スクリプトの使用は自己責任でよろしくお願いします。