「Pythonクローリング＆スクレイピング ―データ収集・解析のための実践開発ガイド」を読んで

2017年5月28日

Deep Learningに興味があるけど、自分で元データを大量に集めなければ始まらない。

特に画像検索など、1万個くらい、「画像」＋「タグ」のセットが欲しいが、いちいち手動でGoogle検索していたのでは、1万なんて無理！

なんとか自動でGoogle検索して、「画像」＋「タグ」のセットのデータを自分の保存したい！（私の技術では無理そうだけど。）

とつねづね思っていたが、本屋さんのコンピュータのコーナーで、以下の本に目がとまった。

クジラ飛行机　著
Pythonによるスクレイピング&機械学習開発テクニック BeautifulSoup,scikit-learn,TensorFlowを使ってみよう単行本 – 2016/12/6
3,456円

ぱらぱらとめくってみて、「スクレイピング」という言葉を初めて理解した。

PhantomJS, Seleniumと言う言葉は生まれて初めて聞いたし、買ってみようかなと思ったのだが、急いでいたのでその場では紙の本は購入しなかった。あとで、検索したところ、残念ながらKindleでは見つからず、代わりに、以下の本を衝動買いしてしまった！

加藤耕太 (著)
Pythonクローリング＆スクレイピング ―データ収集・解析のための実践開発ガイド
3,456円

Elasticsearchという言葉が以前から、Ruby on Railsに関するブログなどでちょくちょく耳にはしていたが、いったいどんなものかが初めて分かった。

今まで買った本は、Python2のものが多くてつらかったが、上記２つの本は、両方ともPython3対応である。

まず、全体をちらっと読んでみたが、けっこう高い本だけど、クローリング、スクレイピングという、データをWebから収集して加工する方法について学ぶことができて、買ってよかった！

これから、写経して、また、できれば、自分のために応用してみたい！

まだ、コメントがありません