サルでもわかる機械学習

文書の過去の版を表示しています。

機械学習用データの収集方法

自分で新たな機械学習を行おうと思った際に必要となるのが、大量の学習用データです。有用なオリジナルデータを集めることができれば、それが一番良いのですが、普通の人にはそんなの無理な話であるので、Webから集めるのが現実的と思われます。
手動で集めるのも一つの手段ではあると思いますが、たとえば、5000枚もの画像（本当は5万枚くらい欲しい）を手作業で集めてラベリングするのは、「生きている間にできるかな？」といったところとなってしまいます。
そこで、これらの作業をできる限り自動化することが必要となってきますが、ウェブサイトから情報を抽出するコンピュータソフトウェア技術を、「Webスクレイピング」というらしいです。

この言葉を初めて認識したのが2017年5月でした。おすすめの機械学習入門書2017年版でも紹介していますが、まず、以下の本がお勧めです。

<html>
<iframe style=“width:120px;height:240px;” marginwidth=“0” marginheight=“0” scrolling=“no” frameborder=“0” src=“rcm-fe.amazon-adsystem.com/e/cm?lt1=_blank&bc1=000000&IS2=1&bg1=FFFFFF&fc1=000000&lc1=0000FF&t=twosquirrel-22&o=9&p=8&l=as4&m=amazon&f=ifr&ref=as_ss_li_til&asins=4774183679&linkId=569c905ee7897bc0139a846501e5cefb”></iframe>
</html>

加藤耕太(著)

Pythonクローリング＆スクレイピング ―データ収集・解析のための実践開発ガイド

3,456円

サポートページ

http://gihyo.jp/book/2017/978-4-7741-8367-1/support