サルでもわかる機械学習

文書の過去の版を表示しています。

機械学習用データの収集方法

自分で新たな機械学習を行おうと思った際に必要となるのが、大量の学習用データです。有用なオリジナルデータを集めることができれば、それが一番良いのですが、普通の人にはそんなの無理な話であるので、Webから集めるのが現実的と思われます。
手動で集めるのも一つの手段ではあると思いますが、たとえば、5000枚もの画像（本当は5万枚くらい欲しい）を手作業で集めてラベリングするのは、「生きている間にできるかな？」といったところとなってしまいます。
そこで、これらの作業をできる限り自動化することが必要となってきますが、ウェブサイトから情報を抽出するコンピュータソフトウェア技術を、「Webスクレイピング」というらしいです。

この言葉を初めて認識したのが2017年5月でした。おすすめの機械学習入門書2017年版でも紹介していますが、まず、以下の本がお勧めです。Python3で行う、Webスクレイピングの手法が事細かに説明されています。

<html>
<iframe style=“width:120px;height:240px;” marginwidth=“0” marginheight=“0” scrolling=“no” frameborder=“0” src=“rcm-fe.amazon-adsystem.com/e/cm?lt1=_blank&bc1=000000&IS2=1&bg1=FFFFFF&fc1=000000&lc1=0000FF&t=twosquirrel-22&o=9&p=8&l=as4&m=amazon&f=ifr&ref=as_ss_li_til&asins=4774183679&linkId=569c905ee7897bc0139a846501e5cefb”></iframe>
</html>

加藤耕太(著)

Pythonクローリング＆スクレイピング ―データ収集・解析のための実践開発ガイド

3,456円

サポートページ

http://gihyo.jp/book/2017/978-4-7741-8367-1/support

=====Webスクレイピングのリンク集=====

週刊少年ジャンプの短命作品を，機械学習で予測する（前編：データ分析）
haltaro
2017年05月29日に更新

http://qiita.com/haltaro/items/c54fa1855767f1a1abd5