機械学習用データの収集方法
自分で新たな機械学習を行おうと思った際に必要となるのが、大量の学習用データです。有用なオリジナルデータを集めることができれば、それが一番良いのですが、普通の人にはそんなの無理な話であるので、Webから集めるのが現実的と思われます。
手動で集めるのも一つの手段ではあると思いますが、たとえば、5000枚もの画像(本当は5万枚くらい欲しい)を手作業で集めてラベリングするのは、「生きている間にできるかな?」といったところとなってしまいます。
そこで、これらの作業をできる限り自動化することが必要となってきますが、ウェブサイトから情報を抽出するコンピュータソフトウェア技術を、「Webスクレイピング」というらしいです。
この言葉を初めて認識したのが2017年5月でした。おすすめの機械学習入門書2017年版でも紹介していますが、まず、以下の本がお勧めです。Python3で行う、Webスクレイピングの手法が事細かに説明されており、非常にお勧めです。こちらの本に記載があって初めて知ったのですが、Webスクレイピングを行った結果、悪意が全くないのに逮捕されてしまった事例(岡崎市立中央図書館事件(Wikipedia))もあります。Webスクレイピングを行う際には、違法性がないかどうか、また相手に迷惑をかけていないか細心の注意を払った方がよいと思われます。
<html>
<iframe style=“width:120px;height:240px;” marginwidth=“0” marginheight=“0” scrolling=“no” frameborder=“0” src=“rcm-fe.amazon-adsystem.com/e/cm?lt1=_blank&bc1=000000&IS2=1&bg1=FFFFFF&fc1=000000&lc1=0000FF&t=twosquirrel-22&o=9&p=8&l=as4&m=amazon&f=ifr&ref=as_ss_li_til&asins=4774183679&linkId=569c905ee7897bc0139a846501e5cefb”></iframe>
</html>
加藤 耕太(著)
Pythonクローリング&スクレイピング ―データ収集・解析のための実践開発ガイド
3,456円
サポートページ
http://gihyo.jp/book/2017/978-4-7741-8367-1/support
=====Webスクレイピングのリンク集=====
スクレイピングとAPIの違い
2016/11/20
AtsushiNakatsugawa
https://developer.ntt.com/ja/blog/e007f5ca-292b-48b6-9fcb-e8051a1f9889
Webスクレイピングのノウハウを公開します
2015年6月29日 Toshihiko Kimura
http://tech.respect-pal.jp/web-scraping/
週刊少年ジャンプの短命作品を,機械学習で予測する (前編:データ分析)
haltaro
2017年05月29日に更新
http://qiita.com/haltaro/items/c54fa1855767f1a1abd5
Qiita tag:スクレイピング
http://qiita.com/tags/%E3%82%B9%E3%82%AF%E3%83%AC%E3%82%A4%E3%83%94%E3%83%B3%E3%82%B0
URLを入力するだけ!コンテンツをスクレイピングしてデータ化してくれる無料ツール「import.io」
2016/10/7
https://nelog.jp/import-io
—-
前:
機械学習サンプルコードのリンク2017年版
目次
次:
機械学習成果をWEBで公開