この文書の現在のバージョンと選択したバージョンの差分を表示します。
次のリビジョン | 前のリビジョン | ||
機械学習用データの収集方法 [2017/06/04] adash333 作成 |
機械学習用データの収集方法 [2018/10/07] (現在) |
||
---|---|---|---|
ライン 5: | ライン 5: | ||
そこで、これらの作業をできる限り自動化することが必要となってきますが、ウェブサイトから情報を抽出するコンピュータソフトウェア技術を、「Webスクレイピング」というらしいです。 | そこで、これらの作業をできる限り自動化することが必要となってきますが、ウェブサイトから情報を抽出するコンピュータソフトウェア技術を、「Webスクレイピング」というらしいです。 | ||
- | この言葉を初めて認識したのが2017年5月でした。[[おすすめの機械学習入門書2017年版]]でも紹介していますが、まず、以下の本がお勧めです。 | + | この言葉を初めて認識したのが2017年5月でした。[[おすすめの機械学習入門書2017年版]]でも紹介していますが、まず、以下の本がお勧めです。Python3で行う、Webスクレイピングの手法が事細かに説明されており、非常にお勧めです。こちらの本に記載があって初めて知ったのですが、Webスクレイピングを行った結果、悪意が全くないのに逮捕されてしまった事例([[https://ja.wikipedia.org/wiki/%E5%B2%A1%E5%B4%8E%E5%B8%82%E7%AB%8B%E4%B8%AD%E5%A4%AE%E5%9B%B3%E6%9B%B8%E9%A4%A8%E4%BA%8B%E4%BB%B6|岡崎市立中央図書館事件(Wikipedia)]])もあります。Webスクレイピングを行う際には、違法性がないかどうか、また相手に迷惑をかけていないか細心の注意を払った方がよいと思われます。 |
<html> | <html> | ||
ライン 18: | ライン 18: | ||
http://gihyo.jp/book/2017/978-4-7741-8367-1/support | http://gihyo.jp/book/2017/978-4-7741-8367-1/support | ||
+ | =====Webスクレイピングのリンク集===== | ||
+ | |||
+ | スクレイピングとAPIの違い | ||
+ | 2016/11/20 | ||
+ | AtsushiNakatsugawa\\ | ||
+ | https://developer.ntt.com/ja/blog/e007f5ca-292b-48b6-9fcb-e8051a1f9889 | ||
+ | |||
+ | Webスクレイピングのノウハウを公開します | ||
+ | 2015年6月29日 Toshihiko Kimura\\ | ||
+ | http://tech.respect-pal.jp/web-scraping/ | ||
+ | |||
+ | 週刊少年ジャンプの短命作品を,機械学習で予測する (前編:データ分析) | ||
+ | haltaro | ||
+ | 2017年05月29日に更新\\ | ||
+ | http://qiita.com/haltaro/items/c54fa1855767f1a1abd5 | ||
+ | |||
+ | Qiita tag:スクレイピング\\ | ||
+ | http://qiita.com/tags/%E3%82%B9%E3%82%AF%E3%83%AC%E3%82%A4%E3%83%94%E3%83%B3%E3%82%B0 | ||
+ | |||
+ | URLを入力するだけ!コンテンツをスクレイピングしてデータ化してくれる無料ツール「import.io」 | ||
+ | 2016/10/7\\ | ||
+ | https://nelog.jp/import-io | ||
+ | |||
+ | |||
+ | ---- | ||
+ | 前: | ||
+ | <wrap hi> | ||
+ | [[機械学習サンプルコードのリンク2017年版]] | ||
+ | </wrap>\\ | ||
+ | [[sidebar|目次]]\\ | ||
+ | 次: | ||
+ | <wrap hi> | ||
+ | [[機械学習成果をWEBで公開]] | ||
+ | </wrap> |