この文書の現在のバージョンと選択したバージョンの差分を表示します。
両方とも前のリビジョン 前のリビジョン 次のリビジョン | 前のリビジョン | ||
機械学習用データの収集方法 [2017/06/04] adash333 [Webスクレイピングのリンク集] |
機械学習用データの収集方法 [2018/10/07] (現在) |
||
---|---|---|---|
ライン 5: | ライン 5: | ||
そこで、これらの作業をできる限り自動化することが必要となってきますが、ウェブサイトから情報を抽出するコンピュータソフトウェア技術を、「Webスクレイピング」というらしいです。 | そこで、これらの作業をできる限り自動化することが必要となってきますが、ウェブサイトから情報を抽出するコンピュータソフトウェア技術を、「Webスクレイピング」というらしいです。 | ||
- | この言葉を初めて認識したのが2017年5月でした。[[おすすめの機械学習入門書2017年版]]でも紹介していますが、まず、以下の本がお勧めです。Python3で行う、Webスクレイピングの手法が事細かに説明されています。 | + | この言葉を初めて認識したのが2017年5月でした。[[おすすめの機械学習入門書2017年版]]でも紹介していますが、まず、以下の本がお勧めです。Python3で行う、Webスクレイピングの手法が事細かに説明されており、非常にお勧めです。こちらの本に記載があって初めて知ったのですが、Webスクレイピングを行った結果、悪意が全くないのに逮捕されてしまった事例([[https://ja.wikipedia.org/wiki/%E5%B2%A1%E5%B4%8E%E5%B8%82%E7%AB%8B%E4%B8%AD%E5%A4%AE%E5%9B%B3%E6%9B%B8%E9%A4%A8%E4%BA%8B%E4%BB%B6|岡崎市立中央図書館事件(Wikipedia)]])もあります。Webスクレイピングを行う際には、違法性がないかどうか、また相手に迷惑をかけていないか細心の注意を払った方がよいと思われます。 |
<html> | <html> | ||
ライン 19: | ライン 19: | ||
=====Webスクレイピングのリンク集===== | =====Webスクレイピングのリンク集===== | ||
- | |||
- | 悪意が全くないのに逮捕されてしまった事例もあります。Webスクレイピングを行う際には、違法性がないかどうか、また相手に迷惑をかけていないか細心の注意を払った方がよいと思われます。 | ||
- | |||
- | [[https://ja.wikipedia.org/wiki/%E5%B2%A1%E5%B4%8E%E5%B8%82%E7%AB%8B%E4%B8%AD%E5%A4%AE%E5%9B%B3%E6%9B%B8%E9%A4%A8%E4%BA%8B%E4%BB%B6|岡崎市立中央図書館事件]] | ||
スクレイピングとAPIの違い | スクレイピングとAPIの違い | ||
ライン 46: | ライン 42: | ||
+ | ---- | ||
+ | 前: | ||
+ | <wrap hi> | ||
+ | [[機械学習サンプルコードのリンク2017年版]] | ||
+ | </wrap>\\ | ||
+ | [[sidebar|目次]]\\ | ||
+ | 次: | ||
+ | <wrap hi> | ||
+ | [[機械学習成果をWEBで公開]] | ||
+ | </wrap> |