ユーザ用ツール

サイト用ツール


サイドバー

目次

機械学習とは

プログラミング無しで機械学習

機械学習プログラミング入門

初めてのKeras2.0

初めてのTensorflow(YouTube)

初めてのChainer2.0

初めてのビットコイン

ビットコイン用語集

初めてのSolidityプログラミング

初めての医療統計

初めてのエクセルで医療統計

初めてのEZRで医療統計

初めてのRStudioでレポート作成

スマホアプリ作成ソフトIonic3

スマホアプリ作成ソフトIonic4

Ionicのためのjavascript tips

その他

NiftyCloudMobileBackend

税金など

Dokuwiki

機械学習用データの収集方法

以前のリビジョンの文書です


機械学習用データの収集方法

自分で新たな機械学習を行おうと思った際に必要となるのが、大量の学習用データです。有用なオリジナルデータを集めることができれば、それが一番良いのですが、普通の人にはそんなの無理な話であるので、Webから集めるのが現実的と思われます。 手動で集めるのも一つの手段ではあると思いますが、たとえば、5000枚もの画像(本当は5万枚くらい欲しい)を手作業で集めてラベリングするのは、「生きている間にできるかな?」といったところとなってしまいます。 そこで、これらの作業をできる限り自動化することが必要となってきますが、ウェブサイトから情報を抽出するコンピュータソフトウェア技術を、「Webスクレイピング」というらしいです。

この言葉を初めて認識したのが2017年5月でした。おすすめの機械学習入門書2017年版でも紹介していますが、まず、以下の本がお勧めです。



加藤 耕太(著)
Pythonクローリング&スクレイピング ―データ収集・解析のための実践開発ガイド
3,456円
サポートページ
http://gihyo.jp/book/2017/978-4-7741-8367-1/support

機械学習用データの収集方法.1496587194.txt.gz · 最終更新: 2018/10/07 (外部編集)