スポンサーリンク

「Pythonクローリング&スクレイピング」を写経してみる(2)第6章「フレームワークScrapy」その1

Deep Learning用の元データ集めの参考になるかなと思って衝動買いした以下の本


加藤 耕太  (著)
Pythonクローリング&スクレイピング ―データ収集・解析のための実践開発ガイド
3,456円

サポートページ
http://gihyo.jp/book/2017/978-4-7741-8367-1/support

前回は、第1章の一部を写経してみた。

http://twosquirrel.mints.ne.jp/?p=17877

今回は、第6章「フレームワーク Scrapy」を写経してみたい

(環境)
Panasonic CF-SZ6
Windows 10 Home

VisutalStudioCode 1.12.2
VirutualBox 5.1.22
Vagrant 1.9.5

TeraTerm 4.94

(0)環境構築

以下のソフトを、公式サイトからダウンロードしてインストール

VisualStudioCodeのインストール

ViutualBoxのインストール

Vagrantのインストール
TeraTermのインストール

C:/vm/ubuntu1404 というフォルダを作成し、そちらに、Ubuntu14.04をインストールする。
(これが最初の難関)

コマンドプロンプトを開く。

cd c:\vm\ubuntu1404
vagrant add box ubuntu/trusty64

これのダウンロードが3時間くらいかかるが、途中で止まっても、再度、同じコマンドを入力すると、途中からまたゆっくりダウンロードを再開してくれるので、根気よくダウンロード。

vagrant init ubuntu/trusty64

Vagrantfile を、VisualStudioCodeで開いて、以下のように、26行目と、52, 57, 58行目を修正。

vagrant up

3分くらいでvirtualbox上のUbuntu14.04が起動する。

この設定の場合、

(ホストOS) Windows 10 Home
(ホストOSのフォルダ)c:/vm/ubuntu1404/

(ゲストOS)Ubuntu14.04
(対応するゲストOSのフォルダ)/vagrant/

となる。よって、例えば、Windows(ホストOS)上でc:/vm/ubuntu1404 の中に、test.txtというファイルを追加すると、Ubuntu14.04(ゲストOS)の /vagrant/ の中に、自動的にtest.txtというファイルが作成される。逆もまた可能(同期する)。

(1)TeraTermでVirtualBox上のUbuntu14.04にログイン

127.0.0.1
2222
vagrant
vagrant

sudo apt-get update
sudo apt-get install –y python3 python3.4-venv
python3 –V

このインストールには15分くらいかかる。

python3 –m venv scraping
ls scraping/
. scraping/bin/activate
python –V
which python
deactivate

activate するときは、面倒だが、毎回、TeraTermでログインした後、



. scraping/bin/activate

が必要。

パソコンの電源を落とすときは、TeraTermを閉じてから、cmd.exeで、



vagrant halt

として、仮想マシンを終了する。

(2)

途中