dullwhaleのメモ帳

何度も同じことを調べなくてよいように...

wgetで静的サイトを丸ごとダウンロード

wgetを使ってスクレイピングできる。

最初に、無駄なファイルをダウンロードしないよう、--spiderでリンクをたどるだけの調査を行う。 貧弱そうなサイトなら、--waitオプションの秒数を更に増やす。

wget --background --output-file spider-log --convert-links -np --page-requisites -r --level 10 --no-verbose --wait 2 --random-wait --spider http://example.com/dir-a/

spider-logを読んで、問題ないなら--spiderを外してダウンロードする。

wget --background --output-file dl-log --convert-links -np --page-requisites -r --level 10 --no-verbose --wait 2 --random-wait http://example.com/dir-a/