アストラルプリズム

PC、スマホ、ゲームなどの備忘録と日記

ブログを丸々保存する方法

数年に一度ブログやウェブサイトを丸ごとハードディスクに保存することがある。
目的は単純にオフラインで閲覧したい、お気に入りのサイト(あるいは自サイト)が閉鎖してしまうからなど。
人に頼まれたり、自分で保存したいところがあったりなど。

とにかく数年に一度の事で忘れてしまうから書いておこうと思う。

今回頼まれたのはseesaaブログ。
更新ページ数はさほどないが飼っている犬の子犬の頃の写真があるので文章とともに保存しておきたいとこの事。

手順1
ざっくり説明。
サイトを丸々保存するHTTrack Website Copierというアプリを使用してブログを保存。
PCの適当なところに保存用のフォルダーを作りseesaaブログの該当ブログのトップのアドレスを入力しブログを丸ごとダウンロードする。
デフォルトの設定のままで大丈夫。

手順2
概要
ダウンロードしたサイトはそのまま使えるものもあるがseesaaブログは画像をクリックするとオンラインの写真表示用のhtmlアドレスに移動してしまう。
なんとなくブログを見るだけならサムネはオフラインで見れるので良いが、今回は特に写真が重要っぽいので画像をクリックした際に大きい元のサイズの写真を表示させたい。
その為にはオンラインの写真表示用のhtmlアドレスを大きい画像がある場所に書き換える必要がある。
一ページ一ページ手動で書き直すのは面倒なのでまとめて書き換えるエディタを使う。

実際の手順
1.編集失敗したときの為にPCに保存したブログのフォルダをコピーしてどこかに保存しておく
2.サクラエディタを起動
3.変換→Grep置換
4.Grep置換のウィンドウを以下のように設定する
正規表現:レ点を入れる
置換前:
http://(保存したブログの固有名).seesaa.net/upload/detail/image/([^"]+)-thumbnail2.JPG.htmlを
置換後:
../(保存したブログの固有名).up.seesaa.net/image/$1.jpg
—--------------------------------------------------------------------------------------------------------
保存したブログの元のアドレスがhttp://asuto.seesaa.net/だった場合、固有名はasutoになる
thumbnail2のところがなぜ2なのか分からないのでindex.htmlを開いて2がついてるかついてないか調べ確認する事
ある文字列を含まない場合の正規表現は(?!.*ABC)になるが一文字や数字の場合は扱いが違うので注意(画像の文字列に”が含まれていないという判断)
例:置換前
http://asuto.seesaa.net/upload/detail/image/([^"]+)-thumbnail2.jpg.html
置換後
../asuto.up.seesaa.net/image/$1.jpg
----------------------------------------------------------------------------------------------------------
ファイル:
*.html
フォルダ:
(保存した場所)\(HTTrackでつけた名前)\(保存したブログのhttp以外のアドレス)
-------------------------------------------------------
例:D:\asutora\asuto_save\asuto.seesaa.net
-------------------------------------------------------
サブフォルダーからも検索する:レ点をつける
英大文字と小文字を区別する:レ点をつける
文字コードセット:自動選択
バックアップ作成:レ点をつける(何度か失敗して痛い目にあった)
以上を確認したのち置換をクリックする。
一部pngの画像がある部分もあるので置換して直す
置換前:
http://(保存したブログの固有名).seesaa.net/upload/detail/image/([^"]+)-thumbnail2.PNG.html
置換後:
../(保存したブログの固有名).up.seesaa.net/image/$1.png
httpsの画像もあるので置換して直す(jpg,gif,pngそれぞれやる)
置換前:
https://(保存したブログの固有名).up.seesaa.net/image/([^"]+).jpg
置換後:
../(保存したブログの固有名).up.seesaa.net/image/$1.jpg
同じくブログパーツhttpsのがあるのでそれも置換して直す
置換前:
https://blog.seesaa.jp/images_e/([^"]+).gif
置換後:
../blog.seesaa.jp/images_e/$1.gif

階層を合わせる
(保存した場所)\(HTTrackでつけた名前)\(保存したブログのhttp以外のアドレス)の仮想のフォルダに以下を行う(例:\archives)
フォルダ:
(保存した場所)\(HTTrackでつけた名前)\(保存したブログのhttp以外のアドレス)\archives
---------------------------------------------------------------
例:D:\asutora\asuto_save\asuto.seesaa.net\archives
---------------------------------------------------------------
サブフォルダーからも検索する:レ点を外す
正規表現:チェックを外す
置換前:
'../(保存したブログの固有名).up.seesaa.net/image/
置換後:
'../../(保存したブログの固有名).up.seesaa.net/image/