旧Geocities(ジオシティーズ)を全部見よう!

懐かしい人がいた

以前に、ジオシティーズのアドレスをスキャンしてどれくらいページが生き残っているか調査してみました。 ここ

・・・で、アドレスをポチポチ押していると懐かしい人を発見しました。リアルではもう会いたくないというか、どんな形であれ、もう絶対に、完全に、永久に、関わりたくない人なんですが、懐かしい。

皆さんにも懐かしい人を発見してほしい

アドレスはわかってるのだけれど、結構1ページ見るのにも時間がかかります。

画像化なり動画化しないと全てみるのは厳しそうです。

Selenium+Webdriver

各ブラウザの内部仕様をテストするための、Seleniumとライブラリがあるそうです。

urlを渡して、レンダリングが完了した後にキャプチャすることで、ページを画像化できるようなので、これを使います。

Seleniumをつかうにはwebdriverというものが必要で、各ブラウザが対応したものを出しているみたいです。safariとfirefoxのページはよくわからないし、edgeは1ページずつしか処理できないし、chromeは全く動きませんでした。

・・・で3時間実験した結果、WebdriverのChromeの2.42は私の環境では動かず、2.41でなら並列処理が可能ということがわかりました。

さあ、やってみよう!

10/6のAM3時から初めて45時間経ちましたが、今たぶん10%程度の進捗です。xeon-e5の28Threadが100%になっていますが、終わる気がしません。

Geocitiesがなくなるのは妥当なのかも

現時点で画像化できたものを見ると、もう・・・なんというか・・・見てほしいです。

アルファベット順で処理されてしまうので、anime・・・とかから処理が始まっているんですけど、清々しいくらいに痛々しいです。この廃墟感といい、なにかアートっぽい感じさえします。このあたりは面白いですね。

面白いところもあるのですが、全体的に「引っ越しました」「閉鎖します」「これからホームページを作るのでお待ちください」とかが多いですね。一番多いのはトップページ作っている途中で飽きてしまった人たちでしょうか。これが20年近く残ってますよ。

全キャプチャまだあと1週間くらいかかりそうですが、全キャプチャが取れたら、まとめてみます。

画像化完了!

いやー2週間かかりましたよ。ブラクラとか結構あったし、メモリがスワップしてPC強制終了もほぼ毎日やりました。毎日同じところで止まるので、アクセス順を乱数化したり、名前を教えてくださいとか謎のダイアログとか出てきて、ポチポチ一生懸命クリックしましたよ。(最終的には自動クリックができましたが)

みなさんが見やすい形にまとめたいのですが、あまり能力がないので悩み中です。それと人が作ったコンテンツの再利用についても調べなくてはいけなさそうです。