回憶過去的美好與悲傷 —— Wayback Machine 網頁圖書館讓你回味那些「被砍掉的網站」

by 陳寗
2015.07.04 08:08PM
12532
是回憶過去的美好與悲傷 —— Wayback Machine 網頁圖書館讓你回味那些「被砍掉的網站」這篇文章的首圖

還記得上面這張圖嗎?

資深癮科技讀者一定都對這曾經叱吒一時的「婊科技」感到既熟悉又懷念吧?不過就在癮科技與 Engadget 分家之後,原先在 Engadget 上的婊科技也就此從 Google 搜尋引擎上消失,雖說我們還是可以從現在的癮科技網站中找到婊科技的所有漫畫,但要看到 Engadget 的 Logo 出現在婊科技上 ... 這就不是什麼容易的事情了。

難道就沒有人幫我們備份這些充滿回憶的網站嗎?

註:回味連結網址為 https://web.archive.org/web/20110313094527/http://chinese.engadget.com/2011/03/08/about-coverible-screen-camera-first/?

--

掌握最新科技知識,請幫「陳寗說科技」粉絲團按個讚:www.facebook.com/chenning.wowdigi

--

81cfadf79eaa9e40d819dcddcb78fe47

我們有歷史博物館蒐藏文物、有圖書館搜羅古書,當然也會有組織是專門「蒐藏網站」。上圖這個 WayBack Machine 是一個專門搜藏網站存檔的網站,不管是現在還在、或是早已被砍掉的網站、網頁、甚至影音資料都有機會在這個網站裡找到!

5938bc4c86629817afeeff117684c5a7

在認識這個網站的歷史之前,我們先看看到底 WayBack Machine 有什麼能耐吧!我用來測試的是曾經的台灣之光、後來被直接砍掉說掰掰的「無名小站」,不過我實在不太記得還有誰的無名(我自己沒用無名)可以搜尋,所以我就找到無名大名人「彎彎」來當這次測試的對象。在經過一番搜尋(我的最愛裡早就砍掉啦!)之後,終於找到當初彎彎部落格的網址「www.wretch.cc/blog/cwwany」。

5985590720f5ba99b8f6e568f741da37

輸入搜尋之後,Wayback Machine 就會開始搜尋這個網站的過往存檔(他們不會把舊的東西砍掉)。不過請不要覺得 Wayback Machine 天天都會幫你備份,畢竟網際網路上的資料非常龐大(2012 年 Wayback Machine 的資料量達 10PB,約一千萬 GB),因此實際上你搜尋到的結果會如上圖這樣,只有藍色圈圈的部份才是有備份到的日期。

註:彎彎的流量很大,所以備份次數也很多。如果你的部落格流量很小 ... 那麼備份到的次數可能就只有一兩次了

323543b30c865a7e4c895f84410d6229

接著我們就隨便找個日期進去看看 ... 就可以看到過去的網頁存檔啦!在無名被砍站的今天再次看到這個歷史畫面,還真是令人傷心懷念啊!不過受限於 Wayback Machine 爬蟲的能力與網站限制,因此有些當初放在部落格上的照片已經掉光光了,因此這裏無法看到完整的彎彎漫畫,只能當懷念使用。不過純文字的內容就不在此限了,因此如果你要找純文字的網站內容倒是非常實用。

d21da50b66fc7fec8bd3226291658a7f

有些日期的爬蟲出了些問題,導致網站沒備份好變成如上圖這樣只剩下純文字內容。不過請不要灰心,由於每一次的備份都是「網站完整備份」,因此你其實可以點一個完整備份的頁面(例如上面那個完整的彎彎部落格),然後再從該網頁的側邊欄去尋找你要的頁面。例如首圖的婊科技其實並沒有在備份的日期藍點上,但只要從任何一個藍點(2010/09/01 以後)進入網頁存檔,再從該存檔找到婊科技的頁面就能看到囉~

註:這個網站速度很慢,不過人家畢竟是非營利組織且資料量大到不行,所以請不要抱怨,謝謝

75a551613e69e752512a3e73d89e2a56

那麼到底是什麼樣的人在營運這樣的「慈善」組織呢?

其實 Wayback Machine 的背後組織叫做「The Internet Archive」,是一個於 1996 年建立於舊金山的「歷史悠久網路組織」。該組織的目標是保存存在於網路上的所有資料,就像一家圖書館、博物館一樣,蒐藏歷史上的資訊讓需要的使用者、學者調閱。The Internet Archive 是由知名網路分析公司 Alexa(就是網站排名的那個 Alexa)創辦人所建立,在創辦之初其實跟 Alexa 是一體兩面的組織(Alexa 營利、The Internet Archive 非營利)。

Alexa 的公司名稱是向亞歷山大圖書館致敬,將網際網路比擬為亞歷山大圖書館這間兩千多年前號稱世界最大的圖書館。不過後來 Alexa 被亞馬遜以 2.5 億美元併購,因此現在 The Internet Archive 就跟 Alexa 除了擁有同一個爸爸之外就沒什麼關聯了。目前 The Internet Archive 可以存取 2001 年以後的資料(受限 Wayback Machine 的技術問題),是研究早期網際網路發展的最佳工具之一。

註:The Internet Archive 現為美國國家圖書館協會 ALA 會員之一,同時被加州指定為官方圖書館。

--

掌握最新科技知識,請幫「陳寗說科技」粉絲團按個讚:www.facebook.com/chenning.wowdigi

--

作者:陳寗@癮科技

 

你或許會喜歡

蚊子沒那麼聰明,別再受蚊子欺負啦!

回應 0
新品資訊
工程師必買 7-11開賣乖乖悠遊卡售價190元
討喜小姐
7 天前