pondelok 19. októbra 2020

Získajte späť svoje články pomocou web archívu

Drahí blogeri, blogerky a blogerčatá, 

mnohí z vás písali svoje texty priamo v redakčnom systéme Blog.cz a nemali tieto texty zálohované. Ak ste nemali to šťastie, že práve vám fungovalo vytvorenie XML zálohy blogu, alebo že ste sa o konci prevádzkovania služby dozvedeli v predstihu, o svoje texty ste skrátka prišli. A nebol by som to ja, keby som vás najprv nekarhal: nebolo lepšie používať Word či G-drive, aby sa s vytvorenými zálohami stal proces tvorby blbuvzdorným? Zvlášť, keď ste videli, ako to ide s Blog.cz dolu vodou? Dosť však mojej obvyklej kritickosti, pre ktorú som tak mimoriadne obľúbený ;). Poďme si ukázať, že nádej získať mnoho zo starých blogov späť existuje aj v spomenutých prípadoch.

Táto nádej sa volá Wayback machine a môžeme ju nájsť na adrese: https://web.archive.org/ . Nie som síce jediný a ani prvý, komu napadol tento postup, avšak dve blogerky ktoré o ňom hovorili ho spomenuli iba letmo a zrejme ho nepropagovali pre pre širšie publikum. Môj návod nemusí pomôcť každému rovnako, pretože niektoré faktory z blogov mohli narúšať ich archiváciu - tieto faktory si spomenieme priebežne v článku, ale aj v závere. 

Postup

1.krok: 
Ako inak, prvým krokom je vyhľadať vo web archíve svoj blog pomocou jeho niekdajšej adresy. V mojom prípade teda stačilo zadať do vyhľadávacieho políčka: executor.blog.cz
Vo výsledkoch sa mi zobrazila časová postupnosť rokov, v ktorých si archív skopíroval niečo z môjho blogu. Po kliknutí na rok sa aktualizuje kalendár s vyznačenými dátumami, kedy presne bol obsah blogu archivovaný. Tieto kópie článkov viazané na čas budeme ďalej potrebovať a tak ich budem volať "záznamami". Ako uvidíme o chvíľu, nie sú to nezávislé kópie celého blogu, pretože články nie sú ukladané duplicitne - bolo by to zbytočné. 


Prvý záznam bol vytvorený v roku 2015 - avšak neznamená to, že by články z môjho blogu pred týmto rokom neboli archivované. V ďalších krokoch jasne uvidíme, že sa v archíve nachádzajú.


2.krok (voliteľný): 
Pokiaľ ste používali počítadlá článkov pri rubrikách, nájdite čo najnovší fungujúci záznam v archíve. Ten nám poslúži na to, aby sme zistili, koľko článkov v jednotlivých rubrikách sme mali. O čo najnovšom zázname píšem preto, aby boli počítadlá pokiaľ možno aktuálne. Pokiaľ použijete starší záznam, počítadlá pri rubrikách môžu poskytnúť chybné, neaktuálne čísla. O fungujúcom zázname píšem preto, že blogy zrušené samotnými majiteľmi sú archivované tiež a majú namiesto nových záznamov prístupnú len známu obrazovku s upozornením: "Blog XYZ ještě nebyl aktivován" a teda tieto záznamy nefungujú ako potrebujeme. 

Samozrejme, blogeri ktorí vôbec nemali aktivované počítadlá, alebo používali rázcestníky si týmto nepomôžu. Na základe záznamu z 3. októbra (října) 2019 u seba teda očakávam nasledovné počty článkov:
O blogu - 8
Úvahy, myšlienky - 28
Ezoterika - 14
O prínose kníh - 17
Umenie, popkultúra - 20
Podivínsky humor - 31
Ostatné - 2
SPOLU: 120 textov.

Môžem sa spoľahnúť, že tieto počty sú definitívne, pretože v danej dobe som prestal používať Blog.cz a teda nehrozí riziko, že by nejaký článok nebol pokrytý... iba keby nebol zaradený do niektorej rubriky ;). 

3.krok: 
Naším cieľom je dostať sa k čo najväčšiemu množstvu článkov, alebo aspoň k tým článkom, ktoré za to stoja. Hľadáme teda taký archívny záznam, ktorý je čo najnovší (obsahuje čo najviac článkov), ale zároveň v ňom funguje navigácia do každej rubriky. To je v zhode s druhým krokom. Nielen na mojom blogu sa mi stalo, že tie najstaršie a najnovšie záznamy v archíve mali nefungujúce linky do niektorých rubrík alebo do chronologického zoznamu článkov. Plne funkčný záznam nemusí byť ten najnovší!
 

V mojom prípade fungovala veľmi dobre počiatočná navigácia zo záznamu z 3. októbra (října) 2019. Prečo ale hovorím o počiatočnej navigácií? Pozorný používateľ si všimne, že aj keď začal prehliadať záznam z 3. októbra (října) 2019, po kliknutí na niektorú z rubrík je presmerovaný ku starším záznamom. Napríklad po kliknutí na rubriku "O blogu" som presmerovaný na záznam z 27. novembra (listopadu) 2018, pričom taký záznam ani nevidím na svojom archívnom kalendári. 


Zrejme z toho vyplýva, že web archív je zložený z jednotlivých dielov ako puzzle. Kópie článkov sa zrejme vytvorili iba raz v danom čase a neskôr, keď crawler (internetový robot, preložme ho ako preliezač :)) archívu prechádzal blog znova, skopíroval iba články ktoré predtým "nepoznal", pretože pri predošlej "návšteve" ešte neexistovali. Predpokladám teda, že neskoršie aktualizácie článkov ako je napríklad pridanie obrázka alebo oprava gramatiky sa na web archíve nemuseli zachytiť. 

Vráťme sa však ku vybranému záznamu. Je dôležité, že sa pri klikaní na všetky rubriky dostávam ku zoznamom článkov, čo je výborný štartovný bod. Pokračujeme zadržaním dychu a otvorením článkov, najlepšie v nových kartách prehliadača. Načítavanie trvá dlho, ale so zadržaným dychom musíme vydržať - až pokým sa v plnej kráse zobrazia naše-vaše články. V tomto bode si teda môžete skopírovať všetky články a obrázky, ktoré priamou navigáciou v rubrikách, alebo chronologickom zozname článkov nájdete.

Áno, niektoré články sa zobrazujú dokonca aj s uchovanými obrázkami. V mojom prípade sa obrázky ukázali takmer vždy a to aj pri starých článkoch vytvorených v rokoch 2014 či 2015. Možno preto, že som všetky obrázky nahrával priamo na blog a nepoužíval odkazy na tretiu stranu (čo je opäť výhoda blbuvzdorného postupu). Zaznamenal som s nimi iba dva problémy: fotky fúkačky boli horizontálne natiahnuté a v článkoch, ktoré obsahovali veľa obrázkov sa niektoré z nich nenačítali na prvý pokus. Neskôr však áno. 


Pokúsiť sa o navigáciu môžete ešte jedným trikom - ak ste mali aktivovaný panel s predošlými článkami nad pätičkou (footerom). Mne však táto navigácia pomohla iba pre kontrolné účely, nie priamo na prekliknutie sa.


V mojom prípade som sa skrz navigáciu rubrík dostal až ku 114-tim článkom z očakávaných 120-tich. Vytvoríme si zoznam článkov podľa rubrík a pričleníme mená článkov, ktoré sa nenačítali.

O blogu - 8 fungovalo.
Úvahy, myšlienky - 26 článkov fungovalo. //Nefungovali 2: Deň narcisov a Písanie o písaní.
Ezoterika - 14 článkov fungovalo.
O prínose kníh - 16 článkov fungovalo. //1 nefungoval: Åsne Seierstad – Jeden z nás: Príbeh o Nórsku
Umenie, popkultúra - 18 fungovalo. //2 nefungovali: FPS meditácie? a Todd and the Book of Pure Evil.
Podivínsky humor - 31 článkov fungovalo.
Ostatné - 1 fungoval. //1 nefungoval: Fosílie za pár eur?

Musím ešte poznamenať, že v žiadnej z mojich rubrík nedošlo ku stránkovaniu (predeleniu stránky na poradové/indexové čísla), ktoré sa na iných testovaných blogoch prejavilo ako rizikový faktor.
Zmienených 6 článkov, ktoré som nezískal priamou navigáciou som si zapísal do zoznamu vyššie. Šlo teda o neúspešnú navigáciu, ktorá vyzerá nasledovne:


Predpokladáme, že crawler/preliezač nie je hlupák a uložil všetok obsah, na ktorý narazil, iba to urobil svojou logikou založenou na princípe rozdielu. Kde teda možno nájsť zvyšných 6 článkov?

4.krok: 
Odpoveď na predošlú otázku sa skrýva v súvislosti s tým, na aké články nefungovala navigácia (linky z rubrík). Je jednoduché si všimnúť, čo tie články mali spoločné: všetky boli vo svojich rubrikách nové, na vrchu zoznamu. A teda ich možno nájsť na stránkach, ktoré niekedy tvorili prednú, "domovskú stránku" blogu. Pre tento účel je potrebné sa navigovať medzi novými archívnymi záznamami. V mojom prípade teda stačí prejsť opäť na záznam z 3. októbra (října) 2019 a neklikať na žiadnu rubriku - hneď na úvodnej stránke sú prítomné články: 
FPS meditácie?
Fosílie za pár eur?
Kompilácia vtipných linkov 6
Todd and the Book of Pure Evil


Určite si spomínate na nastavenie v administrácií Blog.cz, ktoré určovalo, koľko článkov sa vám zobrazí na úvodnej stránke - od neho závisí, koľko článkov tu uvidíme.
Zobrazené články porovnáme s predošlým zoznamom článkov, ktoré sme nezískali. Zistíme, že "Kompilácia vtipných linkov 6" tu vlastne nemá čo robiť a je tu naviac - ide o článok nezmienený v žiadnej rubrike. Keď sa na článok pozrieme bližšie, vidíme, že tento beťár do žiadnej rubriky skutočne nebol zaradený! Archív teda musel zachytiť moje pochybenie po nahratí článku a na večné časy ma strápniť. Nevadí, mení sa teda to, že namiesto 6 článkov očakávame získanie 7. Z toho sú 4 priamo dostupné na domovskej stránke záznamu z 3. októbra (října) 2019. Pretože som nepoužíval "náhľady článkov", nepotrebujem sa pre plné články nikam preklikávať. Po skopírovaní týchto 4 článkov ostáva ešte získať 3 články, ktoré sú o niečo staršie a môžeme ich vidieť v navigácií nad pätičkou.


Šípkou naľavo od dátumu sa opakovane preklikávam ku starším záznamom archívu - až pokým nevidím všetky 3 chýbajúce texty na úvodnej stránke, čo sa deje pri dátume 28. jún (červen) 2018.


Teraz mi už nič nebráni skopírovať si zvyšné 3 články. Získať všetky články z blogu vôbec nie je zlý výsledok. :)

Overenie
Koho zaujíma overenie, môže použiť počítadlá pri chronologickom zozname, ktoré pokrývajú aj zmienený prípad - článok omylom nezaradený pod rubriku.


Keďže som ešte pred zrušením služby Blog.cz presťahoval svoj blog na Blogspot, ponúkla sa mi šanca, akú nemá každý bloger: porovnať zobrazenie článkov vo web archíve so stavom aktuálneho blogu. To ukázalo, že web archív skutočne uchoval obsah celého blogu, tj. všetky články. V tomto porovnaní by počty článkov nesedeli iba z jedného dôvodu: Blog.cz obmedzoval množstvo znakov na jeden text, kým pri Blogspote som svoje dlhšie texty nemusel rozdeľovať na niekoľko častí. 

Poznámky a skúsenosti 
- Blogy, ktoré mali rubriky vo forme rázcestníkov na web archíve fungovali.
- Vyzerá to, že populárne blogy boli archivované častejšie a tak majú nádej na získanie mnohých článkov dokonca aj vtedy, keď menili svoje rubriky či rázcestníky. 
- Drastické zmeny v rubrikách či razcestníkoch sú priťažujúcim faktorom v hľadaní článkov, aspoň pri malých či krátko existujúcich blogoch. Prakticky nepoužiteľný však bol iba jeden archív blogu z ôsmych, ktoré som testoval.
- Problémom je veľký počet článkov v rovnakej rubrike - ak sa aplikovalo stránkovanie (tzv. pagination), články zo starších poradových stránok možno nebudú dostupné. Toto stránkovanie viedlo ku nájdeniu článkov opäť iba v prípade, že šlo o dlhoročne fungujúce a populárne blogy. V prípade menšieho blogu so stránkovaním sa poradové stránky neotvárali. Možno by sa však dal aplikovať 4.krok môjho postupu - nájdenie článkov na "domovskej stránke" blogu.
- Ak sa vám v priebehu načítavania zobrazí chyba 503 o vyťaženosti servera, nevzdávajte to a skúste to o chvíľu neskôr.
- Na svojom starom blogu si pamätám presun jedného článku pod inú rubriku. Tento článok som bez problémov našiel pomocou priameho linku v novej rubrike.  
- Archív zachovával aj komenty pod článkami a teda sa z nich dajú vytiahnuť napríklad stratené kontakty.
- Pri prechádzaní na staršie články sa stáva, že sa zobrazia v starom designe blogu, alebo bez designu. Pokiaľ sa blog ukáže bez designu, môže sa stať, že písmo je bielou farbou a vidieť ho až po označení kurzorom.
- Samozrejme nezáleží na tom, na akej službe blog fungoval. Web archív je pre širokú verejnosť a archivuje to, čo mu príde pod ruky. 
- Podľa informačného článku môže na web archív nahrávať svoj obsah ktokoľvek s bezplatným účtom.
- Pre majiteľov rozsiahlych blogov je tento manuálny postup zdĺhavý, no snáď by sa dal naprogramovať nejaký crawler, ktorý by prechádzal záznamy z web archívu (ktoré boli zjavne vytvorené tiež pomocou crawlera) a výsledky uložil do prijateľného formátu.

P.S.: Teraz aby som rozmýšľal, či nezrušiť náhľady/perexy aj pri aktuálnom blogu! Predsa len, nie je zlé mať v podobe web archívu zdarma kópiu blogu nezávislú na mojich harddiskoch. 

Žiadne komentáre:

Zverejnenie komentára