Prigodom sedamdeset i pete obljetnice osnutka, PDS Velebit razmatra potrebu digitalizacije pismohrane, da bi tako smanjile ugroze koje istoj prijete kako radi prirodnih pojava (požar, potres, poplava...), tako i radi ljudskih djelovanja (krađa, nemar, uzurpacija...).
Budući da pismohrana sadrži veliku količinu osobnih podataka, a u cilju da se izbjegnu obaveze koje zakon i uredbe nameću operaterima umreženih baza takvih podataka, nužno je da se, kako proces digitalizacije, tako i kasnije odžavanje i upotreba pismohrane može obavljati isključivo na ne‑umreženoj informatičkoj opremi.
Po trenutačnoj procjeni, sadašnja pismohrana na papiru sastoji se od 80 uredskih "registratora" A4 formata (u daljnjem tekstu "svežnjeva"), koji svaki sadrži oko 500 listova papira, od kojih je jedna četvrtina "dvostrana". Sadržaj svežnja ukratko je opisan na hrbtu ili na naslovnici, a svaki sadrži oko 300 dokumenata koji se sastoje od jednog ili od nekoliko listova. Ovaj će dokument stoga govoriti o pismohrani koja se sastoji od svežnjeva, koji se sastoje od dokumenata, koji se pak sastoje od jednog ili više listova sa tiskanim ili rukopisnim sadržajem na jednoj ili na obadvije stranice lista, koji su uz rijetke iznimke A4 formata.
Projekt digitalizacije treba izvesti tako, da se u najkraće moguće vrijeme sadašni oblik pismohrane na papiru može djelomično uništiti a djelomično pohraniti na dugoročno sigurno mjesto, a na uštrb vremena potrebnog da se provedu dodatne radnje potrebne za učinkovitu uptrebu njezinog digitalnog oblika.
Prethodno navedenu procjenu volumena potrebno je naknadno revidirati. Isto (i to pogotovo) vrijedi i za niže iznesene procjene radnih sati po jedinici volumena, pa će se promijeniti i broj radnih sati, kao i ukupno vrijeme potrebno za dovršenje projekta digitalizacije.
Ostatak ovog dokumenta opisuje ukratko pojedine faze projekta. Ako i kada se bude pristupilo njegovom izvođenju, i kako se bude ukazivala potreba, detaljniji opisi pojedinih faza biti će doneseni u zasebnim dokumentima odnosno tehničkim naputcima, ko‑rezidentnim sa ovim dokumentom.
Skaniranje se vrši na bazičnom modelu "uredskog skanera" s automatskim transportom predložaka do A4 veličine, koji (po potrebi, i bez intervencije operatera) skanira ili jednu ili obadvije stranice lista. Program koji kontrolira rad skanera treba uključivati podršku za operativni sustav računala koji omogućuje rad na računalu koje nije ni u jednom trenutku priključeno na mrežu, od vremena kada je sva programska podrška "instalirana" na računalo pa sve do potpunog završetka projekta.
Predviđena je digitalna rezolucija od 400 do 600 dpi. Polovicu predložaka treba skanirati u crno‑bijelom zapisu, a polovicu u 256‑slojnom sivom zapisu, dok je zanemarivo mali broj potrebno skanirati u boji. (prethodni parametri skaniranja po procjeni operatera).
Rezultat skaniranja pojedinog svežnja je u pravilu samo jedna .pdf višestranična datoteka. Iznimno, ako sadržaj cijelog svežnja nije moguće skanirati sa istim parametrima rezolucije i boje, sadržaj jednog svežnja moguće je podjeliti na nekoliko datoteka, imenovanih u slijedu (vidi niže).
Svežnjevima su dodijeljeni redni brojevi, od 0001 do 9999. Rezultirajuće .pdf datoteke trebaju biti imenovane snnnn.pdf ako je cijeli svežanj sadržan u jednoj .pdf datoteci, a snnnna.pdf - snnnnz.pdf ako je svežanj sadržan u nekoliko, po slijedu dokumenata u svežnju imenovanih datoteka. Sve datoteke u sustavu su jedinstveno imenovane, a sva imena datoteka (i direktorija, vidi niže) sastoje se isključivo od malih slova, bez dijakritika, te od brojeva (0‑9), a sva imena počinju slovom.
Prije početka skaniranja svakog svežnja, operater treba dodati jedan redak koji opisuje svežanj u kazalu svežanja u datoteci .csv formata (kakve se obrađuju Excel, Libre Calc ili sličniom aplikacijom) a koji se satoji od samo dva stupca: prvi je broj svežnja, a drugi je tekstualni opis svežnja prepisan s opisa na hrtbtu ili naslovici.
Procjena volumena digitalnog zapisa je tek okvirna, i potrebno ju je provjeriti na početnom radnom uzorku, jer u velikoj mjeri ovisi o kvaliteti izvornika, karakteristikama programa za skaniranje i potrebnoj rezoluciji. Do tada se može pretpostaviti oko 50 KB za crno/bijelu stranicu, a 100 KB za sivu; tako da je rezultirajući ukupni volumen cijele pismohrane manji i od USB memorijske jedinice od 8 GB.
Sve datoteke u sustavu zapisuju se isključivo na kriptografski zaštićene vanjske (USB.3x‑priključene) memorijske jedinice, a nikako i nikada na disk koji je dio računala.
Oprema potrebna za ovu fazu projekta sastoji se od jedne (ili, ovisno o hitnosti dovršetka prve faze projekta, nekoliko) "stanica za skaniranje" od kojih se svaka sastoji od uredskog A4 skanera s automatskim transportom predloška (cijena cca. 350.- €), rabljenog laptop računala sa minimumom od 4 GB radne memorije i USB.3x priključkom za vanjku memoriju (cca 150.- €) i dva‑tri kvalitetna USB memorijska medija od 8‑16 GB (cca 10.- €).
Brzina skaniranja predviđene klase skanera je nominalno 25 A4 listova u minuti. Potrebno je međutim uzeti u obzir i vrijeme koje će operateru biti potrebno za pripremu i povratak listova u svežanj i unos podataka u .csv datoteke. (Poradi te činjenice, ako je potrebno ubrzati posao na skaniranju, bolje ga je podijeliti na nekoliko operatera sa sporijim i jeftinijim skanerom, nego li upotrijebiti brži ali skuplji skaner). Realno je očekivati da se na jednoj stanici za skaniranje ostvari ukupna brzina od 10 listova papira u minuti, tako da će za skaniranje kompletne količine (od 80x500 listova papira) biti potrebno 70 radnih sati.
Dovršetkom prve faze projekta sveukupnu pismohranu na paipru moguće je transpotirati na sigurnu lokaciju za dugotrajnu pohranu, iz koje će u pojedine svežnjeve biti potreban uvid jedino u slučaju potrebe ispravljanja naknadno uočene pogreške pri skaniranju, ili pak ako se pojavi potreba za prezentacijom originalnog papirnatog dokumenta tijekom imovinsko‑pravnog ili sličnog sudskog postupka.
Sve faze projekta koje slijede, izvode se na računalu s povremenim (odnosno pravovremenim) pristupm digitalnim datotekama na zaštićenoj vanjskoj memoriji.
Koristeći program za manipulaciju .pdf datoteka, u ovoj fazi projekta operater "parcelira" .pdf datoteke koje sadrže cijele svežnjeve (stotine stranica) na individualne dokumente, tako da jedan dokument bude sadržan u jednoj .pdf datoteci. Postupak se izvodi na računalu jednakom onom koji je koristen u prethodnoj fazi projekta, ali bez skanera. Ukupan posao je moguće podjeliti na veći broj operatera, potencijalno čak jednak broju svežnjeva. Za ovaj je postupak vanjski monitor relativno velike radne površine od bitne prednosti (cca 150.- €). Svi dokumenti iz jednog svežnja imenuju se rednim brojem svežnja sa pridodatim rednim rednim brojem dokumenta, npr. snnnndmmmm.pdf (kao prije, nnnn je broj svežnja, dok je mmmm redni broj dokumenta unutar svežnja). Uz podjelu na individialne datoteke, u direktoriju svakog svežnja potrebno je unijeti za svaki dokument po jedan redak u .csv datoteku svežnja, koji sadrži sljedeće stupce: redni broj svežnja, redni broj dokumenta, datum dokumenta (koji može piti nepoznat), naslov i kratki opis dokumenta.
Ova će se faza projekta odvijati bitno sporije od prethodne, ali je ukupno vrijeme moguće po volji skratiti zaposlivši veći broj operatera. Zasada se procjenjuje da će za taj postupak operateru trebati minimum od pet minuta po dokumentu, ili (približno) 10 dokumenata na sat. Uz projenu ukupnog broja dokumenata u uvodu (80 x 300, 24000 dokumenata), to iznosi ukupno 2400 radnih sati. Traba međutim sopmenuti da je ova procjena učinkovitosti operatera još više nesigurna od onih prethodno iznesenih, te ju je svakako potrebno revidirati prema stvarno postignutom učinku.
Kao i u prvoj fazi, tijekom rada svi direktoriji i u njima sadžane datoteke nalaze se na kriptografski zastićenim vanjskim memorijama. Po završetku ove faze projekta, rezultat rada nekolicine operatera konsolidira se na jednu jedinicu vanjske memorije, kojoj kriptografska zaštita garantira pristup samo najužeg kolegija vlasnika digitalne pismohrane. Imenovanjem datoteka po prethodno iznesenom obrascu garantirano je da će dvije datoteke razlicitog sadržaja uvijek imati različita imena.
Ukoliko pristup (kako je prethodno opisano) ima samo jedna osoba, primjerenim softwerskim alatima treba osigurati i dodatni pristup koji zahtjeva suradnju jednog dijela (naprimjer, "pet od sedam") kolegija kojeg odredi vlasnik pismohrane.
Automatskim OCR procesom (kojem je trajanje zanemarivo kratko) svakoj se .pdf datoteci dokumenta pridodaje i tekstualna datoteka UTF8 formata u kojoj se nalazi tekst (a ne, kao u .pdf datoteci, tek slika) dokumenta. Kvaliteta takvog strojno generiranog teksta varira (ovisno o "čitljivosti" dokumenta i kvaliteti OCR aplikacije) od onog sa svega 1‑3% krivo interpretiranih riječi, pa sve do praktički neuportebljivog (u slučaju rukopisnih dokumenata). Kako je medjutim taj proces brz, i kako tek zanemarivo pridonosi ukupnom volumenu digitalne pismohrane, svakako ga je uputno provesti.
OCR‑generirane datoteke imenovane su jednako kao i .pdf datoteke, jedina
im je razlika u "nastavku" t.j, ".tekst" namjesto ".pdf") - tako da će,
na primjer, 138‑i dokument 15‑tog svežnja imati dvije pripadajuće datoteke:
s0015d0138.pdf
i s0015d0138.tekst
.
Po dovršetku ove faze projekta, konačna organizacija USB memorije u uobičajenoj hijerarhijskoj strukturi direktorija i pod‑direktorija može se prikazati ovako:
velebit75 ├── sveznjevi.csv ├── s0001 │ ├── s0001.csv │ ├── s0001d0001.pdf, s0001d0001.tekst │ ├── ... │ └── s0001d0247.pdf, s0001d0247.tekst ├── ... └─── s0080 ├── s0080.csv ├── s0080d0001.pdf, s0080d0001.tekst ├── ... └── s0080d0315.pdf, s0080d0315.tekst
Kako je gore prikazano, imena direktorija i datoteka sastoje se isključivo od malih slova (a‑z), bez dijakritika (ili razmaka!) i od brojeva (0‑9), i započinju slovom. Standardni nastavci (.csv, .pdf i .tekst) imena datoteka označavaju njihov format i namjenu. Imena direktorija (po jedanoga za svaki svežanj originalne pismohrane) nemaju nastavaka. Ime glavnog direktorija jednako je imenu vlasnika, odnosno projekta digitalizacije njegove pismohrane.
Kombinacijom ljudskog uvida u .pdf (i .tekst) datoteke, kao i automatskom obradom .cvs i .tekst datoteka moguće je izgraditi dodatne alate za brže pretraživanje digitalne pismohrane - kao naprimjer indeks ključnih riječi u kontekstu, SQLlite baza podataka najrazličitijh atributa dokumenata i slično. Svrsishodnost takvih alata ovisi u omjeru radnih sati potrebnih za njihovu implementaciju s jedne strane i učestalosti potrebe pretraživanja kompletne pismohrane s drge. Potrebno je međutim naglasiti, da će i najjednostavnije pretraživanje tekstualnog sadržaja (u ovom slučaju .cvs i .tekst) datoteka koje nude standardne komponente operativnog sustava računala, a u kombinaciji s relativno skromnim volumenom ovdje opisane digitalizirane pismohrane, u velikom broju slučajeva zadovoljava potrebe pretraživanja. Uputno je stoga razmatranje implementacije i uptrebe takvih alata ostaviti za vrijeme nakon što se steknu prva praktična iskustva u korištenu digitalizirane pismohrane.