• Welcome to Cavallo Planet - Forum Per gli appassionati di equitazione inglese e americana... e di cavalli..

Come digitalizzare e pubblicare sul web un testo stampato

Aperto da alex, Giugno 30, 2012, 07:06:57 AM

« precedente - successivo »

alex

Sono un po' emozionato.... questo topic potrebbe generare una bella iniziativa, sento il peso della responsabilità. Lo sistemo qui - e non in un'altra sezione - perchè potenzialmente ha a che fare con la condivisione sul web di fonti della storia dell'equitazione, ed in particolare della Rivista dei Cavalleria,  che Caprilli, i suoi maestri e i suoi allievi certamente leggevano e su cui hanno scritto.

Per "digtalizzazione" intendo un processo in cui la copia cartacea di un testo viene trasfrormata in un ipertesto, che ha queste caratteristiche:

1. contiene il testo e le eventuali immagini delle figure e illustrazioni in formato digitale;
2. il testo è stato corretto manualmente per verificare l'esattezza della conversione dalla immagine;
3. il testo è stato formattato per conservare quanto più possibile lo stile tipografico dell'originale (grassetto, corsivo, annotazioni, ecc.);
4. al testo sono stati aggiunti link attivi, che permettono di raggiungere, da punti chiave del testo, altri testi compresi nella stessa opera o in altre opere o siti web.

Per essere comodamente utilizzato da tutti, il formato finale di un ipertesto è l'html o l'xml, lo stansard per gli ipertesti presenti sul web. Questo passaggio consente anche di riutilizzare il testo "rimontandolo"  in una varietà di formati digitali, come, ad esempio, quelli utilizzati per i cosiddetti eBook.

I passi per ottenere questo risultato sono:

1. scansione o riproduzione fotografica di tutte le pagine e memorizzazione delle immagini in file immagine;
2. passaggio delle immagini a un programma OCR con produzione di un primo testo digitale "grezzo";
3. revisione e correzione dell'OCR per l'eliminazione degli errori di scansione;
4. formattazione e trasformazione in ipertesto

Il primo passo è molto importante e critico, in quanto dalla qualità della scansione deriva la qualità  dell'OCR e la bellezza della riproduzione di eventuali illustrazioni. Sia che si utilizzi uno scanner, sia che si utilizzi una macchina fotografica digitale, è opportuno ricavare e conservare gelosamente (meglio in doppia copia) una serie di immagini in formato non compresso a ottima risoluzione; per un buon OCR è necessario disporre di immagini che abbiano almeno la risoluzione di 300 pixel-pollice per testi scritti con caratteri normali; può essere necessaria una risoluzione maggiore per testi con caratteri molto piccoli (come molti dizionari). Il formato non compresso più utilizzato per la raccolta delle immagini originali è il TIFF. Le immagini TIFF sono, in genere, l'output di default degli scanner.

Ottenuta la serie delle immagini TIFF, spesso queste, per comodità, vengono montate in un file PDF a buona risoluzione e a bassa compressione.

Ottenuto un buon PDF tutto il resto si può fare sul web, sfruttando siti gratuti e comunità di volontari.

Il metodo più semplice, e che meglio conosco, comprende:

1. il caricamento delle immagini TIFF, o, cosa molto più semplice, del file PDF in ciui le immagini TIFF sono assemblate in Internet Archive: http://archive.org.
Il sito, caricato un PDF, lo elabora in modo totalmente gratuito e automatico; dopo alcune ore il PDF caricato è stato sottoposto a buon OCR (FineReader) e sono stati ottenuti una larga serie di file derivati (txt, djvu, .....); il testo può essere sforgliato con un ottimo visualizzatore ed è possibile eseguire al suo interno ricerche di parole. Tutti i file prodotti sono scaricabili e riutilizzabili per ulteriori elaborazioni e ripubblicazione di opere web derivate. Per poter caricare PDF su IA e avviare le conversioni è sufficiente registrarsi (gratuitamente) oppure appoggiarsi a un amico che sia registrato (io sono registrato, qualche altro utente del forum lo è?). Un formato interessante di file, prodotto da IA, è il djvu, che contiene sia le immagini che il testo OCR.

2. tutti gli altri passaggi (correzione dell'OCR + formattazione + trasformazione in ipertesto) per giungere a un ipertesto possono essere svolti da comunità di volontari attive nel web: LiberLiber, Gutemberg Project, Wikisource. Io conosco meglio quest'ultima, che a mio parere offre molti vantaggi. Beninteso: nulla impedisce che un'opera sia "trattata" da varie comunità! In particolare, wikisource, essendo un progetto "fratello" di wikipedia, offre la possibilità della realzzzione di un ipertesto particolarmente ricco, perchè sono facili i collegamenti (i link) sia con wikipedia, che con tutti gli altri "progetti fratelli".

Attenzione però: il lavoro di correzione dell'OCR, formattazione e trasformazione in ipertesto è un lavoro gravoso, lungo, delicato, Fatto gratuitamente da volontari impegnati in millanta progetti. Wikisource non fornisce "il lavoro":  fornisce "gli strumenti per fare il lavoro" e fornisce "un ambiente cordiale e collaborativo per farlo", ossia: poi occorre che volontari vi ci si dedichino.... e la stessa cosa vale per gli altri  progetti su base volontaria. ;-)

Riassumendo proporrei:
1. scansione e montaggio delle immagini scansionate in un pdf a bassa compressione;
2. caricamento su Internet Archive
3. caricamento del file djvu prodotto da Internet Archive su wikisource
4. completamento su wikisource.


La nuda Verità è una donna difficile da amare. L'illusione invece è una donna seducente, amorevole, a cui è facilissimo restare fedeli.

alex

Aggiungo una via particolarmente abbreviata che si potrebbe attuare nel caso di un'iniziativa che parta da questo forum:

1. scannerizzazione e raccolta delle immagini TIFF
2. condivisione delle immagini con chi possiede FineReader 11 e può fare, in una sola operazione, la conversione in PDF + djvu con OCR, e la successiva pubblicazione in wikisource. Io ho FineReader 11 e posso pubblicare in wikisource; ma non è mica detto che io sia (o resti) l'unico.
La nuda Verità è una donna difficile da amare. L'illusione invece è una donna seducente, amorevole, a cui è facilissimo restare fedeli.

bambolik

Molto bene, io posso eseguire delle scanzioni di varie qualità. Standardizzando la risoluzione e dimenzione per facilitre credo la rielaborazione.
Dandomi il materiale e le informzioni su quale risoluzione e modalità tipo CMYK, RGB  ecc.
Nell'attesa-
G.
"Non è mai tempo perso quello trascorso a cavallo"(Winston Churchill).

alex

Ci sono due possibilità.

1. lavorare su fotocopie di ottima qualità: allora TIFF B/N 300 dpi non compresso o con compressione lossless LZW/RLE
2. scansionare gli originali: allora TIFF colori 300 dpi non compresso o con compressione lossless LZW/RLE

Entrambe le soluzioni assicurano un buon OCR. Non sono esperto dei sistemi di compressione, memorizzerei i TIFF originali senza compressione eventualmente facendone poi una copia compressa, se ne vale la pena, per la sola trasmissione.
Se qualcuno sa (di più), parli.  :icon_rolleyes:
La nuda Verità è una donna difficile da amare. L'illusione invece è una donna seducente, amorevole, a cui è facilissimo restare fedeli.

bambolik

Se le fotocopie sono di qualità di certo per la scansione risultano piu agevoli e l'originale maggiormante salvaguardato. Inoltre le fotocopie si possono movimentare molto meglio nello scanner e la scanziobe siceramente è ottimizzata.
TIFF poi con compressione tipo win zip per trasmissione credo sia la soluzione perfetta per la trasmissione e poi elaborazione ocr.
ptrei comunque fare delle prove in vari formati e sistemi di compressione prima di partire col lavoro di digitalizzazione definitivo per calibrare quale sia il migliore risultato.
G.
"Non è mai tempo perso quello trascorso a cavallo"(Winston Churchill).

alex

Non solo; le fotocopie - se prodotte dal legittimo proprietario dell'opera, come una biblioteca - esonerano lo scannatore  :icon_eek: dalla maggiore delle responsabilità, quella di danneggiare l'originale con la indispensabile manipolazione; inoltre, se vengono richieste citando il progetto di scannerizzazione, costituiscono di per sè una specie di "assenso" (non indispensabile per le opere fuori copyright, ma comunque doveroso e desiderabile) del legittimo proprietario dell'opera al progetto.

La nuda Verità è una donna difficile da amare. L'illusione invece è una donna seducente, amorevole, a cui è facilissimo restare fedeli.

alex

FineReader 11 "digerisce" tranquillamente una serie di tiff, producendo in una sola "passata" sia il testo OCR, che i file djvu e pdf con il testo OCR integrato, e permette anche di estrarre con facilità eventuali illustrazioni come file grafici.

Anche se nell'ipotesi tiff->FineReader 11->djvu la produzione di un pdf e il suo invio a Internet Archive non è  indispensabile, io invierei comunque a IA un pdf, per aumentare la visibilità e le possibilità di ampia condivisione del testo.
La nuda Verità è una donna difficile da amare. L'illusione invece è una donna seducente, amorevole, a cui è facilissimo restare fedeli.

bambolik

A questo punto...aspetto le fotocopie...son pronta io. :pollicesu:
"Non è mai tempo perso quello trascorso a cavallo"(Winston Churchill).

alex

Benissimo. Segnalo questa discussione a chi so interessato alla questione  (il col. Angioni è già informato, perchè immagino stia leggendo, o leggerà appena passerà di qua) e se son fiori... fioriranno.

La nuda Verità è una donna difficile da amare. L'illusione invece è una donna seducente, amorevole, a cui è facilissimo restare fedeli.

bambolik

Il Colonnello mi ha rimandato a lei, quindi aspetto sue notizie.
G.
"Non è mai tempo perso quello trascorso a cavallo"(Winston Churchill).

alex

Che bello. C'è anche una lei, nel gruppo! Chi è? Chi è?  :blob9:

Scherzi a parte, scrivo un paio di mail, un paio di giorni e vediamo.
La nuda Verità è una donna difficile da amare. L'illusione invece è una donna seducente, amorevole, a cui è facilissimo restare fedeli.

bambolik

e bhe è educazione...Nel caso lascio mia emai in mp di "servizio" per scambiare dati info in merito.
e piacere son Gabriella.
"Non è mai tempo perso quello trascorso a cavallo"(Winston Churchill).