SOFTWARE OCR SU UBUNTU...

Aprite una shell(terminale) e digitate:
______________________________________
bestrac@xxxxxxxx:~$ sudo -s
[sudo] password for xxxxxx:
(INVIO)
root@xxxxxxxx:~# apt-get install imagemagick
(INVIO)
Lettura della lista dei pacchetti in corso... Fatto
Generazione dell'albero delle dipendenze in corso
Lettura informazioni sullo stato... Fatto
imagemagick è già alla versione più recente.
I seguenti pacchetti erano stati automaticamente installati e non sono più richiesti:
graphicsmagick libgraphicsmagick1
Usare 'apt-get autoremove' per rimuoverli.
0 aggiornati, 0 installati, 0 da rimuovere e 0 non aggiornati.

root@xxxxxxxx:~# apt-get install tesseract-ocr
(INVIO)
Lettura della lista dei pacchetti in corso... Fatto
Generazione dell'albero delle dipendenze in corso
Lettura informazioni sullo stato... Fatto
I seguenti pacchetti erano stati automaticamente installati e non sono più richiesti:
graphicsmagick libgraphicsmagick1
Usare 'apt-get autoremove' per rimuoverli.
I seguenti pacchetti verranno inoltre installati:
tesseract-ocr-deu
I seguenti pacchetti NUOVI (NEW) saranno installati:
tesseract-ocr tesseract-ocr-deu
0 aggiornati, 2 installati, 0 da rimuovere e 0 non aggiornati.
È necessario prendere 2229kB di archivi.
Dopo quest'operazione, verranno occupati 4219kB di spazio su disco.
Continuare [S/n]? s
Get:1 http://it.archive.ubuntu.com jaunty/universe tesseract-ocr-deu 2.00-1 [1376kB]
Get:2 http://it.archive.ubuntu.com jaunty/universe tesseract-ocr 2.03-2 [853kB]
Scaricato 2229kB in 4s (479kB/s)
Selezionato il pacchetto tesseract-ocr-deu, che non lo era.
(Lettura del database ... 147576 file e directory attualmente installati.)
Spacchetto tesseract-ocr-deu (da .../tesseract-ocr-deu_2.00-1_all.deb) ...
Selezionato il pacchetto tesseract-ocr, che non lo era.
Spacchetto tesseract-ocr (da .../tesseract-ocr_2.03-2_i386.deb) ...
Processing triggers for man-db ...
Configuro tesseract-ocr (2.03-2) ...
Configuro tesseract-ocr-deu (2.00-1) ...


root@xxxxxxxxxx:~# apt-get install tesseract-ocr-ita
(INVIO)
Lettura della lista dei pacchetti in corso... Fatto
Generazione dell'albero delle dipendenze in corso
Lettura informazioni sullo stato... Fatto
I seguenti pacchetti erano stati automaticamente installati e non sono più richiesti:
graphicsmagick libgraphicsmagick1
Usare 'apt-get autoremove' per rimuoverli.
I seguenti pacchetti NUOVI (NEW) saranno installati:
tesseract-ocr-ita
0 aggiornati, 1 installati, 0 da rimuovere e 0 non aggiornati.
È necessario prendere 978kB di archivi.
Dopo quest'operazione, verranno occupati 1782kB di spazio su disco.
Get:1 http://it.archive.ubuntu.com jaunty/universe tesseract-ocr-ita 2.00-1 [978kB]
Scaricato 978kB in 2s (458kB/s)
Selezionato il pacchetto tesseract-ocr-ita, che non lo era.
(Lettura del database ... 147620 file e directory attualmente installati.)
Spacchetto tesseract-ocr-ita (da .../tesseract-ocr-ita_2.00-1_all.deb) ...
Configuro tesseract-ocr-ita (2.00-1) ...

____________________________________________________________________________
Giunti sino a qui in pochi passaggi abbiamo il nostro pc con xsane preinstallato
PRONTO ALL'USO.............
molta attenzione và data alla pagina acquisita dallo scanner , deve essere nitida e con il massimo del contrasto, in caso, pulirla con un programma di fotoritocco come gimp..
_________________________________________________________________________________

Adesso dobbiamo convertire l’immagine a tiff non compressa. Da terminale andiamo ad usare il comando “convert”, con questa sintassi(sempre da shell):

convert %file_sorgente% %file_destinazione%


esempio: convert figo.jpg figo.tif

quindi.....

Usare Tesseract per ottenere il file di testo

tesseract %file_tiff_da_far_leggere% %nome_del_file_di_uscita%


tesseract figo.tif risultato

Tesseract aggiungerà l’estensione al file di uscita da solo.

________________________________________________________________________

adesso potrete copiare i vostri libri in tutta tranquillità!! bye! ;-)


_________________________________________________________________________

Nessun commento:

Posta un commento