mar 30 2009

Google scopre l’OCR e lo applica alla ricerca dei contenuti

Pubblicato da Roberto Scano alle ore 12:34 in Random bits, Web4All
Data stellare 34245.99 View blog reactions View blog reactions

Ricercando alcuni documenti in rete mi sono trovato davanti ad una novità.
esempiogoogle
Cosa c’è di strano? Si tratta di un documento PDF con una scansione di un vecchio libro, per la quale google ha applicato l’OCR. Probabilmente si tratta dell’OCR Tesseract, originariamente sviluppato dagli Hewlett Packard Laboratories tra il 1985 ed il 1995 che dopo anni passati nel dimenticatoio ed una tappa presso l’Information Science Research Institute UNLV, è stato preso in mano da Google che lo ha redistribuito in forma open source.
Google quindi estende l’indicizzazione, ed è cosa buona!

Argomenti correlati

4 commenti

4 risposte per “Google scopre l’OCR e lo applica alla ricerca dei contenuti”

  1. webmaster scrive:

    Direi che è cosa molto buona!!

  2. Razorblade scrive:

    Non ho capito bene il punto dell’articolo, la possibilità di ricercare tra i file pdf credo che sia disponibile da molto tempo ( ben prima del marzo 2009, data dell’articolo ), inoltre possiamo usare la keyword filetype per filtrare esclusaivamente la ricerca ad un certo tipo di file ( es. filetype:pdf parola1 parola2 [...] ).

    Ma forse non ho capito io l’articolo.
    Complimenti per il blog comunque.
    Saluti

  3. floriano scrive:

    fenomenale!!! in rete ci sono parecchi pdf che in realtà all’interno hanno delle immagini e questo software le converte perfettamente!

Trackback URI | RSS commenti

Lascia un commento

XHTML: Puoi utilizzare i seguenti elementi: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong> e [youtube XXXXX] per caricare un video presente in Youtube (dove, al posto di XXXXX va inserito l'identificativo del filmato)