Google scopre l’OCR e lo applica alla ricerca dei contenuti

Pubblicato il giorno 30 marzo 2009 - Data stellare: 34246.45

Ricercando alcuni documenti in rete mi sono trovato davanti ad una novità.
esempiogoogle
Cosa c’è di strano? Si tratta di un documento PDF con una scansione di un vecchio libro, per la quale google ha applicato l’OCR. Probabilmente si tratta dell’OCR Tesseract, originariamente sviluppato dagli Hewlett Packard Laboratories tra il 1985 ed il 1995 che dopo anni passati nel dimenticatoio ed una tappa presso l’Information Science Research Institute UNLV, è stato preso in mano da Google che lo ha redistribuito in forma open source.
Google quindi estende l’indicizzazione, ed è cosa buona!

Argomenti correlati

Tag: ,

4 Risposte a “Google scopre l’OCR e lo applica alla ricerca dei contenuti”

  1. Livio
    mar 30, 2009
    Reply

  2. webmaster
    set 09, 2009
    Reply

    Direi che è cosa molto buona!!


  3. Razorblade
    set 10, 2009
    Reply

    Non ho capito bene il punto dell’articolo, la possibilità di ricercare tra i file pdf credo che sia disponibile da molto tempo ( ben prima del marzo 2009, data dell’articolo ), inoltre possiamo usare la keyword filetype per filtrare esclusaivamente la ricerca ad un certo tipo di file ( es. filetype:pdf parola1 parola2 [...] ).

    Ma forse non ho capito io l’articolo.
    Complimenti per il blog comunque.
    Saluti


  4. floriano
    set 24, 2009
    Reply

    fenomenale!!! in rete ci sono parecchi pdf che in realtà all’interno hanno delle immagini e questo software le converte perfettamente!



Lascia un Commento