Questo è un post un pò complicato, lo so.
Ma credo che possa interessarvi, anzi ne sono sicuro.
Cercherò di essere il più chiaro possibile, ci proverò mettendoci tutta la buona volontà.
Allora, veniamo al dunque.
Tutto nasce in Aperion.it, da una segnalazione di Maurizio Manetti che mi ha parlato di una curiosità e mi ha suggerito di scrivere qualcosa.
Ok, è per questo che vi parlerò di:
- OCR (acronimo di Optical Character Recognition)
- Captcha (completely automated public Turing test to tell computers and humans apart)
- Spamming
- Un progetto di trasformazione di tutti i libri vecchiotti da cartacei a elettronici
Buona per tutta la collettività l’idea che qualcuno si faccia carico di digitalizzare l’intero patrimonio dei libri in circolazione scritti prima dell’avvento del computer, appunto quelli vecchiotti.
Come fare?
Si prende il libro vecchiotto e s’inserisce in un macchinone che scannerizza le singole pagine una a una e trasforma il tutto in unico libro elettronico (e-book), utilizzando, appunto, la tecnologia OCR.
Semplice?
Mica tanto.
Guardate che disastro può fare anche il più sofisticato sistema di OCR nel leggere un libro vecchiotto:

Le parole sottolineate in rosso sono chiaramente errori d’interpretazione del sistema, un macello.
Che si fa, si mette qualcuno a leggere e poi riscrivere tutti questi libri vecchiotti?
No, troppo lungo, troppo costoso.
Ecco l’idea geniale di reCAPTCHA™, un progetto promosso dalla School of Computer Science alla Carnegie Mellon University: perchè non far lavorare tutti quegli utenti sul web che ogni giorno sono costretti a “leggere” un’immagine a video e scriverla in un box (applicazione CAPTCHA) per poter completare una registrazione, compilare un form, fare un commento su un Blog, acquistare online?
Ogni giorno, 200 milioni di persone effettuano questa operazione.
Ognuna di queste persone dedica a questa attività 10 secondi: tutti messi insieme, fanno 150.000 ore al giorno.
Bene, l’idea reCAPTCHA™ si basa sul coinvolgimento di tutti quelli che, per evitare l’odioso fenomeno dello spamming, hanno inserito un’applicazione CAPTCHA nelle sezioni più interattive dei loro siti web.
Da CAPTCHA a reCAPTCHA™
Il trucco di questi furbacchioni è che non forniscono un’immagine a caso da far leggere, ma un PEZZETTINO DI LIBRO da interpretare.
Molti leggono quel pezzettino di libro e lo rendono elettronico digitalizzando la loro interpretazione.
Il tutto va in un calderone, poi viene fatta una classifica e diventa buona l’interpretazione che viene fatta dal maggior numero di utenti.
I pezzettini vengono messi uno in fila all’altro ed ecco l’e-book.
Se non è WEB 2.0 questo….
Per saperne di più, reCAPTCHA.net™
Robert Piattelli, Aperion.it, il Blog!
























L’idea si fa piacere. Speriamo però che non ne escano fuori assembamenti tipo:
Sempre caro mi fu quest’ermo colle,
dato il mortal sospiro,
su la favola bella
che come vedi ancor non m’abbandona…
non ci si può mai fidare
emanuele
Sarebbe un guaio!
la prima impressione è un po’ sospettosa, ma vediamo come si sviluppa