miércoles, 22 de febrero de 2012

ReCaptcha, capitalizando la inteligencia colectiva

   En nuestra vida virtual nos cruzamos a diario con los Catpchas, ya sea para comentar en Blogger, darnos de alta en Facebook y miles de sitios mas, esta restricción permite demostrar que eres un humano en vez de un robot tratando de plagar de spam los diversos sitios participativos de la red. Lo curioso del asunto es que este sistema tiene otro objetivo silencioso además de identificar humanos



  Uno de los inventores de los CAPTCHAS fue Luis von Ahn, un guatemalteco con unas ideas bastante originales.
  En un momento dado Luisito pensó que se teclean 200 millones de CAPTCHAS al día y empezó a sentirse mal porque calculó que tardábamos 10 segundos en teclear cada uno de ellos, así que la humanidad en conjunto estaba perdiendo 2000 millones de segundos, es decir 500.000 horas diarias en teclear esas incoherencias. Esas son muchas horas de trabajo que debían ser capitalizadas de alguna forma, entonces surgió reCaptcha. El nuevo método además de reconocer humanos aprovecho las facultades del cerebro humano que aún las maquinas no pueden igualar, específicamente la de reconocer texto de una foto y la puso al servicio de la digitalización de libros.

¿Cómo funciona?

ReCaptcha presenta siempre 2 palabras, una de control  y una segunda palabra que es el desafío para el sistema. La primera palabra, el sistema la conoce, la segunda palabra, el sistema no la reconoce por completo.




¿Para qué sirve?


Supongamos que Google quiere digitalizar una edición muy vieja del New York Times. Primero, pondría a gente para escanear estos periódicos, y después correría un software OCR (Reconocimiento óptico de caracteres) para tratar de identificar lo que dice y convertirlo a un texto en la computadora.

Muchas veces los documentos escaneados son de mala calidad de impresión y tienen palabras irreconocibles para el sistema…

Lo que hace el sistema de reCaptcha es que en combinación con el software OCR, marca las palabras que no entiende bien lo que dice y se las da a los humanos para que las interprete:


El sistema le presenta una misma imagen a miles de humanos para que lo interprete… 
Después de muchas confirmaciones, el sistema identifica por ejemplo la palabra anterior como “DOUGLAS" y una coma.
 El sistema es 99.5% confiable y efectivo. La mano de obra de identificar la palabra es gratis y el resultado increíble.

De manera que cuando estás tecleando uno de estos nuevos CAPTCHAs dobles, por ejemplo en Facebook, 
estás colaborando al escaneo de un libro, ahora mismo de uno de los dos millones y medio de libros anuales que se escanean mediante este método.

Un punto débil del software es que las combinaciones aleatorias de dos palabras, en ocasiones presentan resultados chocantes:













Fuente

1 comentario: