31 de octubre de 2014

Análisis digital de imágenes y reconocimiento de objetos

Cuando vemos una fotografía o un cuadro, reconocemos con mucha facilidad sus componentes (como aquí un televisor, algunos gatos, unos libros, frutas). Pero es mucho más difícil lograr que un programa informático lo haga.

Hasta ahora se han multiplicado las aplicaciones de reconocimiento de caras, especialmente por el éxito de la fotografía con smartphones y las redes sociales. En este caso, los patrones de reconocimiento son bastante estables y se trata de un solo tipo de objeto (que funciona bien con vistas frontales pero no en otras posiciones; ver más abajo). Lograr una aplicación general, capaz de analizar cualquier fotografía e identificar cualquier objeto es mucho más difícil. Se recurre para ello a redes neuronales artificiales, las que se "aprenden" mediante repetición. Aunque el entrenamiento de una red neuronal es habitualmente producto de la intervención de "tutores" humanos que van señalando lo correcto o incorrecto hasta que el análisis logra la mayor eficiencia, los últimos trabajos relativos a la identificación de objetos en fotografías recurren a la "nube", donde existe una enorme cantidad de imágenes ya acompañadas de descripciones verbales. Así, se construye una gran base de datos de imágenes con su descripción y se ponen los computadores a repasarlas hasta lograr la tasa de reconocimiento automático esperada.

Entre los laboratorios de informática que abordan este problema está el de Google -como no- que ha desarrollado un sistema (GoogLeNet) que ganó el primer premio en el ImageNet large-scale visual recogniticion challenge (ILSVRC), un concurso organizado por expertos de las universidades de Stanford, Princeton y Columbia que se repite desde el año 2010. La Universidad de Toronto lo ganó en 2012 con su programa SuperVision, el que introdujo una nueva técnica llamada de "convolución profunda" en las redes neuronales, que revolucionó la "visión de máquina", acercándola por primera vez a la eficiencia de la visión humana. Este sistema recurre a múltiples capas de colecciones reducidas de neuronas que son enfocadas a distintas áreas de la imagen. Supervision tiene 650.000 neuronas agrupadas en 5 capas y afinan 60 millones de parámetros durante el proceso de entrenamiento. La simplificación por lo concursantes de este tipo de tecnología de entrenamiento ha sido fundamental y ha permitido duplicar en cuatro años la tasa de exactitud. Equipos de Adobe, la Universidad de Oxford y la Nacional de Singapur también concursaron y fueron premiados. Microsoft, por su parte, ha desarrollado el Project Adam, que pretende permitir a los usuarios identificar cualquier objeto haciendo una foto o incluso obtener información adicional como las calorias que contiene su cena. Para ello, pretende imitar el funcionamiento del cerebro humano con el fin de tratar de identificar un objeto en el menor tiempo posible. Todos compiten utilizando una misma base de datos (Imagenet) de 14 millones de imágenes encontradas en internet y previamente identificadas, dividas en 22.000 categorías diferentes. Google logró una tasa de error de 6,7%, mientras un observador humano entrenado obtiene una tasa de 1,7%. La diferencia se debe esencialmente a la dificultad -para la máquina- en reconocer imágenes alteradas por filtros, cosa que pocas veces impide el reconocimiento humano, mientras la máquina ya el gana al humano en ciertas definiciones de subcategorías (como las razas de perros, por ejemplo). (MIT Technology Review, 9/09/2014)

Identificación de personas 
Reconocer que algo es una cara o una persona, en una foto, es sencillo, pero la identificación de las personas es un problema diferente, especialmente debido a la enorma variedad genética (incluso ya presente en los neandertales), resultado de la presión evolutiva para que cada individuo sea fácilmente reconocible dentro de un grupo complejo y evitar así el caos social, como determinó un equipo de científicos, liderado por la Universidad de California en Berkeley (EE UU) que analizó los datos genéticos de poblaciones de África, Europa y Asia.
El profesor Domingo Mery, de la Escuela de Ingeniería de la Pontificia Universidad Católica (Chile), ganó la distinción al mejor trabajo presentado en una conferencia en Zurich sobre identificación por computador, pero identificación tomando en cuenta características "suaves". El profesor Mery explica que hay muy buenas herramientas para identificar rostros si la cámara los toma de frente, como en el pasaporte: eso es "biométrica dura". Así no es gracia reconocer. La biometría "suave" (soft biometrics) se fija en rasgos como edad, barba, maquillaje, género, anteojos, etnia, color de pelo, color de ojos, largo de los brazos y piernas, altura, peso, gestos, y más. Súper difícil de combinar tantos factores, pero de eso se trata.
El profesor Mery es tenaz; ganó su doctorado en Alemania porque ideó un programa de computador que identificaba, mediante una cámara de rayos X, fallas en las llantas de los autos. Después logró el reconocimiento de armas ocultas en los controles de aeropuertos, también con rayos X. Ahora investiga por un año sobre identificación de personas en los laboratorios de la Universidad de Notre Dame, en EE.UU. (El Mercurio, 15/09/2014).

No hay comentarios:

Publicar un comentario

No se reciben comentarios.

Nota: solo los miembros de este blog pueden publicar comentarios.