septiembre 15, 2018 6:00 pm

Jesús

?? Read in English

¡Hey! Se te olvidaron tus llaves. Te las lanzaré. No las dejes caer, ¿ok?

Las agarraste. ¡Muy bien!

Lo que acaba de suceder es bastante simple, ¿no? De hecho, hasta parece trivial.

No realmente. Verdaderamente éste es uno de los procesos más complejos que hemos tratado de comprender (ni hablar de replicar). Te preguntarás por qué. En líneas muy generales lo que está ocurriendo en tu cerebro es lo siguiente: La imagen de las llaves volando por los aires pasa a través de tus ojos hasta tu retina. Allí, después de un par de análisis y transformaciones elementales, es transmitida a tu cerebro, donde la corteza visual se encargará de analizar con mayor profundidad dicha imagen. Posteriormente, ésta es transmitida al resto de la corteza cerebral para llevar a cabo nuevos cálculos que conducirán a una decisión o acción. ¿Qué cálculos? Desde determinar las dimensiones del objeto representado en la imagen, hasta comparar su forma con la ingente cantidad de datos almacenados en tu cerebro para asignarle una categoría (en este caso, “llaves”). ¿Qué hay de la decisión? Tu cerebro posiblemente concluya que la mejor estrategia sea levantar tu brazo, abrir la palma de la mano, recibir las llaves y luego guardarlas en el bolsillo. Pero, ¿qué hay de la trayectoria de tu brazo? Hay que calcularla, predecir el punto en el espacio en el que las llaves se encontrarán en el momento justo que levantes tu mano para atajarlas. Otro sinfín de procesos derivados de la imagen percibida por tus ojos se llevan a cabo en esa pequeña, ligera masa de 1.5 Kgs que llevamos dentro de nuestra cabeza.

¿Sabes qué es lo más impresionante? Que rara vez fallamos en tomar decisiones con base a estímulos visuales. Más impactante aún es que todo sucede en una fracción de segundo.

Como verás, recrear la visión humana no es un problema sencillo porque, en el fondo, es una serie de problemas interdependientes y relacionados entre sí.

¡Nadie dijo que sería fácil! ¿O sí?

En 1966, uno de los pioneros de la Inteligencia Artificial, Marvin Minsky, le encomendó a uno de sus estudiantes de pregrado que conectara una cámara a una computadora para que ésta describiera lo que ve. Más de 50 años después seguimos trabajando en esta asignación. Piensa en eso la próxima vez que tu jefe te pida que le lleves un café.

En resumen…

En resumen, la Visión Computarizada, o CV, por sus siglas en inglés (Computer Vision) es un área interdisciplinaria que toma elementos de la neurobiología, estadística, ciencias de la computación, inteligencia artificial, matemáticas, y muchos otros dominios para hacer que máquinas inteligentes, como los smartphones, perciban y procesen información visual para responder en consecuencia.

¿Por qué necesitamos CV? 

Con CV podemos capacitar a las computadoras y, en consecuencia, a los robots, drones, fábricas inteligentes, vehículos autónomos, smartphones, entre muchos otros dispositivos inteligentes para llevar a cabo sus funciones de la manera más óptima posible, inclusive superando nuestra propia eficiencia.

Más aún, en la época actual en la que virtualmente cada ser humano lleva una cámara consigo en su teléfono, en la que aplicaciones como Facebook, Instagram o Snapchat permiten compartir en tiempo real fotos y video, contamos con un enorme y rica base de imágenes que debemos aprovechar para llevar la revolución de la inteligencia artificial a nuevos y más impresionantes niveles.

Para tener una idea de la masiva cantidad de imágenes con las que contamos hoy en día, ten en cuenta este dato: A una persona común le tomaría, aproximadamente, 10 años mirar todas las fotos compartidas en Snapchat… Durante la última hora.

Tómate un momento para procesar eso.

Aplicaciones

La lista de aplicaciones de CV es gigantesca. Sin embargo, para concluir te dejo las que considero más interesantes:

Sobre el Autor

Jesús Martínez es el creador de DataSmarts, un lugar para los apasionados por computer vision y machine learning. Cuando no se encuentra bloggeando, jugando con algún algoritmo o trabajando en un proyecto (muy) cool, disfruta escuchar a The Beatles, leer o viajar por carretera.