COMPARTIR:Share on FacebookShare on Google+Tweet about this on TwitterShare on LinkedIn

Dado solo unos pocos cuadros de un video, los humanos generalmente podemos conjeturar lo que está sucediendo y sucederá en la pantalla. Si vemos un primer cuadro de latas apiladas, un cuadro medio con un dedo en la base de la pila, y un cuadro que muestra las latas vueltas, podemos adivinar que el dedo derribó las latas. Las computadoras, sin embargo, luchan con este concepto.

En un documento presentado en la Conferencia Europea de Visión Artificial, los investigadores del MIT describen un módulo complementario que ayuda a los sistemas de inteligencia artificial llamados redes neuronales convolucionales, o CNN, a llenar los vacíos entre los marcos de video para mejorar enormemente el reconocimiento de actividad de la red. .

El módulo de investigadores, llamado Temporal Relation Network (TRN), aprende cómo cambian los objetos en un video en diferentes momentos. Lo hace analizando algunos cuadros clave que representan una actividad en diferentes etapas del video, como objetos apilados que luego son derribados. Usando el mismo proceso, puede reconocer el mismo tipo de actividad en un video nuevo.

En experimentos, el módulo superó a los modelos existentes por un amplio margen en el reconocimiento de cientos de actividades básicas, como empujar objetos para hacerlos caer, lanzar algo en el aire y dar un pulgar hacia arriba. También predijo con mayor precisión qué sucederá a continuación en un video, mostrando, por ejemplo, dos manos haciendo una pequeña rasgadura en una hoja de papel, dado solo un pequeño número de fotogramas iniciales.

“Creamos un sistema de inteligencia artificial para reconocer la transformación de objetos, en lugar de la apariencia de objetos”, dice Bolei Zhou, un ex estudiante de doctorado en el Laboratorio de Ciencias de la Computación e Inteligencia Artificial (CSAIL) que ahora es profesor asistente de informática en la Universidad China de Hong Kong. “El sistema no pasa por todos los marcos: recoge los fotogramas clave y, usando la relación temporal de los fotogramas, reconoce lo que está sucediendo. Eso mejora la eficiencia del sistema y lo hace funcionar en tiempo real con precisión”.

Los coautores del artículo son el investigador principal de CSAIL, Antonio Torralba, quien también es profesor en el Departamento de Ingeniería Eléctrica y Ciencias de la Computación; CSAIL Investigador principal Aude Oliva; y el asistente de investigación de CSAIL, Alex Andonian.

Recogiendo marcos clave

Dos módulos comunes de CNN que se utilizan para el reconocimiento de actividades actuales adolecen de inconvenientes de eficacia y precisión. Un modelo es preciso, pero debe analizar cada cuadro de video antes de hacer una predicción, que es computacionalmente costosa y lenta. El otro tipo, llamado red de dos flujos, es menos preciso pero más eficiente. Utiliza una secuencia para extraer características de un cuadro de video y luego combina los resultados con “flujos ópticos”, una secuencia de información extraída sobre el movimiento de cada píxel. Los flujos ópticos también son costosos de extraer por computación, por lo que el modelo aún no es tan eficiente.

“Queríamos algo que funcionara entre esos dos modelos: conseguir eficiencia y precisión”, dice Zhou.

Los investigadores entrenaron y probaron su módulo en tres conjuntos de datos de videos compuestos de varias actividades realizadas. El primer conjunto de datos, llamado Something-Something, creado por la empresa TwentyBN, tiene más de 200,000 videos en 174 categorías de acción, como hurgar en un objeto para que se caiga o levante un objeto. El segundo conjunto de datos, Jester, contiene casi 150,000 videos con 27 gestos de mano diferentes, como dar un pulgar hacia arriba o deslizar hacia la izquierda. El tercero, Charades, construido por investigadores de la Universidad Carnegie Mellon, tiene casi 10,000 videos de 157 actividades categorizadas, como llevar una bicicleta o jugar al baloncesto.

Cuando se le da un archivo de video, el módulo de los investigadores procesa simultáneamente cuadros ordenados, en grupos de dos, tres y cuatro, espaciados con un intervalo de tiempo. Luego asigna rápidamente una probabilidad de que la transformación del objeto a través de esos marcos coincida con una clase de actividad específica. Por ejemplo, si procesa dos cuadros, donde el cuadro posterior muestra un objeto en la parte inferior de la pantalla y el anterior muestra el objeto en la parte superior, se asignará una alta probabilidad a la clase de actividad, “mover el objeto hacia abajo”. Un tercer cuadro muestra el objeto en el medio de la pantalla, esa probabilidad aumenta aún más, y así sucesivamente. A partir de esto, aprende características de transformación de objetos en marcos que representan la mayor parte de una determinada clase de actividad.

Reconocimiento y pronóstico de actividades

En las pruebas, una CNN equipada con el nuevo módulo reconoció con precisión muchas actividades utilizando dos cuadros, pero la precisión aumentó al muestrear más cuadros. Para Jester, el módulo alcanzó una precisión máxima del 95 por ciento en el reconocimiento de actividades, superando a varios modelos existentes.

Incluso acertó en las clasificaciones ambiguas: Algo-Algo, por ejemplo, incluyó acciones como “pretender abrir un libro” versus “abrir un libro”. Para discernir entre los dos, el módulo acaba de muestrear algunos marcos clave más, que reveló, por ejemplo, una mano cerca de un libro en un cuadro inicial, luego en el libro, luego se alejó del libro en un cuadro posterior.

Algunos otros modelos de reconocimiento de actividad también procesan fotogramas clave, pero no consideran las relaciones temporales en marcos, lo que reduce su precisión. Los investigadores informan que su módulo TRN casi duplica la precisión con respecto a esos modelos clave en ciertas pruebas.

El módulo también superó a los modelos en el pronóstico de una actividad, dado marcos limitados. Después de procesar el primer 25 por ciento de fotogramas, el módulo alcanzó una precisión varios puntos porcentuales más alta que un modelo de línea de base. Con el 50 por ciento de los marcos, logró una precisión de 10 a 40 por ciento más alta. Los ejemplos incluyen determinar que un papel se rasgaría un poco, de acuerdo con cómo se colocan dos manos en el papel en los primeros cuadros, y prediciendo que una mano levantada, que se muestra hacia adelante, se deslizaría hacia abajo.

“Eso es importante para aplicaciones de robótica”, dice Zhou. “Quieres que [un robot] anticipe y pronostique lo que sucederá al principio, cuando realices una acción específica”.

“En este artículo los autores sugieren una técnica simple pero poderosa para modelar dependencias temporales a través de diferentes escalas de tiempo simplemente observando una pequeña cantidad de fotogramas de cada video”, dice Dan Gutfreund, investigador del Laboratorio IBM-MIT para multi inspirado en el cerebro. -Media Machine Comprehension, que ha trabajado con los investigadores anteriormente, pero que no participó en este estudio. “El modelo resultante no solo proporciona precisión de vanguardia en varios conjuntos de datos de referencia de reconocimiento de acción, sino que también es significativamente más eficiente que los modelos sugeridos anteriormente. Esto hace que este modelo sea un excelente candidato para diversas aplicaciones, por ejemplo, en robótica, accesibilidad para personas ciegas al proporcionar información visual en tiempo real, automóviles sin conductor, seguridad y más”.

Luego, los investigadores apuntan a mejorar la sofisticación del módulo. El primer paso es implementar el reconocimiento de objetos junto con el reconocimiento de actividades. Luego, esperan agregar “física intuitiva”, lo que significa ayudarlo a comprender las propiedades físicas de los objetos en el mundo real. “Debido a que conocemos gran parte de la física dentro de estos videos, podemos capacitar a un módulo para que aprenda esas leyes de física y las use para reconocer nuevos videos”, dice Zhou. “También abrimos el código fuente y todos los modelos. El entendimiento de la actividad es un área emocionante de inteligencia artificial en este momento”.

COMPARTIR:Share on FacebookShare on Google+Tweet about this on TwitterShare on LinkedIn

NO COMMENTS

DEJAR UN COMENTARIO