COMPARTIR:Share on FacebookShare on Google+Tweet about this on TwitterShare on LinkedIn

Los investigadores de MIT Media Lab han desarrollado un modelo de aprendizaje automático que lleva las computadoras un paso más cerca de interpretar nuestras emociones de forma tan natural como los humanos.

En el creciente campo de la “informática afectiva”, se están desarrollando robots y computadoras para analizar las expresiones faciales, interpretar nuestras emociones y responder en consecuencia. Las aplicaciones incluyen, por ejemplo, monitorear la salud y el bienestar de una persona, evaluar el interés de los estudiantes en las aulas, ayudar a diagnosticar los signos de ciertas enfermedades y desarrollar compañeros útiles de robots.

Un desafío, sin embargo, es que las personas expresan emociones de manera muy diferente, dependiendo de muchos factores. Las diferencias generales se pueden ver entre culturas, géneros y grupos de edad. Pero otras diferencias son aún más precisas: la hora del día, cuánto durmió o incluso su nivel de familiaridad con un compañero de conversación conduce a variaciones sutiles en la manera en que expresa, por ejemplo, la felicidad o la tristeza en un momento dado.

Los cerebros humanos captan instintivamente estas desviaciones, pero las máquinas luchan. Las técnicas de aprendizaje profundo se desarrollaron en los últimos años para ayudar a detectar las sutilezas, pero aún no son tan precisas ni adaptables a las diferentes poblaciones como podrían ser.

Los investigadores de Media Lab han desarrollado un modelo de aprendizaje automático que supera a los sistemas tradicionales en la captura de estas pequeñas variaciones en la expresión facial, para medir mejor el estado de ánimo mientras entrena en miles de imágenes de rostros. Además, al utilizar un poco más de datos de entrenamiento, el modelo se puede adaptar a un grupo de personas completamente nuevo, con la misma eficacia. El objetivo es mejorar las tecnologías de computación afectiva existentes.

“Esta es una manera discreta de monitorear nuestros estados de ánimo”, dice Oggi Rudovic, un investigador de Media Lab y coautor de un artículo que describe el modelo, que se presentó la semana pasada en la Conferencia sobre Aprendizaje Automático y Minería de Datos. “Si quieres robots con inteligencia social, tienes que hacerlos de forma inteligente y natural para responder a nuestros estados de ánimo y emociones, más como a los humanos”.

Los coautores del artículo son: el primer autor Michael Feffer, estudiante de pregrado en ingeniería eléctrica y ciencias de la computación; y Rosalind Picard, profesora de artes y ciencias de los medios y directora fundadora del grupo de investigación Affective Computing.

Expertos personalizados

Los modelos tradicionales de computación afectiva usan un concepto de “talla única para todos”. Se entrenan en un conjunto de imágenes que representan diversas expresiones faciales, optimizan las características, como se riza un labio al sonreír, y mapean esas optimizaciones generales de funciones en un conjunto completo de imágenes nuevas.

Los investigadores, en cambio, combinaron una técnica, llamada “mezcla de expertos” (MoE), con técnicas de personalización del modelo, que ayudaron a extraer más expresiones faciales de grano fino.

En los ME, una serie de modelos de redes neuronales, llamados “expertos”, están capacitados para especializarse en una tarea de procesamiento separada y producir una salida. Los investigadores también incorporaron una “red de puertas”, que calcula las probabilidades de que los expertos puedan detectar mejor los estados de ánimo de los sujetos invisibles. “Básicamente, la red puede discernir entre individuos y decir: ‘Este es el experto adecuado para la imagen dada'”, dice Feffer.

Para su modelo, los investigadores personalizaron los ME alineando a cada experto con una de las 18 grabaciones de video individuales en la base de datos RECOLA, una base de datos pública de personas que conversan en una plataforma de video chat diseñada para aplicaciones de informática afectiva. Entrenaron el modelo usando nueve sujetos y los evaluaron en los otros nueve, con todos los videos divididos en cuadros individuales.

Cada experto y la red de puertas registraron las expresiones faciales de cada individuo, con la ayuda de una red residual (“ResNet”), una red neuronal utilizada para la clasificación de objetos. Al hacerlo, el modelo calificó cada cuadro en función del nivel de valencia (agradable o desagradable) y del estímulo(mucho o poco): métricas comúnmente utilizadas para codificar diferentes estados emocionales. Separadamente, seis expertos humanos etiquetaron cada cuadro para valencia y excitación, basado en una escala de -1 (niveles bajos) a 1 (niveles altos), que el modelo también usó para entrenar.

Posteriormente, los investigadores realizaron más personalizaciones del modelo, donde alimentaron los datos del modelo entrenado con algunos cuadros de los videos de los restantes sujetos. Los resultados mostraron que, con solo 5 a 10 por ciento de los datos de la nueva población, el modelo superó a los modelos tradicionales por un amplio margen, lo que significa que obtuvo valencia y estimulación con imágenes mucho más cercanas a las interpretaciones de los expertos humanos.

Esto muestra el potencial de los modelos para adaptarse de población a población, o de individuo a individuo, con muy pocos datos, dice Rudovic. “Esa es la clave”, dice. “Cuando tienes una población nueva, tienes que tener una forma de dar cuenta del cambio de la distribución de datos [variaciones faciales sutiles]. Imagine un modelo establecido para analizar expresiones faciales de una cultura dada que necesita ser adaptado a una cultura diferente. Sin tener en cuenta este cambio de datos, esos modelos tendrán un rendimiento inferior. Pero si solo le muestras un poco de la nueva cultura, estos modelos podrán hacerlo mucho mejor, especialmente a nivel individual. Aquí es donde se puede ver mejor la importancia de la personalización del modelo”.

Los datos actualmente disponibles para dicha investigación de computación afectiva no son muy diversos en cuanto a los colores de la piel, por lo que los datos de capacitación de los investigadores fueron limitados. Pero cuando tales datos estén disponibles, el modelo puede ser entrenado para su uso en poblaciones más diversas. El próximo paso, dice Feffer, es entrenar al modelo en “un conjunto de datos mucho más grande con culturas más diversas”.

Mejores interacciones entre la máquina y el ser humano

Otro objetivo es capacitar al modelo para que las computadoras y los robots aprendan automáticamente a partir de pequeñas cantidades de datos cambiantes para detectar de forma más natural cómo nos sentimos y atender mejor las necesidades humanas, afirman los investigadores.

Podría, por ejemplo, ejecutarse en el fondo de una computadora o dispositivo móvil para rastrear las conversaciones de video de un usuario y aprender cambios sutiles en la expresión facial en diferentes contextos. “Puede hacer que cosas como aplicaciones de teléfonos inteligentes o sitios web sean capaces de decir cómo se siente la gente y recomendar maneras de lidiar con el estrés o el dolor, y otras cosas que están impactando negativamente en sus vidas”, dice Feffer.

Esto también podría ser útil para controlar, por ejemplo, la depresión o la demencia, ya que las expresiones faciales de las personas tienden a cambiar sutilmente debido a esas condiciones. “Al ser capaces de monitorear pasivamente nuestras expresiones faciales”, dice Rudovic, “con el tiempo podríamos personalizar estos modelos para los usuarios y controlar la cantidad de desviaciones que tienen a diario, desviándonos del nivel promedio de expresividad facial, y usarlo”. para indicadores de bienestar y salud “.

Una aplicación prometedora, dice Rudovic, son las interacciones humano-robóticas, como la robótica personal o los robots utilizados con fines educativos, donde los robots deben adaptarse para evaluar los estados emocionales de muchas personas diferentes. Una versión, por ejemplo, se ha utilizado para ayudar a los robots a interpretar mejor los estados de ánimo de los niños con autismo.

Roddy Cowie, profesor emérito de psicología de la Queen’s University de Belfast y experto en informática afectiva, dice que el trabajo del MIT “ilustra dónde estamos realmente” en el campo. “Estamos avanzando hacia sistemas que pueden ubicarse aproximadamente, a partir de imágenes de rostros de personas, donde se encuentran en escalas de muy positivas a muy negativas, y muy activas a muy pasivas”, dice. “Parece intuitivo que los signos emocionales que una persona da no son lo mismo que los signos que da otra persona, por lo que tiene mucho sentido que el reconocimiento de emociones funcione mejor cuando se personaliza. El método de personalización refleja otro punto intrigante, que es más eficaz entrenar a múltiples “expertos” y agregar sus juicios, que entrenar a un solo súper-experto. Los dos juntos hacen un paquete satisfactorio “.

Fuente: MIT

COMPARTIR:Share on FacebookShare on Google+Tweet about this on TwitterShare on LinkedIn

NO COMMENTS

DEJAR UN COMENTARIO