Desarrollan técnica para mejorar la visión por computadora

 

Con el objetivo de dar a las computadoras la capacidad de leer y comprender información textual en cualquier tipo de imagen en el mundo real, investigadores de la Universidad Autónoma de Barcelona y la Universidad Carnegie Mellon, han desarrollado una técnica que podría permitir que los algoritmos de aprendizaje profundo aprendan las características visuales de las imágenes de forma auto-supervisada, sin la necesidad de anotaciones por parte de los investigadores humanos.

Para lograr resultados notables en tareas de visión por computadora, los algoritmos de aprendizaje profundo deben ser entrenados en conjuntos de datos anotados a gran escala que incluyen información extensa sobre cada imagen. Sin embargo, recopilar y anotar manualmente estas imágenes requiere grandes cantidades de tiempo, recursos y esfuerzo humano.

Los humanos usan información textual para interpretar todas las situaciones que se les presentan, así como para describir lo que sucede a su alrededor o en una imagen particular. Los investigadores ahora intentan ofrecer capacidades similares a las máquinas, ya que esto reduciría enormemente la cantidad de recursos que se gastan en anotar conjuntos de datos de gran tamaño.

Los investigadores diseñaron modelos computacionales que unen información textual sobre imágenes con la información visual contenida en ellas, utilizando datos de Wikipedia u otras plataformas en línea. Luego usaron estos modelos para entrenar algoritmos de aprendizaje profundo sobre cómo seleccionar buenas características visuales que describan semánticamente las imágenes.

Como en otros modelos basados en redes neuronales convolucionales (CNN), las características se aprenden de extremo a extremo, con diferentes capas que automáticamente aprenden a enfocarse en cosas diferentes, desde detalles de nivel de píxel en las primeras capas, hasta características más abstractas en las últimas . Este modelo desarrollado, sin embargo, no requiere anotaciones específicas para cada imagen. En cambio, el contexto textual donde se encuentra la imagen (por ejemplo, un artículo de Wikipedia) actúa como la señal de supervisión.

En otras palabras, la nueva técnica creada por este equipo de investigadores proporciona una alternativa a los algoritmos totalmente no supervisados, que utiliza elementos no visuales en correlación con las imágenes, actuando como una fuente de entrenamiento auto-supervisado.

La metodología desarrollada por los investigadores permite el uso de texto como señal de supervisión para aprender características útiles de la imagen. Esto podría abrir nuevas posibilidades para el aprendizaje profundo, permitiendo que los algoritmos aprendan características de imágenes de buena calidad sin la necesidad de anotaciones, simplemente mediante el análisis de fuentes textuales y visuales que están disponibles en línea.

En futuros estudios tratarán de identificar las mejores formas de utilizar la información textual integrada en la imagen para describir y responder automáticamente preguntas sobre el contenido de la imagen.