La visión por ordenador se encuentra muy avanzada. Existen modelos capaces de identificar objetos mejor que un ser humano, de garantizar la conducción autónoma de forma segura o incluso el diagnóstico de ciertos tipos de patologías. Sin embargo, la visión artificial todavía necesita graduarse la vista algo más.

Las imágenes que encabezan este artículo son la prueba. Las seis forman parte de un conjunto de datos compilado por científicos del MIT y llamado ObjectNet cuyo objetivo es comprobar cuáles son los límites de la visión computacional.

Y, como anuncia el título, los han encontrado con instantáneas como estas que vemos. Escenas fáciles de descifrar para un ser humano, pero no tan fáciles de entender por una máquina en la actualidad. Todavía les llevamos ventaja.

Fotografías difíciles para visiones artificiales más preparadas

Objectnet Controls Table

La idea que los científicos persiguen con ObjectNet es mostrar objetos en escenas que puedan resultar complejas de entender hoy por hoy para una visión por ordenador. Inclinados, en planos cenitales, volcados, introducidos en otro objeto, volcados, ocultos… Se trata de fotos que, a diferencia de las de otro conjunto de datos visuales como es ImageNet, no están recopiladas de Flicker y otras plataformas. Las toman fotógrafos expertos y tienen la intención de mejorar las visiones artificiales.

Como explican desde el MIT, cuando los principales modelos de detección de objetos se probaron en ObjectNet, sus tasas de precisión cayeron de un máximo del 97 % en ImageNet a solo un 50-55 %.

“Creamos este conjunto de datos para decirle a la gente que el problema del reconocimiento de objetos sigue siendo un problema difícil”

“Creamos este conjunto de datos para decirle a la gente que el problema del reconocimiento de objetos sigue siendo un problema difícil”, asegura Boris Katz, científico investigador del Laboratorio de Ciencias de la Computación e Inteligencia Artificial (CSAIL) y del Centro de Cerebros, Mentes y Máquinas (CBMM) del MIT, al medio de comunicación del instituto.
**
Y es que mejores datos —más variados, más diversos, más complejos, más reales— construyen mejores algoritmos**. En el caso de la visión computacional la calidad de los datos tiene, si cabe, una mayor importancia dado que estos modelos no llegan a ser capaces de imaginar cómo los objetos que ya reconocen podrían ser llevados a situaciones y colocaciones complejas como las que ObjectNet. Y ahí radica lo destacable de este repositorio de imágenes y la necesidad de entrar más y mejor una tecnología de la que en un futuro más o menos cercano dependeremos de diversas maneras.



Ver en Genbeta

0