'La clave del éxito de la IA depende en gran medida de la calidad de los datos'

Entrevista de Juan Carlos Trujillo (Catedrático de Universidad y Presidente de Lucentia Lab) a Mario Piattini Velthuis (Premio Nacional de Informática, Catedrático de Universidad, Director del Grupo Alarcos de la UCLM y emprendedor de varias Empresas de Base Tecnológica).

Juan Carlos Trujillo con Mario Piattini, Premio Nacional de Informática y ambos fundadores de Lucentia Lab

Ahora que el aprendizaje automático (machine learning) está siendo tan utilizado en diversos campos con excelentes resultados, ¿Qué aspecto destacarías como más relevante?

Creo que asegurar la calidad de los datos es un aspecto muy relevante, no hay que olvidar el “axioma” de la informática: garbage in, garbage out. Efectivamente, aunque se tengan los datos adecuados (no sesgados, representativos, etc.) si los datos no tienen la calidad adecuada, no se pueden entrenar adecuadamente a los modelos predictivos. Así que las herramientas de aprendizaje automático, incluso las más potentes, resultan poco útiles con datos de insuficiente calidad. Es una pena comprobar las grandes cantidades de recursos que se desperdician debido a la mala calidad de datos.

¿Cómo se puede abordar este problema?

De varias maneras, por un lado, evaluando la calidad de los datos en sus diversas características: corrección, completitud, actualidad, consistencia, etc. Nosotros solemos utilizar para esto los estándares de la familia ISO/IEC 25000.

Por otro, es necesario abordar la calidad de los procesos de gestión de datos, y evaluar su madurez. Así, habrá que analizar cómo se lleva a cabo el proceso de gestión de requisitos, de diseño y arquitectura de datos, de archivado, etc. Para ello utilizamos MAMD (Modelo Alarcos para la Mejora de Datos), que se basa en las normas ISO 8000, y que nos permite atacar de manera proactiva las causas de los errores y mejorar la eficiencia de los diferentes procesos de manera paulatina.

Lo ideal sería combinar todo lo anterior con un buen gobierno de datos, que les permita a los responsables (y especialmente a los CDO, Chief Data Officers), asegurar la calidad de los datos mediante las estrategias oportunas, gestionar los riesgos y monetizar los datos.

¿Y respecto a la calidad de datos en la IoT (Internet de las Cosas) que nos puedes decir?

Con la gran cantidad de datos que está generando el IoT, tanto el tema del almacenamiento y gestión de los datos (Big Data, Data Lakes, …) como el de su calidad, se complican aún más. Por ejemplo, en un proyecto Eureka (DQIoT, Development of the framework of data quality management for vitalization of IoT products – a case of gas turbines) financiado por el CDTI, que llevamos a cabo con Lucentia Lab, AQClab y empresas coreanas, hemos profundizado en los problemas específicos de calidad de datos que presentan los sensores, y definido procesos particulares de gestión y calidad de datos que se tienen abordar en este tipo de aplicaciones.

Parece que ahora sólo se habla de Inteligencia Artificial, cuando hace unos años se hablaba de Big Data ¿Es que el Big Data ha pasado de moda o ya no es de rigurosa actualidad?

De ninguna manera, de hecho, el procesamiento de Big Data ha contribuido a extender el uso de la Inteligencia Artificial y del Aprendizaje Automático ya que, la gran cantidad de datos disponibles y procesables hace que estos modelos sean entrenados con más datos y, como hemos comentado, de mayor calidad. Casi podríamos decir que el Big Data es el paso previo y necesario para que la IA y el Aprendizaje Automático proporcionen los resultados deseables. De hecho, en la mayoría de los países de nuestro entorno se están desarrollando políticas y estrategias en torno a la economía del dato contemplando el Big Data y la Inteligencia Artificial de forma conjunta. Podríamos decir que no se puede concebir el uno sin el otro en la actualidad o, dicho de otra forma, los resultados y el impacto de la IA serán más sobresalientes si se diseñan y conciben de forma conjunta junto con el procesamiento y análisis de Big Data. Eso sí, asegurando la calidad de los datos en todo el proceso.

¿Qué aspecto destacarías en el futuro del aprendizaje automático?

Creo que el futuro del aprendizaje automático pasará, en menos tiempo del que algunos piensan, por la informática cuántica. La informática cuántica nos abre enormes posibilidades en dominios tan diferentes como química, medicina, salud, logística, energía, agricultura, etc. Desde hace tres años se están proponiendo implementaciones de técnicas de aprendizaje automático basadas en información cuántica o cómo producir patrones que los sistemas “clásicos” no pueden conseguir de manera eficiente. Creo que este campo nos plantea muchos retos interesantes y terminará ofreciéndonos soluciones muy potentes.

Sobre Mario Piattini

Mario Piattini, Catedrático de Lenguajes y Sistemas Informáticos en la UCLM es uno de los especialistas españoles de mayor prestigio, Premio Nacional de Informática 2016 -junto Nuria Oliver y Miguel Toro– y acreedor de otros muchos numerosos reconocimientos nacionales e internacionales.

En el año 2018 según el estudio realizado por la plataforma ScienceDirect, Mario Piattini esta entre los 20 mejores investigadores del mundo más activos en Ingeniería del Software.

Ha trabajado como consultor en el Ministerio de Industria y Energía y en el Ministerio de Administraciones Públicas. También ha sido profesor en la Universidades Carlos III y Complutense de Madrid y es cofundador de Lucentia Lab

Sobre Juan Carlos Trujillo

Juan C. Trujillo es Catedrático de Universidad del Dpto. de Lenguajes y Sistemas Informáticos (DLSI) de la Universidad de Alicante. Mejor investigador TIC de la provincia de Alicante según el ranking 2019 del CSIC– el mayor organismo de investigación de España y uno de los mayores de Europa- y galardonado con el premio ER Fellow

Ha liderado la línea de investigación de Inteligencia de Negocio en el DLSI y, en 2008 creo el Grupo de Investigación Lucentia, que lidera desde entonces. Sus principales temas de investigación incluyen aplicaciones de Business Intelligence (BI), Indicadores Clave de Rendimiento (KPIs), Planes estratégicos, Big Data, Almacenes de Datos (DW), OLAP, minería de datos, y Seguridad y Calidad en los Almacenes de Datos.

Está aplicando su experiencia de más de 18 años en el campo de las aplicaciones de BI, para abordar el problema del Big Data desde un punto de vista sistemático y metodológico.

‘La clave del éxito de la IA depende en gran medida de la calidad de los datos’

Sobre Mario Piattini

Sobre Juan Carlos Trujillo