Proyecto de investigación
Ingeniería de los Datos como Soporte a los Grafos de Conocimiento
Responsable: Inmaculada Concepción Hernández Salmerón / David Ruiz Cortés
Tipo de Proyecto/Ayuda: Plan Estatal 2017-2020 Retos - Proyectos I+D+i
Referencia: PID2019-105471RB-I00
Fecha de Inicio: 01-06-2020
Fecha de Finalización: 31-05-2023
Empresa/Organismo financiador/es:
- Ministerio de Ciencia, Innovación y Universidades
Equipo:
- Equipo de Investigación:
- Equipo de Trabajo:
- Daniel Ayala Hernández
- Agustín Borrego Díaz
- Michael Cochez
- Carlos Ortiz Prieto
- Erhard Rahm
- Carlos Rivero Osuna
- Juan Carlos Roldán Salvador
Contratados:
- Investigadores:
- Fernando Luis Sola Espinosa
- Técnicos/Personal Administrativo:
- Fernando Luis Sola Espinosa
Resumen del proyecto:
Vivimos en un mundo caracterizado por la disponibilidad de grandes cantidades de datos que suponen un potencial beneficio para la sociedad, aunque tienen una gran cantidad de ruido y poca o ninguna estructura. Los científicos de datos necesitan disponer de esos datos estructurados, almacenados e interrelacionados de forma óptima para poder sacarles máximo partido, en forma de predicciones, tendencias o explicaciones. Los Grafos de Conocimiento son la solución para almacenar esos datos de forma flexible y eficiente, y están siendo empleados tanto por investigadores como por las grandes compañías (Google, Facebook, Microsoft, Amazon o Netflix). Desafortunadamente, crear y mantener estos grafos no es una tarea trivial, tanto si se es mediante técnicas de extracción información o procesado de lenguaje natural, como a mano. Además, frecuentemente se da un cierto solapamiento entre los datos que hay en grafos diferentes, pero el aislamiento entre grafos evita que se pueda sacar un beneficio añadido de su integración. El resultado son grafos incompletos, con ruido y aislados, y el consiguiente detrimento en el rendimiento de las aplicaciones científicas que se basan en dichos grafos.
En este proyecto abordamos la aplicación de la ingeniería de los datos a la creación, integración y refinamiento de grafos de conocimiento con información completa, interrelacionada y fiable, adecuada para la ciencia de los datos, así como la optimización de nuestras técnicas mediante benchmarking.