Proyecto de investigación


Herramientas para la Ciencia de los Datos de la Web

Responsable: David Ruiz Cortés / Rafael Corchuelo Gil
Tipo de Proyecto/Ayuda: Plan Estatal 2013-2016 Retos - Proyectos I+D+i
Referencia: TIN2016-75394-R
Fecha de Inicio: 30-12-2016
Fecha de Finalización: 29-12-2020

Empresa/Organismo financiador/es:

  • Ministerio de Economía y Competitividad

Equipo:

Contratados:

  • Investigadores:
    • Carlos Ortiz Prieto
  • Técnicos/Personal Administrativo:
    • Andrea Jesús Cimmino Arriaga
    • Sergio Clemente Baltasar
    • Carlos Ortiz Prieto
    • Juan Carlos Roldán Salvador

Resumen del proyecto:

En nuestros últimos proyectos nos hemos centrado en la integración de aplicaciones e información empresarial dando soporte a procesos de negocio a partir de fuentes de datos en la intranet de una empresa y algunos pocos sitios web muy controlados.

Nuestros resultados se han materializado en diez tesis doctorales, veinticinco artículos en revistas (once Q1, nueve Q2, tres Q3 y dos Q4), veinticuatro artículos en congresos (dos CORE A*, trece CORE, A, siete CORE B y dos CORE C), dos spin-offs (i2Factory, S.L. y Dinamic Area, S.L.), 11 proyectos y complementos públicos de I+D con un presupuesto de 445.607,50, 15 proyectos industriales de I+D con un presupuesto de 957.011,03 y, además, hemos colaborado con la University of Southern California (USC, USA), el Rochester Institute of Technology (RIT, USA), el Commissariat a lÉnergie Atomique et aux Énergies Alternatives (CEA, Francia) y la Universidade de Ijuí (UNIJUI, Brasil). En este proyecto queremos dar el salto hacia la Ciencia de los Datos de la Web dado que todo apunta a que va a ser una de las áreas de investigación más candentes a corto plazo. En concreto, trabajaremos en los siguientes temas:

a) Extracción de información: realizaremos una propuesta para agrupar documentos web y otra para extraer información de los mismos.

b) Integración de información: realizaremos una propuesta para semantizar información y otra para detectar información duplicada.

c) Análisis de opinión: realizaremos una propuesta de análisis de opinión avanzada y desarrollaremos dos alternativas para el análisis de texto en lenguaje natural.

d) Validación: realizaremos varias propuestas para validar nuestros resultados en el contexto de grandes volúmenes de datos.

El gran reto será que nuestras propuestas requieran ninguna o poquísima intervención humana para que puedan escalar a las dimensiones de la Ciencia de los Datos de la Web. También abordaremos dos temas miscelánea: la selección de plataformas para el despliegue de soluciones de integración y el testing de las mismas.

Se trata de un proyecto ambicioso e interdisciplinar encuadrado dentro de la Estrategia Española de Ciencia, Tecnología e Innovación, del programa H2020 y de las prioridades de investigación de los grupos con los que colaboramos internacionalmente. Estamos preparados para acometerlo y nuestro aval son las publicaciones, spin-offs, proyectos industriales y colaboraciones internacionales que hemos llevado a cabo previamente.

Los IPs suman mucha experiencia en investigación; el resto del equipo consta de un investigador sénior, algunos doctores jóvenes, personal pre-doctoral y colaboradores de los grupos extranjeros con los que trabajamos. También contamos con el apoyo de nuestras spin-off y uno de sus clientes. Como en proyectos anteriores, creemos que la clave para conseguir el éxito es combinar adecuadamente la experiencia de los IPs con jóvenes doctores que adquieren sus primeras responsabilidades y jóvenes pre- doctorales que se formarán en el seno de un grupo con vocación internacional, sin perder nunca de vista nuestro contexto industrial y apoyándonos en nuestros resultados previos.

Vicerrectorado de Investigación. Universidad de Sevilla. Pabellón de Brasil. Paseo de las Delicias s/n. Sevilla