Proyecto de investigación
Identificación de opiniones fraudulentas en portales de opinión mediante técnicas de Machine y Deep Learning
Responsable: María del Rocío Martínez Torres
Tipo de Proyecto/Ayuda: Proyectos I+D+i FEDER Andalucía 2014-2020
Referencia: US-1255461
Fecha de Inicio: 01-02-2020
Fecha de Finalización: 31-03-2022
Empresa/Organismo financiador/es:
- Junta de Andalucía (Consejería de Economía y Conocimiento)
Equipo:
- Equipo de Investigación:
- Francisco José Arenas Márquez (baja: 08/10/2021)
- Carmen Díaz Fernández
- María Rosario González Rodríguez
- Equipo Colaborador:
- María Olmedilla Fernández
- Hissam Tawfik
Contratados:
- Técnicos/Personal Administrativo:
- Antonio Manuel Moreno Moreno
- Amparo Pérez Castro
Resumen del proyecto:
Los comentarios y revisiones online representan hoy uno de los factores que más influencia ejercen sobre las decisiones de compra de los consumidores, pero también son una valiosa fuente de información para proveedores de productos y servicios, quienes pueden capturar y procesar esa información para detectar las preferencias de los usuarios. Muchos portales de ecommerce como Amazon, Yelp o Google Play usan las opiniones de los consumidores y sus valoraciones, que se encuentran públicamente disponibles, sin restricciones de espacio o de tiempo. Estas opiniones online constituyen la versión electrónica del tradicional boca a oreja (eWOM, electronic word-of-mouth). La explicación del éxito de las opiniones compartidas online se debe a que los usuarios tienden a preferir más la información y experiencias compartidas por otros usuarios que la información proporcionada por los fabricantes o proveedores de servicios. No obstante, y juntamente con el auge de las opiniones online, también han emergido perfiles falsos y opiniones maliciosas cuyo único objetivo es, o bien promocionar de forma sesgada determinados productos y servicios, o bien desacreditarlos de forma injustificada y extender rumores. Por ejemplo, Yelp admite que hasta un 25% de las opiniones en su website son al menos sospechosas y existen estudios que elevan esta cifra hasta el 30%. Así pues, la detección de perfiles y opiniones falsas es un reto relevante que puede formularse en términos de un problema de machine/deep learning con métodos propios de Big Data, ya que son millones las opiniones disponibles. Los métodos propuestos hasta la fecha se basan esencialmente en la extracción de características significativas del lenguaje, usando procesamiento del lenguaje natural, o en la historia previa de los autores de las opiniones y sus patrones de comportamiento en las redes sociales. El principal inconveniente de los métodos propuestos es que, a medida que las técnicas de detección avanzan, también se vuelven más complejos los patrones seguidos por los perfiles falsos para evitar ser detectados, incluso a veces a mayor ritmo que los propios métodos de detección. Esta variación en el tiempo de los patrones de comportamiento subyacentes de las variables de entrada es lo que se conoce como problemas de aprendizaje con concept drift. El principal inconveniente de los problemas concept drift es que los algoritmos aprendidos durante un intervalo de tiempo con un nivel aceptable de precisión pueden dejar de ser válidos en otros intervalos posteriores debido a la variación dinámica de los patrones de comportamiento de los usuarios, como ocurre con los perfiles falsos. Esta propuesta avanza en los métodos de detección de perfiles y opiniones falsas siguiendo el esquema:
• Entender los antecedentes que guían el comportamiento de los perfiles falsos
• Analizar los patrones sospechosos desde una perspectiva multa-faceta, integrando datos relativos a diferentes aspectos de su comportamiento
• Desarrollar técnicas de procesamiento en streaming y de hiper-parametrización de los algoritmos de aprendizaje para hacer frente al concept drift
La perspectiva multi-faceta se refiere a integrar métricas relativas a los contenidos compartidos por los usuarios (text mining), a la información que almacenan los portales sobre la historia previa de los usuarios (estadísticas de comportamientos pasados) y los patrones de interacción con otros usuarios dentro de la red social. Se utilizarán técnicas de predicción consistentes en clasificadores, ensambles de clasificadores y redes neuronales (MLP, Multi-Layer Perceptrons). Para resolver el problema de concept drift se propone hiper-parametrizar estos algoritmos, es decir, modificar los parámetros externos que gobiernan el funcionamiento de clasificadores (por ejemplo, k o el kernel utilizado en el caso de clasificadores k-NN), ensamble de clasificadores (número de clasificadores a ensamblar, técnicas de ensamble) o redes neuronales (número de capas, unidades por capa, learning rate, etc.) La principal contribución de la propuesta es un mecanismo novedoso de aprendizaje y detección 3 de perfiles y opiniones fraudulentas con concept drift, que puede operar online, y basada en en una perspectiva multi-faceta. Como resultado de impacto se obtiene un mecanismo mucho más difícil de burlar por usuarios maliciosos, dado su carácter adaptativo con el tiempo. La principal implicación de la propuesta es una mejora de la confianza y credibilidad en los entornos online públicos, como los portales de e-commerce que incluyen opiniones de usuarios.