Modelo Naive Bayes Multinomial para la clasificación de comentarios spam en español de videos sobre finanzas de la plataforma YouTube
Abstract
La sección de comentarios de YouTube es una de las funcionalidades más importantes para los creadores de contenido, pero en la actualidad está siendo utilizada por cibercriminales como un medio para estafar a las personas mediante la ejecución de campañas spam sobre recomendaciones de supuestos expertos en inversión, esto ocurre con mayor frecuencia en videos con una temática de finanzas, en donde se pueden encontrar a usuarios más interesados en el tema de las inversiones. Esta situación tiene un efecto directo sobre los creadores de contenido ya que perjudica la experiencia de su público dentro de la sección de comentarios y además posibilita a que estos sean estafados. Es por ello que el presente trabajo tuvo como objetivo determinar en qué medida un modelo Naive Bayes Multinomial clasifica correctamente los comentarios spam en español en videos sobre finanzas de YouTube. El enfoque de la investigación es cuantitativo, de tipo experimental y con un diseño preexperimental, la muestra se encuentra conformada por más de 25,000 comentarios pertenecientes a 30 videos sobre finanzas de YouTube. La metodología empleada es la de Cross Industry Standard Process for Data Mining (CRISP-DM) que, a través de su aplicación, permitió la elaboración del conjunto de datos, la generación y evaluación del modelo de clasificación de comentarios spam Naive Bayes Multinomial. Como principales resultados se determinó que el modelo Naive Bayes Multinomial generado logra clasificar de forma correcta una cantidad correspondiente al 98% de comentarios spam en español de videos sobre finanzas de la plataforma YouTube, lo cual indica que el modelo presenta un rendimiento adecuado en la identificación de comentarios spam, esto en función de la métrica de evaluación Recall.