Del data-driven al data-feeling: análisis de sentimiento en tiempo real de mensajes en español sobre divulgación científica usando técnicas de aprendizaje automático - Núm. 13-1, Enero 2020 - Anuario electrónico de estudios en Comunicación Social "Disertaciones" - Libros y Revistas - VLEX 840080626

Del data-driven al data-feeling: análisis de sentimiento en tiempo real de mensajes en español sobre divulgación científica usando técnicas de aprendizaje automático

AutorPatricia Sánchez-Holgado, Manuel Martín-Merino Acera, David Blanco Herrero
CargoDoctoranda en Formación en la Sociedad del Conocimiento/Catedrático de Inteligencia Artificial/Doctorando en Formación en la Sociedad del Conocimiento
Páginas35-58
35
Tecnologías y métodos computacionales para la investigación en ciencias sociales y comunicación
issn: 1856-9536
Doi: http://dx.doi.org/10.12804/revistas.urosario.edu.co/disertaciones/a.7691
Volumen 13, Número 1 / Enero-junio 2020
Versión pdf para imprimir desde
http://revistas.urosario.edu.co/index.php/disertaciones
ESTUDIOS
DISERTACIONES
Para citar este artículo: Sánchez-Holgado, P., Martín Merino, M., & Blanco Herrero, D. (2020). Del data-driven
al data-feeling: análisis de sentimiento en tiempo real de mensajes en español sobre divulgación cientíca
usando técnicas de aprendizaje automático. Anuario Electrónico de Estudios en Comunicación Social “Diserta-
ciones”, 13(1), 35-58. Doi: http://dx.doi.org/10.12804/revistas.urosario.edu.co/disertaciones/a.7691
DEL DATA-DRIVEN AL DATA-FEELING:
ANÁLISIS DE SENTIMIENTO EN TIEMPO
REAL DE MENSAJES EN ESPAÑOL SOBRE
DIVULGACIÓN CIENTÍFICA USANDO
TÉCNICAS DE APRENDIZAJE AUTOMÁTICO
From Data-Driven to Data-Feeling: Sentiment Analysis in Real-Time of Messages
in Spanish about Scientic Communication Using Machine Learning Techniques
Do data-driven ao data-feeling: análise de sentimento no tempo real de
mensagens em espanhol sobre divulgação cientíca usando técnicas de
aprendizagem automática
Patricia Sánchez Holgado, Universidad de Salamanca (España)
patriciasanc@usal.es
Manuel Martín Merino, Universidad Ponticia de Salamanca (España)
mmartinmac@upsa.es
David Blanco Herrero, Universidad de Salamanca (España)
david.blanco.herrero@usal.es
Recibido: 17 de febrero de 2019
Aprobado: 10 de octubre de 2019
36
Tecnologías y métodos computacionales para la investigación en ciencias sociales y comunicación
issn: 1856-9536
Doi: http://dx.doi.org/10.12804/revistas.urosario.edu.co/disertaciones/a.7691
Volumen 13, Número 1 / Enero-junio 2020
Versión pdf para imprimir desde
http://revistas.urosario.edu.co/index.php/disertaciones
ESTUDIOS
DISERTACIONES
RESUMEN
Los cambios producidos en los últimos años en cuanto a modelos de comunicación social han llevado a todos
los sectores a adaptarse a los nuevos medios para alcanzar a su público. La comunicación de la ciencia no es una
excepción. La manera en que se distribuyen contenidos sobre ciencia está cambiando debido a la presencia cre-
ciente de tecnologías, y la red social Twitter se ha convertido en un importante aliado debido a su gran volumen
de usuarios. En el presente trabajo, se utilizan técnicas de aprendizaje automático para desarrollar un clasica-
dor —que funciona en tiempo real— de sentimiento relacionados con mensajes publicados en Twitter. Para ello,
se descargaron 200 000 tweets destinados a construir un corpus de entrenamiento limpio y procesado de 10 000
textos etiquetados, la mitad positivos y la mitad negativos, sobre ciencia en español. El corpus permite entrenar
el modelo de aprendizaje automático y construir un prototipo OpScience, capaz de determinar el sentimiento
de mensajes publicados en Twitter en tiempo real. Los resultados relacionados con la exactitud del clasicador
corresponden al 72 %. Estos resultados pueden ayudar a darle mayor valor a temas de la comunicación cientíca
en un espacio de debate social y predecir intereses o tendencias futuras, como se pudo comprobar en una prueba
en enero de 2019.
Palabras clave: análisis de sentimiento, aprendizaje automático supervisado, Twitter,
comunicación cientíca.
ABSTRACT
The changes produced in recent years in social communication models have meant that all sectors have had to adapt
to new media to reach their audiences. The communication of science is no exception. The distribution of contents
about science is adapting to an increasing presence of technologies, and the social network Twitter has become a
necessary ally due to its large volume of users. In this paper, machine learning techniques are used to develop
a sentiment classier of messages posted in real-time on Twitter. To this end, 200 000 tweets were downloaded to
build a training corpus of 10 000 clean and processed labeled texts, half positive and half negative, about science in
Spanish. This corpus allows the training of the machine learning model and builds a prototype, OpScience, able to
determine the sentiment of messages posted on Twitter in real-time. The accuracy results obtained by the classier is
around 72 %. This can help to assess issues of scientic communication in a space of social debate and predict future
interests or trends, as observed during the test in January 2019.
Keywords: Sentiment analysis, Twitter, supervised machine learning, scientific
communication.

Para continuar leyendo

Solicita tu prueba

VLEX utiliza cookies de inicio de sesión para aportarte una mejor experiencia de navegación. Si haces click en 'Aceptar' o continúas navegando por esta web consideramos que aceptas nuestra política de cookies. ACEPTAR