Análisis de Sentimiento: ¿Qué lo hace tan complejo?
A medida que el crecimiento de los macrodatos se convierte en uno de los principales retos económicos y tecnológicos actuales, muchas herramientas de análisis se están posicionando para proporcionar a las empresas un conocimiento más profundo de sus clientes.
Entre ellas, se han desarrollado herramientas de procesamiento automático del lenguaje para identificar textualmente los sentimientos clave de los internautas. Estos comentarios producidos libremente son estratégicos para las marcas y representan una auténtica mina de oro de información para la reputación. Sin embargo, la naturaleza de estos mensajes, el lenguaje natural, los diferencia de los datos que las empresas solían procesar conlleva nuevas limitaciones de análisis.
Ninguna herramienta puede ofrecer un estudio exhaustivo de las palabras textuales, a pesar de los avances en la investigación sobre el análisis de sentimientos. Por ello, conviene recordar algunos elementos lingüísticos fundamentales para dar respuesta a la siguiente pregunta: ¿por qué es tan complicado el análisis automático de sentimientos?
Si determinadas palabras expresan por sí solas un sentimiento positivo (estupendo, bueno, agradable, interesante) o negativo (inaceptable, decepcionado, enfadado, vergonzoso), identificar su presencia en un enunciado no basta para definir el tono de éste. Por ejemplo, el verbo fácil de usar transmite explícitamente un sentimiento de positividad que puede asociarse al adjetivo fácil. En cambio, la afirmación no fácil de usar siempre incluye el adjetivo fácil, pero el tono del enunciado se ve alterado por la partícula de negación no. Este sencillo ejemplo pone de manifiesto uno de los límites del enfoque léxico y la necesidad de aplicar un enfoque morfosintáctico para tener en cuenta el contexto en el análisis semántico.
Algunas técnicas actuales recurren al tratamiento lexicométrico, que combina análisis lingüísticos y estadísticos. Otras se basan en técnicas de aprendizaje automático para mejorar automáticamente el rendimiento de los programas de análisis a medida que se utilizan. Sea cual sea el método utilizado, no todas las sutilezas del lenguaje pueden reconstruirse en forma de algoritmos para ser reconocidas por un sistema informático. El lenguaje se compone de distintos niveles de articulación, cada uno con sus retos:
- Nivel léxico
- Nivel sintáctico
- Nivel semántico
- Nivel pragmático
Este artículo te ofrecerá una visión general de estos niveles ilustrado a través de ejemplos.
I. Nivel léxico
Los datos textuales están sujetos a formas ortográficas particulares. Los errores ortográficos, frecuentes en medios como las redes sociales, no hacen sino complicar el análisis automático de un texto.
Un tweet en el que la marca "Under Armour" estaba mal escrita como "Under Armor".
Lo mismo ocurre con las distintas posibles grafías generadas por el uso del lenguaje SMS, incluso abreviaturas para respetar el límite de 140 caracteres en Twitter.
Usuario de Twitter que utiliza la forma abreviada de "as far as I know " (que yo sepa) como " afaik ".
Debido a esta multiplicación de formas ortográficas, el reconocimiento de unidades léxicas para el análisis de sentimientos es aún más difícil.
II. Nivel sintáctico
Como la información está en forma de texto libre y lenguaje natural, el analizador puede enfrentarse a formas sintácticas heterogéneas, que no siempre cumplen las normas gramaticales habituales. El lenguaje utilizado por algunos internautas es espontáneo y a veces puede ser desordenado. Las palabras no siempre se utilizan en su forma original cuando se trata de expresiones. Los internautas no dudan en modificar la estructura de las frases (ausencia de verbos, frases incompletas) y a veces reproducen por escrito ciertas características relacionadas con el habla.
Ejemplo
Esta simplificación de los usos por parte de los internautas dificulta aún más el análisis, ya que las "frases" no se construyen de la misma manera ni siguen las mismas reglas. Mientras los usos de la lengua evolucionen continuamente, sería demasiado complejo reconocer un gran número de formas sintácticas para analizar cualquier estructura oracional.
III. Nivel semántico
La primera dificultad relacionada con la semántica es la polisemia de las palabras, que puede hacer ambiguo cualquier análisis de significado y crear malentendidos.
Ejemplo
"Adidas Origional donará 1700 zapatos que no se pueden vender debido a algunos rasguños y daños menores, todos los zapatos son cómodos y en orden, por lo que los enviará al azar a diferentes personas que les encantaría en este mes de septiembre sin costo alguno (...)"
Sin embargo, los analizadores sintácticos sólo pueden asignar un tono (positivo, negativo o neutro por defecto) y no pueden hacer matizaciones, lo que hace que el análisis semántico pierda toda su riqueza. Esta riqueza semántica también se ve mermada con las partículas de intensidad, que permiten atenuar o amplificar las palabras. Los adverbios de intensidad junto a las palabras clave subjetivas pueden presentar distintos grados de tonalidad, lo que permite anotar los verbos en una escala y no de forma binaria.
IV. Nivel pragmático
Para comprender un nivel lingüístico hay que entender la situación en general, no sólo el contexto impuesto por su enunciado. A menudo se incluyen varios elementos ajenos a la lengua, como información sobre los hablantes (edad, sexo, estatus social), puntos de referencia espaciales, etc.
En cuanto al análisis de los sentimientos, la dificultad reside también en la identificación de fenómenos como la ironía, el sarcasmo y lo implícito. Estos fenómenos son, en la mayoría de los casos, identificables por los seres humanos. Sin embargo, un analizador automático no puede poseer todo el conocimiento contextual que requieren este tipo de fenómenos. Nótese, sin embargo, que ciertos elementos pueden identificar automáticamente estos fenómenos lingüísticos, como la presencia del hashtag #ironía en un tuit.
Ejemplo
"¡@Nike cumplió 50 años hoy!! Ellos siguen envejeciendo,
pero los niños que fabrican sus zapatillas se mantienen en la misma edad....(...)"
Hoy en día, el análisis de sentimientos permite identificar el tono general de un corpus cuando se expresan explícitamente las opiniones de los internautas. El artículo sólo presenta una visión general de los fenómenos lingüísticos, que pueden alterar el tono de un enunciado a pesar de no ser tenidos en cuenta por los programas informáticos.
El lenguaje, lejos de ser binario, abunda en multitud de sutilezas que lo enriquecen, sutilezas que sólo un ser humano puede, de momento, identificar. Por eso, muchos proyectos de e-reputación se apoyan hoy en dos pilares esenciales: una potente herramienta de monitorización de redes sociales unida a la experiencia de un analista.
Una medida del sentimiento general expresado sobre una marca
basada en menciones positivas y negativas.
Además del porcentaje de sentimiento del volumen de conversaciones, como se muestra en la imagen anterior, el análisis del sentimiento social de Digimind ofrece una variedad de métricas. Entre ellas se encuentra el Net Sentiment Score, una medida del sentimiento general calculada teniendo en cuenta la diferencia entre menciones positivas y negativas. Además, la Tendencia del sentimiento neto mide el cambio en la puntuación del sentimiento neto a lo largo del tiempo. Permite a los analistas identificar los cambios en los sentimientos a lo largo del tiempo para comprender mejor la lealtad de los consumidores.
Net Sentiment Score
Net Sentiment Trend muestra un gráfico para que identifiques fácilmente los diferentes picos de sentimientos de un periodo de tiempo
La ergonomía del software de Digimind Social permite a nuestros analistas calificar rápidamente un gran número de declaraciones literales. Este software, diseñado para facilitar el análisis de grandes volúmenes de información, cuenta además con un avanzado sistema de reglas que permite contextualizar la información recogida. Por ejemplo, se pueden combinar distintos filtros para cambiar el tono de determinadas menciones en función de criterios específicos de un sector de actividad, o de términos y expresiones propios de un acontecimiento o un periodo de crisis.
Celebración del Día Internacional de la Mujer 2023 en Digimind: reduciendo la brecha tecnológica
Cómo aumentar eficazmente el engagement en las redes sociales