Resultado metodologías cuantitativas

Para describir el ecosistema tradicional y digital de Chile en función de su pluralismo externo y estructural se aplica un instrumento de clasificación de datos por jueces independientes a expertos (N=30). Se entiende como expertos a los periodistas con trayectoria de responsabilidad editorial en medios (editores) y académicos (de periodismo) que concurran voluntariamente a la actividad y realicen la clasificación ad-hoc de las orientaciones políticas de los medios de comunicación en base a las categorías partidarias propuestas por Otero (2020) (Tabla 1). La ubicación final de un medio estará dada por la media de los puntajes otorgados por los jueces (Vernier, 2018).

Tabla 1: Orientaciones políticas de los medios

  • Most Extreme Left
  • Hiper-partisan Left
  • Skews Left
  • Neutral or Center
  • Skews Right
  • Hiper-partisan Right
  • Most Extreme Right

Fuente: Otero (2020) https://wefunder.com/ad.fontes.media

Actualmente no existe un dataset que pueda tener datos sobre los post de dichos medios, lo que genera la necesidad de crear uno a través de un sistema de webscraping. Estos sistemas han demostrado ser confiable para la obtención de datos no estructurados (Contreras 2022, Diouf 2019). Para la recolección de datos no estructurado, se creará una máquina virtual tipo Amazon Web Services (AWS) Elastic Compute Cloud (EC2) donde se alojará al sistema de crawler de datos (Chaulagian et al. 2017). Este sistema basado en Python consistirá en spiders que recorrerán las cuentas de 450 medios chilenos, quienes vierten contenido en las redes sociales tales como Facebook, Twitter y otros (Prastyo et al 2020, Wongkar & Angdresey 2019). Estos datos serán descargados para ser procesados off-line en la máquina virtual AWS, disminuyendo la cantidad de datos procesados en la nube. Para evitar problemas de ser bloqueado (banned) se emplea un pool de IP para poder lograr que el website piense que somos usuarios (Patel, 2020). Una vez obtenidos los datos de forma, se aplicará una máquina de aprendizaje automático donde se analicen y clasifiquen los datos obtenidos desde el crawler. También se emplearán algunas técnicas de NLP (Natural language Processing) que nos permitirá realizar análisis de sentimientos, contextos y otros. El periodo de búsqueda va desde el 1 de enero del 2021 hasta el 31 de marzo del 2022. El dataset resultante es de aproximadamente 2 millones de datos y comprende un grupo heterogéneo de medios que cubren tendencias nacionales, regionales e hiperlocales con pequeños y grandes propietarios.

Dicho corpus fue sometido a un análisis automatizado de entidades para poder identificar actores y fuentes mencionados. Luego de eso, se pudo categorizar esos actores en base a la tipología de fuentes propuesta por Mellado y otros (2020). (Tabla 2).

Tabla 2: Tipología de Fuentes

  • State or Political Party Source
  • Business or Company Source
  • Police and Security Source
  • Legal and Court Source
  • Military or Defense Source
  • Health Source
  • Educational Source
  • Civil Society Source
  • -Religion/Church
  • Citizen Source
  • Media Source
  • Sports Source
  • Performer, Artist or Celebrity Source
  • Anonymous Source
  • Other Sources (that cannot be assigned to any of the categories listed above).

Fuente: Mellado y otros (2020) https://www.journalisticperformance.org/

Finalmente, para proponer elementos de discusión para un debate constitucional que facilite la definición de un ecosistema de medios plural de un punto de vista jurídico se aplicaron entrevistas semi-estructuradas a expertos constitucionalistas, comunicólogos y directores de medios para discutir sobre la realidad normativa del ecosistema de medios digitales.

Evidencia cuantitativa

El proceso de análisis del contenido de los tweets sobre la discusión constitucional del país se realizó a través del siguiente flujo de procesos de los datos (Ver Figura 1):

Figura 1: Proceso de Captura y análisis

Figura 1: Proceso de Captura y análisis

Como se señaló, el primer paso consistió en usar una herramienta de webscraping. En este caso particular se ocupó la herramienta twarc2 junto con el API académico de Twitter que permite lograr hasta 10 millones de extracciones de tweets por mes sin tener el problema de ser bloqueado. Esta herramienta ha sido usada anteriormente en estudios de ciencias sociales similares a este (Cfr. Ruest and Milligan (2016); Maemura et al. (2016). La ventaja de herramienta twarc permite obtener toda la información del tweet, del autor, si tuvo o no reposteo y si es posiblemente sensible de forma rápida y precisa.

Por cada hashtag se creó un archivo CSV que contiene toda la información de los tweets para posteriormente realizar un preprocesamiento de los textos del tweet. Primero se eliminan los signos de puntuación, hashtags y menciones y palabras comunes tales como artículos, pronombres, etc. para poder realizar un mejor análisis respecto a repetición y sentimiento para después realizar un análisis de sentimiento usando la herramienta PySentimiento (Pérez et al., 2021). Una de las grandes dificultades que existe para el análisis de sentimiento es que hay pocas que trabajen nativamente en español. Las herramientas de análisis de sentimiento más usadas son Vader y Textblob, sin embargo, estas requieren que el texto original sea traducido y, por ende, se pierde un grado de precisión a la hora de realizar análisis de sentimiento. Finalmente, se realizó una unión de todos los archivos para generar una base de datos para que luego sea ocupada para referencia y comprobación.

Descripción de datos

Se definió un universo de 122 hashtags relacionados con el objetivo de la información y una lista de medios digitales y tradicionales. Posteriormente, se procedió a buscar los posts relacionados con esos hashtags desde el 1 de enero del 2021 hasta el 31 de marzo del 2022. El resultado fue un total de 8.549.245 tweets para el periodo de tiempo definido. La Figura 2 muestra la distribución por mes de todos los posts relacionados con los hashtags. Se puede apreciar que desde Julio del 2021 hasta fFebrero de 2022 se encuentran la mayor cantidad de posts (82%) siendo febrero del 2022 el cual concentra la mayor cantidad de posts (22,9% del total de posts).

Figura 1: Proceso de Captura y análisis

Figura 2: Número de tweets por mes muestra total. En miles de posts

La Figura 3 muestra la distribución de los posts efectuados sólo por los medios de comunicación seleccionados, totalizando tweets únicos para el periodo de tiempo definido. Se puede apreciar que la distribución es muy similar a la presentada por la muestra general. Sin embargo, hay una diferencia durante el primer trimestre del 2022, donde se expone un mayor número de posts proporcional comparado a la muestra general.

Figura 1: Proceso de Captura y análisis

La Figura 4 muestra la distribución de los hashtags para la muestra general. En ella se puede apreciar que “Convención constitucional” solo ocupa el cuarto lugar y “Convención constituyente” (con y sin tilde) en quinto y sexto respectivamente y “Nueva constitución” en el déecimo lugar. Por otro lado, los candidatos presidenciales Boric y Kast junto con el hashtag Chile abarcan una proporción significativa de posts (41% del total).

Figura 1: Proceso de Captura y análisis

Figura 4: Hashtags más populares total muestra Enero 2021 - Marzo 2022 En Miles de tweets

La Figura 5 muestra la distribución de los hashtags para la muestra de los medios de comunicación formal e informal. A diferencia de la muestra general, en la muestra de los medios digitales los hashtags relacionados con la “Convención constituyente” se posicionan en los primeros tres lugares. Cabe destacar que no aparece “Nueva constitución” como en el total general, pero si aparece el concepto de “estallido social”, el cual no estaba en los diez hashtags más recurrentes.

Figura 1: Proceso de Captura y análisis

Figura 5: Hashtags más populares para medios Enero 2021 - Marzo 2022 En Miles de tweets.

Posteriormente se realizó una nube de palabras (Word Cloud) para presentar una serie de palabras o etiquetas de forma gráfica con distintos colores y tamaños en función de la relevancia de una palabra. Para esto se tomaron un máximo de 25 palabras por cada muestra (total y medios). La Ffigura 6 muestra el caso de la muestra general, donde se puede apreciar que palabras como gobierno, gente, voto y mejor se repiten en mayor cantidad, en concordancia con los hashtags más recurrentes. Estos conceptos estaban altamente relacionados con el proceso eleccionario que se vivía en Chile.

Cabe destacar que aparece la palabra “derecha” como repetitiva. 

Figura 1: Proceso de Captura y análisis

Figura 6: Nube Palabras principales (25) para muestra total

En cuanto a la cantidad de repetición por palabras se puede apreciar que tanto “Chile” como “Si” tienen un peso importante respecto al total de palabras. “Derecha”, “Gobierno” y “Pueblo”, conceptos asociados a política muestran un interés considerable (Ver Figura 7).

En el caso de los medios de comunicación se puede apreciar que las palabras que muestran mayor cantidad de apariciones son “abstención”, “convencional”, “constituyente”, “derecho” y “carabineros”. Las primeras tienen concordancia con el proceso de la redacción de la nueva Constitución y la última tiene relación con el estallido social que ocurrió en Chile antes del proceso constituyente (Ver Figura 8).

 

Figura 1: Proceso de Captura y análisis

Figura 7: Top 20 Palabras populares durante el periodo Enero 2021 - Marzo 2022 En Miles de tweets

Figura 1: Proceso de Captura y análisis

Figura 8: Nube Palabras principales (25) para muestra de medios

En cuanto a la cantidad de repetición por palabras se puede apreciar que las palabras que eran de mayor frecuencia en la muestra general, no tienen la misma distribución en la muestra de los medios de comunicación. “Minuto”, “Vivo”, “Convención”, “Constitucional” y “Constituyente” se encuentran dentro de las que tienen mayor representación. “Chile” aparece en el número sexto comparado con el primer lugar obtenido en la muestra general (ver Figura 9).

Figura 1: Proceso de Captura y análisis

Figura 9: Top 20 Palabras populares durante el periodo Enero 2021 - Marzo 2022 En Miles de tweets

Análisis de sentimiento

El análisis de sentimientos, también conocido como minería de opinión, se trata de una tarea de clasificación masiva de documentos de manera automática, que se centra en catalogar los documentos en función de la connotación positiva o negativa del lenguaje ocupado en el mismo. Como se mencionó anteriormente, la gran dificultad fue realizarlo a través de una herramienta que tuviese un corpus en español para así tener mayor precisión respecto a la predicción del sentimiento del texto. Se realizó un análisis de sentimiento a los tweets relacionados con medios de comunicación y se clasificaron en positivos, neutrales y negativos.

 

Figura 1: Proceso de Captura y análisis

Figura 10: Distribución del sentimiento de los tweets por mes.

En la Figura 10 se puede apreciar que a medida que se iban acercando a la fecha de las elecciones, el sentimiento negativo tuvo un crecimiento desde un 10% en julio de 2021 hasta un 47% en febrero del 2022, representando un 370% de crecimiento de este sentimiento. En cuanto al sentimiento neutral, este disminuyó desde 63% hasta 49%, representando una disminución de un 22%. Finalmente, en general esta muestra no tiene un sentimiento positivo alto, sin embargo, se vio disminuido a más de la mitad, pasando de un 9% hasta un 4%. De la misma forma, en la figura 11 podemos ver el cambio porcentual del nivel de sentimiento. Se puede apreciar que el sentimiento positivo tuvo la mayor fluctuación de mes a mes, siendo las mayores fluctuaciones cercanas a la elección y cercanas a los primeros borradores. En el caso del sentimiento negativo se puede apreciar que durante las elecciones su cambio tuvo baja variabilidad, sin embargo, el crecimiento negativo tuvo su mayor nivel en marzo del 2022, similar al rechazo que tenía al principio del proceso constituyente. En el caso del sentimiento neutro, tuvo un nivel de variabilidad bajo.

Figura 1: Proceso de Captura y análisis

Figura 11: Cambio Porcentual del sentimiento negativo, neutro y positivo.

Sentimiento de medios

Se analizó por cada uno de los medios de comunicaciones el tipo de sentimiento que tenían sus tweets. En general, el nivel de negatividad fue de un 25%, de neutralidad de un 65% y de positividad un 10% (Ver figura 12)

 

Figura 1: Proceso de Captura y análisis

Figura 12: Proporción de sentimiento, muestra de medios.

En el caso de los canales de televisión tradicionales (C13, TVN, MEGA, CHV, RedTV, CNNChile), estos muestran niveles de negatividad, neutralidad y positividad de los tweets de 16%, 64.4% y 19.6%, respectivamente. RedTv mostró el nivel más alto de negativismo del grupo ( 24% vs 16%). En el otro extremo, Chile visión tuvo el nivel menor de sentimiento negativo en sus tweets de sólo un 3.5%. Canal 13 fue el medio que tuvo el nivel de neutralidad más altos de los canales de televisión tradicional (86%) mientras que RedTV sólo tuvo un 39.8%. En el caso de los tweets positivos, RedTV y Canal 13 tuvieron los niveles más altos y similares (36.5% cada uno).

En el caso de las radios tradicionales (ADN Radio, Duna, Biobío, Cooperativa, y Agricultura), estas tenían un nivel de negativismo, neutralismo y positividad de un 34.2%, 56.5% y de un 9.3% respectivamente. El nivel de tweets negativos fue mayor al promedio de los medios (34.2% vs 25%), siendo el medio con el mayor nivel de tweets negativos ADN Radio con un 65.97%, seguido por Radio Biobío (39%). La radio Agricultura tuvo el nivel más alta de tweets neutros (85.8%) y ADN Radio tuvo la proporción más alta de tweets positivos (25.25%).

Para los medios escritos y/o electrónicos, estos fueron mas neutros que la radio (72.3% vs 56.5%) y la televisión (72.3% vs 64.4%). Cabe destacar que sus niveles de negativismo fueron de un 21% y de positivismo de un 6%. El Mostrador mostró el nivel de tweets negativos más altos (27.15%) mientras que Lla Cuarta sólo tuvo un nivel de 1% de tweets positivos, pero con un nivel de neutralidad de un 82.7%.

El resto de los medios no tradicionales mostraron mayores niveles de tweets negativos (29.68% vs 25%) y positivos (15% vs 10%) que el resto junto con menores niveles de neutralidad (56% vs 64%). En el caso de Mi Radio LS tuvo un nivel de tweets negativo cercano al 96% que junto a Crónica Chile (79%) fueron los que tuvieron el grado más alto de tweets negativos. UATV (97%), Tres quintos (96%) y El Morrocotudo (84%) mostraron los grados de positividad más altos. Finalmente, Terra (78.4%), El Líibero (50%) y Crónica Chile (20%) tuvieron los niveles de sentimientos positivos más altos.


Pluralismo Digital

© 2020 Pluralismo Digital. Todos los derechos reservados. Desarrollado por EfectoVisual.