Detectar noticias falsas es posible

14/02/2018 4 comentarios
Menear

Un grupo de investigadores italianos presenta herramientas capaces de detectar automáticamente una noticia falsa con una probabilidad del 91 %.

Según el último informe del Instituto Reuters, el 51 % de los ciudadanos estadounidenses tiene ya como principal fuente de noticias a las redes sociales, incluyendo aplicaciones de mensajería como Whatsapp. En España (¡siempre en vanguardia!), el porcentaje llega al 58 %. De entre ellos, más de la mitad son incapaces de decir correctamente en qué medio leen en realidad las noticias: es decir, recuerdan haber leído la noticia "en Facebook" o "en Twitter", pero no saben decir de dónde ha salido la noticia. Conocer el medio y el autor es sin duda una información fundamental para poder juzgar críticamente el contenido, y también para hacer responsable a alguien de sus posibles inexactitudes. Facebook y Twitter no son responsables de nada. Así, se habrán fijado que últimamente es muy difícil discutir realmente sobre nada, ya que primero hay que dedicar un tiempo y un esfuerzo agotador a determinar cuáles son los datos y hechos (reales o inventados) que manejan los interlocutores. Muchas veces es tan difícil establecer un suelo fáctico común que, o bien la conversación acaba en sangre dialéctica, o bien nos refugiamos en el perezoso relativismo en el que todo es cuestión de opiniones y todas ellas son respetables. Los aspirantes a tiranos, claro, se frotan las manos: el viejo periodismo, el que ponía hombres sobre el terreno para desenmascarar sus mentiras y tonterías (el que se ve en "The Post", narrada con la brillantez habitual por el incurablemente optimista Spielberg) muere sepultado bajo un alud de chascarrillos, memes, zascas y cantos de pájaro. Las noticias falsas y el clima de posverdad son ya percibidos por la Unión Europea y otros gobiernos como las principales amenazas para el funcionamiento de la democracia, para la idea misma de la democracia (ya que sin información fáctica no manipulada, "toda libertad de opinión se convierte en una broma cruel", por citar otra vez a Hannah Arendt (Verdad y mentira en la política, Ed. Página Indómita 2017).

¿Qué hacer? Resistiendo la tentación de ser "apocalíptico" o "integrado", ya saben que en este blog nos gusta el "cauto dirigismo cultural" que proponía Eco. Es decir, que es necesario entender los mecanismos de la desinformación organizada, para poder buscar las mejores maneras de corregirlos y reformarlos. Como hemos venido contando aquí, a esto precisamente es a lo que lleva años dedicándose un grupo multidisciplinar de físicos, matemáticos e informáticos italianos. Su último trabajo acaba de aparecer en el arXiv"Polarization and fake news: early warning of potential misinformation targets", de Michela del Vicario, Walter Quattrociocchi, Antonio Scala y Fabiana Zollo, de las Universidades de Venecia, Roma y el Instituto IMT de Estudios Avanzados de Lucca. En él se desarrollan herramientas para la prevención y detección de noticias falsas, en concreto en Facebook (aunque las técnicas son también aplicables a otras plataformas).

Es bien sabido que los procesos de verificación ("fact-checking") y desenmascaramiento ("debunking") no sólo son lentos y costosos, sino que pueden ser contraproducentes, ya que en un clima altamente polarizado pueden irónicamente contribuir a reforzar la fe en un prejuicio equivocado. Sería estupendo que los programas de aprendizaje automático ("machine learning") fueran capaces de detectar las noticias falsas a partir de datos "estructurales" del mensaje en sí mismo, por ejemplo, número de "me gusta" y comentarios, velocidad de propagación etc. Sin embargo, eso no es posible: trabajos anteriores (incluido alguno de este grupo de investigadores) han mostrado que la información falsa tiene características estructurales muy parecidas a las de la información verdadera. Por tanto, es preciso también extraer información sobre el contenido del mensaje: existen herramientas que pueden extraer automáticamente datos sobre el contenido "semántico" de un mensaje (número de palabras, de letras mayúsculas etc.) y sobre el "sentimiento" del mensaje (si expresa una opinión positiva sobre un tema o negativa). En este trabajo, los investigadores usaron estas herramientas con un conjunto de varios cientos de miles de mensajes extraídos del Facebook en italiano durante los meses de julio a diciembre de 2016, tanto de sitios oficiales de noticias como de sitios de información (¡ay!) "alternativa". Los objetivos eran dos: 

a) detectar "temas" (lugares, nombres, instituciones etc.) muy susceptibles de aparecer en "fake news". Esto serviría para poder emitir avisos sobre determinados temas, que deberían ser tratados con especial cautela por el ciudadano.

b) detectar directamente una noticia falsa.

En a), la herramienta mencionada extrae los temas y les asigna una puntuación (desde -1 si el sentimiento es negativo hasta 1 si el sentimiento es positivo). A partir de esas puntuaciones, los investigadores definen ciertas características que se pueden calcular matemáticamente: por ejemplo, la "distancia de presentación", esto es, la diferencia entre la nota más positiva y la más negativa de entre todas las notas de sentimiento obtenidas por los mensajes en los que aparece un tema determinado. A partir de estas cantidades, los algoritmos de aprendizaje automático intentan clasificar los temas entre temas  "fake" y temas "no fake". El resultado es que los mejores algoritmos son capaces de acertar en torno al 80 % de las veces. Este resultado es posible gracias a la introducción de las características semánticas y de sentimiento: en concreto, los investigadores muestran que la cantidad más útil es precisamente la distancia de presentación. Cuanto más pequeña es esa cantidad (es decir, más parecida es la respuesta de los usuarios a un determinado contenido), más alta es la probabilidad de que estemos ante un tema que tiene mucha probabilidad de ser parte de noticias falsas. (Pensemos que una distancia de presentación muy pequeña es característica de una cámara de eco, en la que todo el mundo piensa igual sobre los mismos temas).

En b), se usa, por un lado, toda la información que se usó para a), pero esta vez calculada sobre las noticias en sí mismas (no sobre los temas), y por otro lado la propia información obtenida en a) (es decir, si el mensaje contiene, digamos, cuatro temas, se incluye el dato de que, digamos, tres de ellos, han sido clasificados como temas "fake"). Con toda esta información, se le pide ahora al programa que clasifique los mensajes como noticias falsas o verdaderas. Con el mejor algoritmo, e incluyendo toda la información, el porcentaje de acierto llega a ser tan alto como un 91 %. El resultado es esperanzador, y abre el camino de una detección rápida y sistemática de la desinformación maliciosa.

 Estructura de cámaras de eco. Los colores representan comunidades detectadas automáticamente, y la intensidad de las uniones depende del número de usuarios comunes entre los dos nodos de la unión. Son datos reales de Facebook. La figura está extraída de PNAS 114, 3035 (2017).