[Pixabay]

Un amigo mío dice que la nanotecnología es un eufemismo para lo que siempre hemos llamado química. Si uno ve en un anuncio de unos pantalones que llevan teflón para repeler el agua y eso se vende como nanotecnología, es cierto que el abuso nos lleva a preguntarnos si es oro todo lo que reluce. De la misma manera, puede que al oír Big Data pensemos que es otro nombre para lo que siempre hemos llamado estadística. En buena parte así es: las herramientas estadísticas tradicionales se inventaron para obtener información de los datos. Pero el hecho de que la disponibilidad de los datos sea radicalmente diferente puede cambiar el terreno de juego. Voy a poner un ejemplo:

Hace ya varios lustros, hice una apuesta con un profesor de la Escuela de Telecomunicaciones de la UPC. No me acuerdo bien de los términos; se trataba de encontrar 100 palabras en español que tuvieran todas las vocales, una sola vez. Claro que se encuentran: ecuación, adulterio, humanoide, riachuelo, hipotenusa, etcétera. No vale abuelito (es diminutivo), ni agricultores (plural), ni formas verbales, ni ayuntamiento (tiene la a repetida). Nos llevó varias semanas. Algunas no salen en el diccionario pero nos reíamos: -"eres un numerario opusdeísta", -"y tú, un auténtico hijod*****" (esta última, Cervantes seguramente la aceptaría). Creo que la cosa acabó con más de 100 palabras panvocálicas y una que encontré yo y que tiene las 5 vocales repetidas dos veces: superamortiguamiento. No sale en el diccionario pero los ingenieros saben lo que es.

Bueno, pues ya no es necesario estrujarse el cerebro. Con un ordenador, uno puede acceder a una base de datos donde se almacenan libros de dominio público, como el Proyecto Gutenberg, descargar todos los libros que uno quiera, y buscar las palabras que tengan cinco vocales. Al final de esta entrada copio el código escrito en lenguaje R para descargar un libro y buscar palabras de cinco vocales. Por ejemplo, en el Quijote sale cuadrillero, que no habíamos descubierto (la Santa Hermandad desapareció hace mucho). Además, se pueden buscar en otros idiomas. Yo pensaba que en inglés había muchas menos, porque no se me ocurrían tantas, pero vaya si hay. En Moby Dick aparecen 41 palabras con las cinco vocales, entre ellas: abstemious, counteracting, exultation, facetious, precaution, tambourine, outlandishness, reputation ... El programa, dicho sea de paso, tarda pocos segundos en descargar el libro y explorarlo en su totalidad.

Ahora pensemos en una cadena de supermercados, por ejemplo. Cuando uno paga su compra, queda registrado todo lo que se lleva. Con eso, se puede detectar si uno deja de comprar pescado (¡ticket de regalo de gambas para el sábado!), o promocionar un producto, o disponer estratégicamente las mercancías para incitar a la compra. Se estudian los modelos de compra de los clientes de manera rigurosa. O pongámonos en el caso de una empresa distribuidora de carburante, que le compra a una compañía telefónica las localizaciones de los móviles para saber por dónde se mueve la gente y poner una gasolinera en un lugar estratégico. No digamos nada de la navegación por internet: el historial de navegación suele ser accesible para muchos sitios web que visitamos. Hace poco leí que con unos 150 "me gusta" de los que se ponen en Facebook se puede establecer con gran exactitud a qué partido político vota esa persona. Todos estos ejemplos son reales; rara es la gran empresa que no saca partido de sus datos.

Big Data quiere decir, de manera simple, que se puede disponer rápidamente y con facilidad de un gran volumen de datos de carácter muy diverso. Eso está ocurriendo ya, no solo en el ámbito comercial, sino también en el laboratorio científico y en el hospital, en los medios de transporte y en las viviendas. Es muy barato un sensor que registre datos, y que resulten accesibles por Internet (ahí entra el Internet de las Cosas). La ayuda en muchos casos puede ser notable. También existen peligros, indudablemente: por eso, la protección de datos es un asunto candente.

Por ahora, aunque parezca sorprendente, uno de los impedimentos más grandes es encontrar los datos. ¿No está todo en Internet? Pues no: muchas empresas guardan los datos celosamente. Se dan cuenta de su valía y no los hacen públicos. Y los datos accesibles pueden estar en formatos difíciles de procesar. En mi experiencia, se tarda mucho tiempo en buscar y recopilar datos y en prepararlos para que se puedan procesar, mucho más que en el procesamiento mismo. En cualquier caso, la tecnología está disponible, y su uso indudablemente crecerá.

Programa en R para descargar libros del Proyecto Gutenberg y buscar palabras de cinco vocales:

library(stringr)
library(gutenbergr)
library(tidytext)

lengua="en"
autor="Melville"
gutenberg_works(str_detect(author, autor),languages=lengua)

# El Quijote es el 2000, Moby Dick el 2489
libro = gutenberg_download(2489)

expresion_regular = "(?=.*a)(?=.*e)(?=.*i)(?=.*o)(?=.*u)"

if (lengua != "en"){
Encoding(libro$text) = "latin1"
iconv(libro$text, from="latin1", to="UTF-8")
expresion_regular = "(?=.*(a|á))(?=.*(e|é))(?=.*(i|í))(?=.*(o|ó))(?=.*(u|ú|ü))"
}

palabras = unnest_tokens(libro, word, text)$word

cincovocales = unique(palabras[str_detect(palabras, expresion_regular)])

falsas = str_detect(cincovocales,"((gue)|(gui))|(que)|(qui)")
cincovocalespuras = sort(cincovocales[!falsas])
length(cincovocalespuras)/length(palabras)

if (lengua != "en"){
condicion=str_count(cincovocalespuras, "(a|á)")*str_count(cincovocalespuras,"(e|é)")*str_count(cincovocalespuras,"(i|í)")*str_count(cincovocalespuras,"(o|ó)")*str_count(cincovocalespuras,"(u|ú|ü)")==1
}else{
condicion=str_count(cincovocalespuras, "a")*str_count(cincovocalespuras,"e")*str_count(cincovocalespuras,"i")*str_count(cincovocalespuras,"o")*str_count(cincovocalespuras,"u")==1
}

cincovocalespuras[condicion]
length(cincovocalespuras[condicion])/length(palabras)
cvMobyDick = cincovocalespuras[condicion]
pMobyDick = length(cincovocalespuras[condicion])/length(palabras)

Ángel Garcimartín Montero
Ángel Garcimartín Montero

Catedrático de física (especialidad: materia condensada) en la Universidad de Navarra.

Ha llevado a cabo investigaciones (de carácter marcadamente experimental) sobre dinámica no lineal, inestabilidades, caos y sistemas físicos fuera del equilibrio; la fractura de los materiales frágiles; la transición vítrea, y los medios granulares. Actualmente se interesa en los atascos de materia activa (por ejemplo, los seres vivos).

Página web personal

Sobre este blog

La materia blanda es la que se deforma fácilmente cuando se somete a esfuerzos o fluctuaciones térmicas: líquidos, coloides, materiales granulares, polímeros, espumas, algunos materiales biológicos. Pero en sentido figurado ¿no es también materia blanda la ciencia, la universidad, o incluso la sociedad?

Ver todos los artículos