12 de Enero de 2015
COMUNICACIÓN DE LA CIENCIA

El repositorio arXiv alcanza el millón de artículos

Cada vez más científicos comparten sus resultados en el popular servidor antes de enviarlos una revista técnica.

Popularidad creciente: Total de artículos acumulados en el repositorio arXiv desde 1991 hasta 2014 (arriba) y fracción de artículos (abajo) en cada una de sus áreas temáticas: análisis cuantitativo en finanzas (q-fin) y biología (q-bio), estadística (stat), ciencias de la computación (cs), física (physics+nucl+gr-qc+quant-ph+nlin), matemáticas (math), física de altas energías (hep), física de la materia condensada (cond-mat) y astrofísica (atro-ph). [Fuente: arxiv.org]

El conocido repositorio arXiv.org, en el que físicos, matemáticos y teóricos de la computación comparten de manera habitual sus manuscritos antes de enviarlos a una revista técnica con revisión por pares, alcanzó el pasado mes de diciembre la cota de un millón de artículos.

Inicialmente concebido como un «tablón de anuncios electrónico», el repositorio nació en agosto de 1991, justo antes de que comenzase la expansión de la World Wide Web. Y aunque tardó 17 años en acumular medio millón de manuscritos, han bastado otros 6 para doblar esa cifra.

El repositorio recibe en la actualidad más de 8000 nuevos artículos al mes, lo que supone una media de más de 250 al día. Editados por los propios científicos y sin haber sido sometidos a revisión técnica, los manuscritos aparecen publicados en tandas tras algunos controles de calidad rutinarios, como una ojeada rápida por parte de uno de los 130 voluntarios del proyecto o un filtro automático para evitar plagios.

El repositorio superó el millón de artículos el pasado 29 de diciembre, después de que sus administradores regresaran de vacaciones y lo actualizasen con los manuscritos enviados a partir de Nochebuena.

A juzgar por el contador automático de la página de inicio, el artículo número un millón fue «A well conditioned and sparse estimate of covariance and inverse covariance matrix using a joint penalty», enviado el 26 de diciembre a las 7:34:19 GMT por Ashwini Maurya, investigador de la Universidad Estatal de Michigan. Sin embargo, Paul Ginsparg, físico de la Universidad Cornell y fundador del repositorio, explica que el millonésimo artículo no resulta tan fácil de identificar. Dicho contador no proporciona más que una estimación tosca, debido a la manera en que se indexan los envíos y a la esporádica aparición de documentos duplicados o inapropiados. Aunque hoy tales textos resultan fáciles de identificar y eliminar, no ocurría así durante los primeros años del proyecto. 

El inicio de una revolución

La ingente cantidad de manuscritos que facilita el arXiv corre hoy paralela al proceso, mucho más lento, de publicación en revistas con revisión por pares. Pero semejante perspectiva se antojaba muy remota cuando Ginsparg fundó el servicio para «unos cuantos centenares de amigos y colegas que trabajaban en un subcampo de la física de partículas», rememoraba el investigador en un artículo publicado en 2011 en Nature con motivo del vigésimo aniversario de la proyecto. Hoy el servidor llega a otras áreas de la física y a disciplinas como matemáticas, ciencias de la computación, estadística y análisis cuantitativo en finanzas y biología.

La popularidad del repositorio ha aumentado con el paso de los años. Al principio, algunos físicos se mostraban reticentes a compartir sus resultados antes de publicarlos en una revista técnica. Sin embargo, muchos cambiaron de idea al percatarse de las ventajas de una publicación rápida. Por ejemplo, el hallazgo en 2008 de cierta clase de superconductores basados en hierro atrajo a un gran número de físicos experimentales de materia condensada, «seducidos por la necesidad de dejar clara la primacía de sus hallazgos, así como la de dar a conocer sus resultados a los teóricos», escribía Ginsparg en su artículo de 2011.

Hoy es normal que un descubrimiento de primer orden se dé a conocer en el arXiv antes que en cualquier otro sitio. Cuando Grigori Perelman demostró la conjetura de Poincaré (un enunciado sobre la naturaleza de los espacios tridimensionales cuya demostración formal se había resistido durante casi un siglo), solo publicó sus resultados en el repositorio. (Años más tarde Perelman recibiría por ello la medalla Fields, si bien rechazó el galardón.) El año pasado, el servidor inspiró la aparición de un homólogo en biología, bioRχiv.org, puesto en marcha por Cold Spring Harbor Laboratory Press, de Nueva York.

El repositorio se expande cada vez más rápido. El pasado 19 de diciembre, sus responsables anunciaron qua añadirían un dígito al código empleado para identificar los artículos, ya que esperan que dentro de poco se superen los 10.000 envíos al mes. En la actualidad, el servidor recibe más de 10 millones de peticiones de descarga mensuales.

Y aunque nada de lo anterior es gratis, sí es relativamente económico. En 2014, los costes de personal y servidores sumaron 885.987 dólares: menos de 10 dólares por artículo enviado. Buena parte de ese dinero procede de varias instituciones colaboradoras —después de que en 2010 la Universidad Cornell solicitase apoyo financiero— y de la Fundación Simons, de Nueva York.

El propio arXiv se ha convertido en una valiosa fuente de información para quienes desean analizar la difusión del conocimiento científico. El pasado mes de diciembre, Ginsparg y Daniel Citron, doctorando en ciencias físicas de Cornell, estudiaron la frecuencia con que los investigadores reutilizan el texto de otros artículos a partir de un análisis de repeticiones de frases de 7 palabras aparecidas en unos 757.000 manuscritos publicados en el arXiv entre 1991 y 2012. Otros lo han aprovechado para identificar tendencias en la popularidad de las ideas científicas, en un espíritu similar a los estudios sobre la evolución de la literatura inglesa realizados con Google Books.

Aunque un millón de artículos pueda considerarse un jalón natural, Ginsparg señala que algunos físicos podrían preferir otros: «La relevancia del número 1.000.000 no es más que un accidente derivado de nuestro sistema decimal y del hecho de que tenemos diez dedos. Muchos argumentarían que un número más importante es 220 = 1.048.576; que, además, es el número de bytes en un megabyte», añade el físico.

No habrá que esperar mucho para llegar a dicha cifra. A la tasa de crecimiento actual, el servidor debería alcanzar ese número de artículos en verano de este año.

—Richard Von Noorden / Nature News

Los boletines de Investigación y Ciencia

Elige qué contenidos quieres recibir.