Software Heritage: una Biblioteca de Alejandría del código fuente del mundo con 11.000 millones de archivos

Un proyecto europeo busca crear un repositorio mundial de todo el software disponible, almacenando su código fuente, es decir, las instrucciones que escribe una persona para generar cada programa

Roberto Di Cosmo (Parma, 1963) tiene una obsesión: quiere reunir en un mismo lugar todo el código fuente del mundo . Esa especie de Biblioteca de Alejandría de la programación no puede tener ánimo de lucro y debe ser accesible para cualquiera, desde investigadores hasta empresas privadas o particulares. Que todos, o quienes quieran, conozcan la arquitectura de las aplicaciones informáticas que usamos ayudará a entenderlas y a mejorarlas. A generar más conocimiento, a la prosperidad de la sociedad.

Este año se cumplen cinco desde que el sueño de este científico italiano afincado en París empezó a convertirse en realidad. Gracias a su empeño personal, la Software Heritage Inititative vio la luz en verano de 2016 en la sede del centro de investigación INRIA , ubicado en la capital francesa. Desde entonces ha recopilado más de 11.000 millones de archivos únicos de más de 160 millones de repositorios. Todo ese código cabe en un petabyte (un millón de terabytes, que a su vez son 1000 gigabytes), el equivalente a los datos que amasaría el Telescopio espacial Hubble durante 455 años. La copia maestra de ese superarchivo la tiene Software Heritage, aunque hay otras dos en los servidores en la nube de Microsoft (Azure) y de Amazon (AWS).

Di Cosmo y su equipo lograron que la Unesco declarara en 2017 al software patrimonio cultural de la humanidad , que debe preservarse como la música o la literatura. Y a eso se dedica Software Heritage, a cuya financiación contribuyen instituciones públicas como el Ministerio de Innovación de Francia y varias universidades, pero también bancos como Société Générale o empresas como Microsoft, Google, Intel o Huawei.

"Lo que hacemos es el equivalente a crear una especie de Google del código ", comenta Di Cosmo en su perfecto castellano con acento argentino, gentileza de su mujer. Está de visita en Madrid para participar en un congreso sobre ciencia abierta celebrado en la Universidad Politécnica. La institución que fundó y dirige tiene mucho que decir al respecto. "Hace falta construir una infraestructura que permita fácilmente almacenar, referenciar, difundir y describir de forma accesible para todos el código fuente que se usa en la investigación", subraya. La exitosa colaboración de la comunidad científica para desarrollar...

Para continuar leyendo

Solicita tu prueba

VLEX utiliza cookies de inicio de sesión para aportarte una mejor experiencia de navegación. Si haces click en 'Aceptar' o continúas navegando por esta web consideramos que aceptas nuestra política de cookies. ACEPTAR