Internet Archive: el guardián de la memoria digital

¿Alguna vez te has puesto a pensar qué sucede con las miles de páginas web que están en Internet? Muchas veces damos por sentado que siempre estarán ahí, para cuando las necesitemos. Sin embargo, esto no puede ser más distante de la verdad.

Según una investigación realizada por el Pew Research Center, el 25% de las páginas web publicadas entre 2013 y 2023 han desaparecido. Esto es un poco preocupante, a decir verdad.

Esto se debe a que, con la llegada de la era digital, nadie había pensado qué iba a suceder con esa información.

Demos un vistazo al pasado. Gracias a los fragmentos de pergaminos antiguos y tablillas de cera que se han conservado desde hace siglos, es posible conocer de qué se alimentaban los habitantes de Pompeya hace casi 2000 años.

Sin embargo, los historiadores del futuro pueden encontrarse con ciertas dificultades a la hora de estudiar la manera en la que vivimos actualmente. Esto se debe a que, hasta hace poco, no existía un método para salvaguardar la información en la red.

Esto se debe a la facilidad de borrar nuestra historia digital y la falta de esfuerzo para archivar la información del mundo de una manera más segura.

Seamos sinceros, hay muchos incentivos para poner información y contenido en linea. Sin embargo, las empresas no buscan mantenerlo a largo plazo.

Entonces, ¿nuestra información va a desaparecer?

No te preocupes. Luego de reconocer esta situación, un grupo informal de organizaciones busca contrarrestar el efecto de la era digital. Sin embargo, los que hacen parte de este gremio usualmente no cuentan con financiación.

Aquí entra el salvador del momento, la organización llamada Internet Archive. Esta entidad estadounidense sin fines de lucro, con sede en San Francisco y fundada en 1996, es descrita como un proyecto apasionante por su fundador: el pionero de Internet, Brewster Kahl.

Esta organización ha dado inicio a lo que puede ser el proyecto de archivo digital más ambicioso de la última era. Reúne más de 866 mil millones de páginas web, 44 millones de libros, 10.6 millones de videos de películas y programas de televisión y más.

De esta forma, esa información se encuentra guardada en miles de data center repartidos por todo el mundo con el fin de proteger a la humanidad del olvido digital.

“Los riesgos son múltiples. No es sólo que la tecnología pueda fallar, aunque puede suceder. Lo más importante es que las instituciones fracasen o las empresas quiebren. También puede ocurrir que las organizaciones de noticias sean absorbidas por otras o que sean clausuradas, algo que se ha vuelto más común”, dice Mark Graham, director de Wayback Machine de Internet Archive.

Contenido relacionado: OpenAI, Google y Meta están violando la privacidad de los usuarios y los derechos de autor para entrenar a sus IA

Salvando nuestra historia

Según un reciente estudio del Pew Research Center, una cuarta parte de todas las páginas web que en algún momento existieron entre 2013 y 2023 ya no están. Esto prende la alarmas de cómo lentamente está desapareciendo nuestra historia digital.

Si lo llevamos a los números, las cifras son un poco alarmantes: el 38% de las páginas web que existían en el 2013 ya no están. Alrededor del 8% de los sitios web que se publicaron en algún momento del 2023 ya no existen.

No solo los sitios web poco conocidos están pasando por esto. Páginas como Wikipedia y sitios gubernamentales están siendo afectados.

Pongamos como ejemplo la reconocida enciclopedia digital mencionada. Las referencias que se usan en estos artículos están desapareciendo. Se están convirtiendo en enlaces rotos que ya no respaldan la información,. Esto resulta en datos sin sustento.

Ya es hora de salvar nuestra historia. La herramienta Wayback Machine de Internet Archive funciona como una especie de máquina del tiempo para la web. Sus sistemas descargan copias funcionales de sitios web de manera continua y las ponen a disposición del público de forma gratuita.

Internet Archive aspira a un enfoque integral. Debido a los recursos disponibles, resulta imposible recopilar algo que se acerque a la totalidad del Internet . Aun así, su herramienta abarca una amplia red.

Por ende, esta se encarga de recopilar y almacenar de manera instantánea sitios web para la posteridad.

Miremos el lado bueno, recientemente la organización anunció que se asociaría con Google. El gigante tecnológico incluirá enlaces recuperados por Wayback Machine en sus resultados de búsqueda.

Hablemos de los puntos de fallo

Nada es perfecto. Aunque Internet Archive se ofreció como voluntario para funcionar como una biblioteca mundial para nuestras vidas digitales, las amenazas que minan sus esfuerzos crecen.

No es un secreto que el proyecto sigue siendo frágil. Hace poco, cuatro editoriales evidenciaron la vulnerabilidad de esta herramienta al alegar que  la práctica de escanear libros y ofrecerlos digitalmente infringe los derechos de autor.

Debido a esto, un tribunal estadounidense dictaminó que esto era ilegal en 2023. La apelación de Internet Archive fue rechazada.

Con esta demanda en su historial, la organización enfrenta una grave amenaza financiera al recibir una nueva demanda interpuesta por grandes discográficas. Estas acusan a la organización de infringir derechos de autor al digitalizar sus discos.

Esto puede resultar en una multa millonaria que podría poner en peligro a la organización sin animo de lucro.

Eso no es todo. En mayo de 2024, Internet Archive anunció que se encontraba en medio de un peligroso ataque DDoS. Este afectó su sistema de recolección de información al sobrecargar los servidores de las páginas nuevas que iban a ser archivadas.

Por supuesto, este preocupante ataque puede dejar lagunas permanentes en el registro histórico de Wayback Machine.

Contenido relacionado: ¿Qué es un ataque DDoS y cómo uno de estos afectó a ChatGPT?

Responsabilidades compartidas, prioridades divididas

Al no realizar un esfuerzo formal para preservar el Internet, el proyecto queda en manos de aficionados, voluntarios y distintos grupos que operan de forma independiente.

Mar Hicks, historiadora de tecnología de la Universidad de Virginia, estipula que uno de los problemas a los que se enfrenta la organización en la diversidad de prioridades.

Esto significa que, a la hora de crear un archivo, se debe tener en cuenta qué información priorizar y cuál no.

Al ser un proceso descentralizado que distintos actores llevan a cabo, existe el riesgo de que se dupliquen esfuerzos y se pierda información valiosa sobre otras áreas.

“Los archiveros dirán que estos problemas existen desde hace mucho tiempo”, dice Hicks. Sin embargo, este proceso se ve afectado por la gran cantidad de información que cada día se produce en el mundo digital.

Sin duda alguna, es necesario que exista cierta prioridad en lo que se salva de las huellas digitales de nuestra generación. De lo contrario, se corre el riesgo de no salvar la historia de la web por el rápido aumento de costos que este proceso implica.

Luego de reconocer todo el proceso que conlleva el salvaguardar nuestra huella en el mundo, ¿consideras que este proyecto cumplirá con el objetivo?

Cuéntanos en los comentarios tu opinión. Mientras tanto, solo nos queda esperar que nos depara el futuro.