Internet Archive: el guardián de la memoria digital

¿Alguna vez te has puesto a pensar que sucede con las miles de páginas web que están en Internet? Muchas veces damos por sentado que siempre estarán ahí, para cuando las necesitemos. Sin embargo, esto no puede ser más distante de la verdad.

Según una investigación realizada por el Pew Research Center, el 25% de las páginas web publicadas entre 2013 y 2023 han desaparecido. Un poco preocupante, a decir verdad.

Esto se debe a que, con la llegada de la era digital, nadie había pensado que iba a suceder con esa información.

Demos un vistazo al pasado. Gracias a los fragmentos de pergaminos antiguos y tablillas de cera que se han conservado desde hace siglos, es posible por ejemplo, conocer de que se alimentaban los habitantes de Pompeya hace casi 2000 años.

Sin embargo, los historiadores del futuro pueden encontrarse con ciertas dificultades a la hora de estudiar la manera en la que vivimos actualmente. Ya que, hasta hace poco no existía ningún método para salvaguardar la información en la red.

Esto se debe a la facilidad de borrar nuestra historia digital y la falta de esfuerzo para archivar la información del mundo de una manera más segura.

Seamos sinceros, hay muchos incentivos para poner información y contenido en linea pero en contra de lo que se piensa, las empresas no buscan mantenerlo a largo plazo.

Entonces, ¿nuestra información va a desaparecer?

No te preocupes. Luego de reconocer esta situación, un grupo informal de organizaciones busca contrarrestar el efecto de la era digital. Sin embargo, los que hacen parte de este gremio usualmente no cuentan con ninguna financiación.

Aquí entra el salvador del momento, la organización llamada Internet Archive. Esta entidad esstadounidense sin fines de lucro con sede en San Francisco y fundada en 1996, es descrita como un proyecto apasionante por el pionero de Internet Brewster Kahl su fundador.

Esta organización ha dado inicio a lo que puede ser el proyecto de archivo digital más ambicioso de la última era, que reúne más de 866 mil millones de páginas web, 44 millones de libros, 10.6 millones de videos de películas y programas de televisión y más.

De esta forma, esa información se encuentra guardada en miles de data center repartidos por todo el mundo con el fin de proteger a la humanidad del olvido digital.

“Los riesgos son múltiples. No sólo que la tecnología pueda fallar, pero eso sin duda sucede. Pero lo que es más importante, que las instituciones fracasen o las empresas quiebren. Las organizaciones de noticias sean absorbidas por otras organizaciones de noticias o, cada vez con mayor frecuencia, sean cerradas”, dice Mark Graham, director de Wayback Machine de Internet Archive.

Contenido relacionado: OpenAI, Google y Meta están violando la privacidad de los usuarios y los derechos de autor para entrenar a sus IA

Salvando nuestra historia

Según un reciente estudio del Pew Research Center, una cuarta parte de todas las páginas web que en algún momento existieron entre 2013 y 2023, hoy en día ya no están. Esto, prende la alarmas de como lentamente está desapareciendo nuestra historia digital.

Si lo llevamos a los números, las cifras son un poco alarmantes: el 38% de las páginas web que existían en el 2013 ya no están y alrededor del 8% de los sitios web que se publicaron en algún momento del 2023 para octubre de ese mismo año ya no existen.

No solo los sitios web poco conocidos están pasando por esto. Páginas como Wikipedia y sitios gubernamentales están siendo afectados por esta situación.

Pongamos como ejemplo, la reconocida enciclopedia digital mencionada anteriormente. Las referencias que se usan en estos artículos están desapareciendo, convirtiéndose en enlaces rotos que ya no respaldan la información, lo que resulta en datos sin sustento.

Ya es hora de salvar nuestra historia. La herramienta Wayback Machine de Internet Archive funciona como una especie de máquina del tiempo para la web. Sus sistemas descargan copias funcionales de sitios web de manera continua y las ponen a disposición del público de forma gratuita.

Internet Archive aspira a un enfoque integral. Debido a los recursos disponibles, resulta imposible recopilar algo que se acerque a la totalidad del Internet, pero su herramienta abarca una amplia red.

Por ende, esta se encarga de recopilar y almacenar de manera instantánea sitios web para la posteridad para así guardar nuestra historia para siempre.

Miremos el lado bueno, recientemente la organización anunció que se asociarían con Google, donde el gigante tecnológico incluirá enlaces recuperados por Wayback Machine en sus resultados de búsqueda.

Hablemos de los puntos de fallo

Nada es perfecto. Aunque Internet Archive se ofreció como voluntario para funcionar como una biblioteca mundial para nuestras vidas digitales, así mismo crecen las amenazas que minan sus esfuerzos.

No es un secreto que el proyecto sigue siendo frágil. Hace poco, cuatro editoriales evidenciaron la vulnerabilidad de esta herramienta, al alegar que emplean la práctica de escanear libros y ofrecerlos digitalmente, lo cual infringe los derechos de autor.

Debido a esto, un tribunal estadounidense dictamino que esto era ilegal en 2023 y la apelación de Internet Archive fue rechazada.

Por otro lado, con esta demanda en su pasado, la organización enfrenta una grave amenaza financiera al recibir una nueva demanda interpuesta por grandes discográficas que los acusan nuevamente de infringir derechos de autor al digitalizar sus discos.

Esto puede resultar en una multa millonaria que podría poner en peligro a la organización sin animo de lucro.

Y para completar, en mayo de 2024, Internet Archive anunció que se encontraba en medio de un peligroso ataque DDoS, que afectaba su sistema de recolección de información al sobrecargar los servidores de las páginas nuevas que iban a ser archivadas.

Por supuesto, este preocupante ataque puede dejar lagunas permanentes en el registro histórico de Wayback Machine.

Contenido relacionado: ¿Qué es un ataque DDoS y cómo uno de estos afectó a ChatGPT?

Responsabilidades compartidas, prioridades divididas

Al no realizar un esfuerzo formal para preservar el Internet, el proyecto queda en manos de aficionados, voluntarios y distintos grupos que operan de forma independiente.

Mar Hicks, historiadora de tecnología de la Universidad de Virginia, estipula que uno de los problemas a los que se enfrenta la organización en la diversidad de prioridades.

Esto significa que a la hora de crear un archivo se debe tener en cuenta que información priorizar y cual no.

Al ser un proceso descentralizado que distintos actores llevan a cabo, existe el riesgo de que se dupliquen esfuerzos y se pierda información valiosa sobre otras áreas.

“Los archiveros dirán que estos problemas existen desde hace mucho tiempo”, dice Hicks. Sin embargo, este proceso se ve afectado por la gran cantidad de información que cada día se produce en el mundo digital.

Sin duda alguna, es necesario que exista cierta prioridad en lo que se salva de las huellas digitales de nuestra generación. De lo contrario, se corre el riesgo de no salvar la historia de la web por el rápido aumento de costos que este proceso implica.

Luego de reconocer todo el proceso que conlleva el salvaguardar nuestra huella en el mundo, ¿consideras que este proyecto cumplirá con el objetivo?

Cuéntanos en los comentarios tu opinión. Mientras tanto, solo nos queda esperar que nos depara el futuro.