Las páginas web como objeto de tratamiento archivístico | ¿Cómo lo hacéis?

Samuel-Admin · 2 Julio, 2018 11:56

El otro día estuve utilizando Wayback Machine, la herramienta disponible de Internet Archive (archive.org) que guarda copias de las páginas web (bueno, no son copias completas, sino que guarda el código html, así que las imágenes, css y js no se cargan si se ha modificado su ubicación). Lleva guardando copias desde 1996 y la herramienta está disponible desde 2001.

Ofrece una navegación temporal dando la opción de visualizar la página tal como era en el momento en que se creó la copia (snapshot). Os dejo el ejemplo de la evolución de la web del Ministerio de Educación y Cultura:

20 de junio 1997
https://web.archive.org/web/19970620072120/http://www.mec.es:80/educ.html
21 de abril de 1999
https://web.archive.org/web/19990421161553/http://www.mec.es:80/
5 de junio de 2001
https://web.archive.org/web/20010605212324/http://www.mec.es:80/
31 de agosto de 2004
https://web.archive.org/web/20040831234353/http://wwwn.mec.es:80/index.html
5 de enero de 2006
https://web.archive.org/web/20060105030656/http://www.mec.es:80/

En torno a esto, me surgen las siguientes preguntas y dudas ante la tarea de tratar archivísticamente las páginas web:

PREGUNTAS

Pregunta 1:
¿Alguien en su organización está archivando las versiones anteriores de la web?

Pregunta 2
¿Alguien lo está haciendo y es capaz de visualizarlas correctamente? Estoy pensando un entorno local (wamp, xamp ) para servir esas webs.

Pregunta 3
¿Alguien las ofrece a los usuarios como “material” consultable?

DUDAS SOBRE TRATAMIENTO ARCHIVÍSTICO

Duda1
¿Son documentos de archivo?
Las páginas web son dinámicas y su contenido cambiante. Si nos referimos exclusivamente al contenido público (intranets aparte, o gestiones que requieran usuarios registrados y autentificaciones), son documentos en formato electrónico que no incorporan elementos de validación como firmas o sellos. Si bien se supone que únicamente la entidad tiene la capacidad de editar el contenido, cualquier usuario puede descargar una copia completa de las páginas desde su navegador, editarla en su equipo y reutilizarla en otro dominio web.

Luego es el dominio web donde se aloja el que le da oficialidad al contenido. Los datos del registrante suelen ser públicos (datos del Whois, y datos publicados en nic.es para dominios.es). Los certificados SSL de Validación extendida (EV) (candado verde + nombre entidad) también respaldan la autoría del contenido.

Duda 2
En el caso de considerarlas documento de archivo, ¿cómo las tratarías?, ¿Tablón de anuncios?

Duda 3
En el caso de considerarlas documento de archivo ¿Que campos de descripción utilizaríais?

Esperando vuestras respuestas,

Samuel

guillearch · 3 Julio, 2018 07:12

El año pasado estuve trabajando en el archivo del sitio web antiguo de Greenpeace España, que cerró en noviembre de 2017. Después de valorar varias opciones, decidimos hacerlo con Archive-It, un servicio de archivo web en la nube mantenido por Internet Archive y basado en Heritrix y Wayback Machine.

Nuestras necesidades eran:

Incluir todo el contenido de las páginas, tanto el texto y la estructura (HTML), como los estilos (CSS), todas las imágenes y los ficheros JavaScript.
Incluir todos los PDF cargados en el sitio y enlaces para descargar estos PDF.
Mantener la estructura del sitio original.
Mostrar un cartel en la parte superior de la página advirtiendo al usuario de que está navegando en una web archivada.
Permitir búsquedas por texto libre.
Verificar la integridad de la captura.

Elegimos Archive-It porque, además de cumplir estos requisitos, ofrece las siguientes ventajas:

Almacenamiento perpetuo.
Basado en software libre y en el estándar internacional WARC.

Este archivo web conserva a largo plazo una copia prácticamente exacta del sitio original. Lo único que no se ha conseguido mantener al 100% es el comportamiento del código JavaScript.

Aunque Archive-It ofrece la posibilidad de crear colecciones de URL y describirlas con metadatos, necesitábamos una herramienta más potente para describir los documentos en PDF que estaban en la web (informes, comunicados de prensa, folletos, etc.), por lo que hemos duplicado estos documentos y los estamos describiendo en OpenProdoc, que nos permite definir tipos documentales, parametrizar puntos de consulta, etc.

Samuel-Admin · 5 Julio, 2018 19:41

Interesante la opción de Archive-It, sobre todo por el tema verificar la integridad de la captura y despreocuparse del almacenamiento. Veo que la función de búsqueda de la web archivada se hace desde una pestaña en la portada de nuestra seccion dentro de Archive-It.
https://archive-it.org/organizations/1301

Una opción alternativa que veo es utilizar un crawler (copiador de páginas web) para obtener todo el contenido en ficheros .html y sus carpetas de imágenes,ccs js, etc… Hoy en día existen algunos que funcionan realmente bien, y permiten tener una copia de la web visualmente idéntica (aunque siempre hay que realizar algunos retoques claro…).

Contras

Al no tener base de datos estamos renunciando al funcionamiento de las funciones de búsqueda, login de usuarios, formularios, etc… y al acceso a la zona de administración, si es que existía.
Tenemos que alojarla en nuestro hosting y acordarnos de que está allí si cambiamos de servidor.

Pros

Tenemos una copia que permite navegar por todas la páginas de la web original.
Esto es muy útil cuando se trata de mantener páginas estáticas, o cuando queremos liberarnos de mantener nuestro gestor de contenidos (wordpress, joomla,drupal,opencms, etc…).
Una web completa puede ocupar muy poco espacio.
Podemos modificar los contenidos al tener acceso a los ficheros.
Te despreocupas de actualizaciones de los gestores de contenido.
Podríamos albergar las copias de diferentes versiones de la web en subdominios (web1999 . midominio . com), restringir su indexado por los buscadores para que no aparezca en los resultados generando ruido, y ofrecer acceso mediante un enlace.
Además de estar online, podemos consultarla una cualquier navegador sin acceso a internet (puesto de consulta).

@guillearch , seguro que esta opción la valoraríais en el caso de Greenpeace. Después de la experiencia con Archive-It, ¿harías un enfoque diferente?

Saludos,

guillearch · 24 Septiembre, 2018 14:50

En paralelo al proyecto que hicimos con Archive-It, su Departamento de Comunicación decidió probar también un enfoque similar al que comentas en tu último mensaje. Como resultado de ello, su antigua web también se encuentra disponible en el subdominio archivo-es.greenpeace.org.

La mayor ventaja que le veo a este modelo con respecto a Archive-It y las herramientas en las que se basa (Heritrix y Wayback Machine) es que te permite seguir dirigiendo a tu dominio el posicionamiento que hubieras logrado con la web antigua. Sus mayores desventajas son que no garantiza el almacenamiento perpetuo de la web antigua y que no permite recuperar la información en base a metadatos, versiones, etc.

Habría que evaluar también los costes. Para una web pequeña, esta opción puede resultar más económica; para una web grande, no lo tengo tan claro.

En general, las instituciones memorísticas se están decantando por un modelo similar al de Internet Archive, pero utilizar un crawler y guardar una copia de la web en un subdominio puede ser una alternativa, sobre todo si queremos beneficiarnos del tráfico que generaban los posts/artículos de la web antigua.