Archivo de la Web Española: Comunidad Autónoma de Castilla y León

La recolección de páginas web es la principal forma de llevar a cabo el depósito legal de las publicaciones en línea. Se lleva a cabo con robots rastreadores que van recorriendo las URL seleccionadas previamente y guardando todo lo que tienen enlazado con la frecuencia, profundidad y tamaño que se determine. El resultado de estas recolecciones web son los archivos web.

A día de hoy es imposible aspirar a la exhaustividad en el archivado web, por lo que en la Biblioteca Nacional de España se ha optado por un modelo mixto que combina recolecciones masivas y selectivas:

  1. Las recolecciones masivas recogen el mayor número de dominios posible con una profundidad pequeña en los niveles de navegación y están vinculadas al dominio .es. Se hacen una vez al año.
  2. Las recolecciones selectivas se hacen para completar las recolecciones masivas, ya que recogen con mayor profundidad y frecuencia una muestra más pequeña de sitios web seleccionados por su relevancia para la historia, la sociedad y la cultura. Se realizan varias veces al año en colaboración con los centros de conservación de las comunidades autónomas y de otras instituciones especializadas. Estas recolecciones selectivas pueden ser de tres tipos:
    2.1. Temáticas: Cada Departamento de la Biblioteca Nacional y cada comunidad autónoma mantiene sus colecciones temáticas con los recursos en línea que consideren necesario conservar como parte del depósito legal. Por ejemplo: Música y Audiovisuales, Revistas electrónicas andaluzas, Instituciones de la Comunidad Valenciana, etc.
    2.2. De evento: sobre acontecimientos de especial relevancia.
    2.3. De emergencia, en el caso de sitios web en peligro de extinción.

Campos de los archivos descargables:

  • Título del sitio web

  • Semilla: es la URL que proporcionamos como punto de partida para la recolección. Puede representar la página principal de un sitio (home), una sección de un sitio o un documento con otros formatos contenido en una página web.

  • URL adicionales: podemos añadir URL adicionales para mejorar la cobertura o calidad del rastreo (por ejemplo el mapa del sitio web, una sección importante, etc.).

  • Estado: pondremos “Activo” si queremos recolectar el sitio web o “Inactivo” si queremos dejar de recolectarlo, por ejemplo en el caso de que el sitio web haya dejado de existir.

  • Frecuencia: es la periodicidad con la que queremos recolectar el sitio web. Las frecuencias pueden ser Diaria, Mensual, Quincenal y Única (si sólo se quiere recolectar una vez).

  • Profundidad: es el nivel de profundidad con el que queremos recolectar el sitio web, es decir cuánto va a descender el robot siguiendo los enlaces que contiene la URL que le damos como semilla. La profundidad puede ser:
    Inicio: Recolecta sólo la URL que se da como semilla.
    Inicio y 1 nivel: Recolecta la URL que se da como semilla más un nivel de profundidad.
    Inicio y 2 niveles: Recolecta la URL que se da como semilla más dos niveles de profundidad.
    Dominio: Recolecta todas las URL que contienen el dominio propuesto. Por ejemplo, desde la semilla www.bne.es, recolecta todas las URL que contengan “bne.es”.
    Host: Recolecta todas las URL que contienen el host propuesto. Por ejemplo, desde la semilla www.bne.es, recolecta todas las URL que tengan www.bne.es.
    Ruta: recolecta sólo las URL a partir de la ruta que le damos, no retrocede a URL en directorios anteriores.

  • Tamaño:
    Pequeño: para recolectar sitios web de hasta 10.000 URL.
    Mediano: para recolectar sitios web de hasta 50.000 URL.
    Grande: para recolectar sitios web de hasta 100.000 URL.

  • Palabras clave: describen con mayor precisión el contenido del recurso a recolectar y permiten la creación de subcolecciones dentro de una colección. Se asignan entre 1 y 5 palabras por registro, separadas por /

  • Materia: Las materias de cada colección nos permiten distinguir las distintas subcolecciones que tengan las CCAA. Se asigna una CDU abreviada y su literal.

Data and Resources

Additional Info

Field Value
Source http://www.bne.es/es/Colecciones/ArchivoWeb/
Author Biblioteca Nacional de España
Maintainer Bnelab
Last Updated October 10, 2018, 12:23 (UTC)
Created October 10, 2018, 11:55 (UTC)
comments powered by Disqus
comments powered by Disqus