Balayage de site

Balayeur de sites:  Télécharger toutes les pages web d'un domaine donné ou d'une URL de base.

Démarrer un balayage de site
URL de départ (doit commencer par
http:// https:// ftp:// smb:// file://)

empty
Lien vers une liste d'URLs
URL d'un plan de site

charger tous les fichiers du domaine
charger uniquement les fichiers contenu dans un sous-chemin de l'URL donnée
pas plus de documents

Indications

  • Limite de vitesse du balayage

    Afin de limiter la charge sur le serveur ciblé, pas plus de 2 pages ne sont chargées par seconde depuis le même hôte (pas plus de 120 documents par minute).
  • Répartisseur de charge

    Un second balayage sur un hôte différent augmente le débit jusqu'à un maximum de 240 documents par minute, puisque le balayeur équilibre la charge entre tous les hôtes.
  • Balayage à haute vitesse

    Un "balayage superficiel" non limité à un seul hôte (ou site) peut augmenter le nombre de pages par minutes (ppm) jusqu'à récolter un nombre illimité de documents par minute lorsque le nombre d'hôtes ciblés est élevé. Cela peut être effectué au moyen de cette servlet: démarrer un balayage expert.
  • Commande du planificateur

    Le planificateur de balayage peut être modifié ou supprimé au moyen de la commande de l'API.