User Tools

Site Tools


hack:testing:spiders_robots_and_crawlers

testing_guide

= Résumé #=

Cette section décrit comment tester le fichier robots.txt.

= Description #=

Les spiders/robots/crawlers sont des outils web permettant de récupérer une page Web, puis récursivement parcourir les hyperliens pour récupérer du contenu des pages web suivantes. Le protocole d'exclusion des robots du fichier robots.txt dans le répertoire racine du site Web 1) permet de gérer ces comportements.

A titre d'exemple, une partie du fichier robots.txt du site http://www.google.com/robots.txt prise le 24 Août 2008 est citée ci-dessous:

User-agent: *
Allow: [/searchhistory/]
Disallow: /news?output=xhtml&
Allow: /news?output=xhtml
Disallow: /search
Disallow: /groups
Disallow: /images
...

La directive User-Agent se réfère au spider/robot/crawler spécifique. Par exemple, le User-Agent: Googlebot se réfère au crawler GoogleBot alors que User-Agent: * dans l'exemple ci-dessus s'applique à toutes les spider/robot/crawler 2):

User-agent: *

La directive Disallow spécifie quelles ressources sont interdites aux spider/robot/crawler. Dans l'exemple ci-dessus, les répertoires suivants sont interdits:

... 
Disallow: /search
Disallow: /groups
Disallow: /images
...

Spider/robot/crawler peuvent volontairement ignorer les directives Disallow spécifiées dans un fichier robots.txt 3). Par conséquent, robots.txt ne doit pas être considéré comme un mécanisme pour appliquer des restrictions sur la façon dont le contenu Web est accessible, stockées, ou republiés par des tiers.

= Test boîte noire #=

Récupérer le fichier avec wget

Le fichier robots.txt est récupéré à partir du répertoire racine web du serveur web.

Par exemple, pour récupérer le fichier robots.txt de www.google.com en utilisant wget:

$ wget http://www.google.com/robots.txt
--23:59:24-- http://www.google.com/robots.txt
          => 'robots.txt'
Resolving www.google.com... 74.125.19.103, 74.125.19.104, 74.125.19.147, ...
Connecting to www.google.com|74.125.19.103|:80... connected.
HTTP request sent, awaiting response... 200 OK
Length: unspecified [text/plain]
   [ <=>                                 ] 3,425        --.--K/s
23:59:26 (13.67MB/s) - 'robots.txt' saved [3425]

Analyser le fichier robots.txt en utilisant Google Webmaster Tools

Google fournit une fonction “Analyze robots.txt” dans ses “Google Webmaster Tools”, qui peuvent aider à l'analyse 4). Pour cela la procédure est la suivante:

  • Connectez-vous à Google Webmaster Tools avec votre compte Google.
  • Sur le tableau de bord, cliquez sur l'URL du site que vous souhaitez.
  • Cliquez sur Outils, puis cliquez sur Analyser le fichier robots.txt.

= Test boîte grise #=

Le processus est le même que les tests boîte noire ci-dessus.

= Références #=

Livres blancs

<references/>

1)
“The Web Robots Pages” - http://www.robotstxt.org/
3)
“(ISC)2 Blog: The Attack of the Spiders from the Clouds” - http://blog.isc2.org/isc2_blog/2008/07/the-attack-of-t.html
hack/testing/spiders_robots_and_crawlers.txt · Last modified: 2019/03/12 07:29 by 127.0.0.1