• 2024-06-30

Définition de Web Spidering et Web Crawlers

В КОГО ВЛЮБИЛАСЬ ЛИЗА?))

В КОГО ВЛЮБИЛАСЬ ЛИЗА?))

Table des matières:

Anonim

Les araignées sont des programmes (ou des scripts automatisés) qui «parcourent» le Web à la recherche de données. Les araignées parcourent les URL de sites Web et peuvent extraire des données de pages Web telles que des adresses électroniques. Les araignées sont également utilisées pour alimenter les moteurs de recherche avec les informations trouvées sur les sites Web.

Les araignées, également appelées "robots Web", effectuent des recherches sur le Web et leurs intentions ne sont pas toutes amicales.

Spammers Spider Sites Web pour collecter des informations

Google, Yahoo! et les autres moteurs de recherche ne sont pas les seuls intéressés par l'exploration de sites Web - il en va de même pour les fraudeurs et les spammeurs.

Les spammeurs utilisent des spiders et d’autres outils automatisés pour rechercher des adresses électroniques (sur Internet, cette pratique est souvent appelée «collecte») sur des sites Web, puis les utiliser pour créer des listes de courrier indésirable.

Les araignées sont également un outil utilisé par les moteurs de recherche pour obtenir plus d'informations sur votre site Web, mais si elles ne sont pas cochées, un site Web sans instructions (ou «autorisations») sur la façon d'explorer votre site peut présenter des risques majeurs pour la sécurité des informations. Les araignées voyagent en suivant des liens et elles sont très habiles pour trouver des liens vers des bases de données, des fichiers de programme et d'autres informations auxquelles vous ne souhaitez peut-être pas qu'ils aient accès.

Les webmasters peuvent consulter les journaux pour voir quels spiders et autres robots ont visité leurs sites. Ces informations aident les webmasters à savoir qui indexe leur site et à quelle fréquence.

Ces informations sont utiles car elles permettent aux webmasters d’affiner leur référencement et de mettre à jour les fichiers robot.txt afin d’empêcher certains robots d’analyser leur site à l’avenir.

Conseils sur la protection de votre site Web contre les robots robots indésirables

Il existe un moyen assez simple de protéger votre site Web des robots d'exploration non désirés. Même si vous ne craignez pas que des araignées malveillantes explorent votre site (une adresse e-mail obscurcissante ne vous protégera pas de la plupart des robots d'exploration), vous devez toujours fournir aux moteurs de recherche des instructions importantes.

Tous les sites Web doivent avoir un fichier situé dans le répertoire racine appelé fichier robots.txt. Ce fichier vous permet d'indiquer aux moteurs de balayage Web où vous voulez qu'ils cherchent à indexer des pages (sauf indication contraire dans les métadonnées d'une page spécifique non indexées) s'ils sont un moteur de recherche.

Tout comme vous pouvez indiquer aux crawlers recherchés où vous souhaitez les voir, vous pouvez également leur indiquer où ils ne peuvent pas aller et même bloquer des crawlers spécifiques de l'ensemble de votre site Web.

Il est important de garder à l'esprit qu'un fichier robots.txt bien constitué aura une grande valeur pour les moteurs de recherche et pourrait même être un élément clé de l'amélioration des performances de votre site Web, mais certains robots d'exploration de logiciels ignorent toujours vos instructions. Pour cette raison, il est important de garder tous vos logiciels, plug-ins et applications à jour en tout temps.

Articles et informations connexes

En raison de la prévalence de la collecte d'informations utilisée à des fins néfastes (spam), une législation a été adoptée en 2003 pour interdire certaines pratiques. Ces lois sur la protection des consommateurs relèvent de la loi CAN-SPAM de 2003.

Il est important que vous preniez le temps de vous informer sur la loi CAN-SPAM si votre entreprise s’engage dans des envois en masse ou dans la collecte d’informations.

Pour en savoir plus sur les lois antispam, sur la manière de traiter les spammeurs et sur ce que vous ne pouvez pas faire en tant que propriétaire d'entreprise, consultez les articles suivants:

  • Loi CAN-SPAM de 2003
  • Loi CAN-SPAM Règles pour les organisations à but non lucratif
  • 5 Règles CAN-SPAM Les propriétaires de petites entreprises doivent comprendre

Articles intéressants

Le programme de stages Hewlett-Packard

Le programme de stages Hewlett-Packard

HP propose d'excellents stages et programmes coop pour les étudiants intéressés par l'ingénierie électrique, mécanique et industrielle.

Marché du travail caché

Marché du travail caché

La majorité des offres d'emploi ne sont pas publiées. Au lieu de cela, ils sont comblés par le réseautage, les relations personnelles et d'autres moyens informels. Quels sont les facteurs qui déterminent cette approche de l’embauche et comment pouvez-vous pénétrer ce marché dit du travail caché? Lisez la suite pour plus de détails.

Emplois juridiques les mieux rémunérés

Emplois juridiques les mieux rémunérés

Êtes-vous intéressé par un travail juridique bien rémunéré? Voici les professions les mieux rémunérées et ce qu'elles font.

Emplois gouvernementaux les plus rémunérateurs à la demande

Emplois gouvernementaux les plus rémunérateurs à la demande

Passez en revue les emplois du gouvernement les mieux rémunérés avec de bonnes perspectives d’emploi, des informations détaillées sur les échelles de rémunération et les taux de rémunération fédéraux et sur ce dont vous avez besoin pour être embauché.

Emplois les mieux rémunérés pour les diplômés tout droit sortie du collège

Emplois les mieux rémunérés pour les diplômés tout droit sortie du collège

Les emplois les mieux rémunérés pour les diplômés du collégial titulaires d’un baccalauréat, de responsabilités professionnelles, de la croissance projetée des possibilités d’emploi et du revenu médian.

Les emplois juridiques les mieux rémunérés

Les emplois juridiques les mieux rémunérés

Connaissez l'échelle salariale actuelle pour les emplois légaux les mieux rémunérés afin de disposer de toutes les informations nécessaires pour prendre la bonne décision.