Définition de Web Spidering et Web Crawlers
В КОГО ВЛЮБИЛАСЬ ЛИЗА?))
Table des matières:
- Spammers Spider Sites Web pour collecter des informations
- Conseils sur la protection de votre site Web contre les robots robots indésirables
- Articles et informations connexes
Les araignées sont des programmes (ou des scripts automatisés) qui «parcourent» le Web à la recherche de données. Les araignées parcourent les URL de sites Web et peuvent extraire des données de pages Web telles que des adresses électroniques. Les araignées sont également utilisées pour alimenter les moteurs de recherche avec les informations trouvées sur les sites Web.
Les araignées, également appelées "robots Web", effectuent des recherches sur le Web et leurs intentions ne sont pas toutes amicales.
Spammers Spider Sites Web pour collecter des informations
Google, Yahoo! et les autres moteurs de recherche ne sont pas les seuls intéressés par l'exploration de sites Web - il en va de même pour les fraudeurs et les spammeurs.
Les spammeurs utilisent des spiders et d’autres outils automatisés pour rechercher des adresses électroniques (sur Internet, cette pratique est souvent appelée «collecte») sur des sites Web, puis les utiliser pour créer des listes de courrier indésirable.
Les araignées sont également un outil utilisé par les moteurs de recherche pour obtenir plus d'informations sur votre site Web, mais si elles ne sont pas cochées, un site Web sans instructions (ou «autorisations») sur la façon d'explorer votre site peut présenter des risques majeurs pour la sécurité des informations. Les araignées voyagent en suivant des liens et elles sont très habiles pour trouver des liens vers des bases de données, des fichiers de programme et d'autres informations auxquelles vous ne souhaitez peut-être pas qu'ils aient accès.
Les webmasters peuvent consulter les journaux pour voir quels spiders et autres robots ont visité leurs sites. Ces informations aident les webmasters à savoir qui indexe leur site et à quelle fréquence.
Ces informations sont utiles car elles permettent aux webmasters d’affiner leur référencement et de mettre à jour les fichiers robot.txt afin d’empêcher certains robots d’analyser leur site à l’avenir.
Conseils sur la protection de votre site Web contre les robots robots indésirables
Il existe un moyen assez simple de protéger votre site Web des robots d'exploration non désirés. Même si vous ne craignez pas que des araignées malveillantes explorent votre site (une adresse e-mail obscurcissante ne vous protégera pas de la plupart des robots d'exploration), vous devez toujours fournir aux moteurs de recherche des instructions importantes.
Tous les sites Web doivent avoir un fichier situé dans le répertoire racine appelé fichier robots.txt. Ce fichier vous permet d'indiquer aux moteurs de balayage Web où vous voulez qu'ils cherchent à indexer des pages (sauf indication contraire dans les métadonnées d'une page spécifique non indexées) s'ils sont un moteur de recherche.
Tout comme vous pouvez indiquer aux crawlers recherchés où vous souhaitez les voir, vous pouvez également leur indiquer où ils ne peuvent pas aller et même bloquer des crawlers spécifiques de l'ensemble de votre site Web.
Il est important de garder à l'esprit qu'un fichier robots.txt bien constitué aura une grande valeur pour les moteurs de recherche et pourrait même être un élément clé de l'amélioration des performances de votre site Web, mais certains robots d'exploration de logiciels ignorent toujours vos instructions. Pour cette raison, il est important de garder tous vos logiciels, plug-ins et applications à jour en tout temps.
Articles et informations connexes
En raison de la prévalence de la collecte d'informations utilisée à des fins néfastes (spam), une législation a été adoptée en 2003 pour interdire certaines pratiques. Ces lois sur la protection des consommateurs relèvent de la loi CAN-SPAM de 2003.
Il est important que vous preniez le temps de vous informer sur la loi CAN-SPAM si votre entreprise s’engage dans des envois en masse ou dans la collecte d’informations.
Pour en savoir plus sur les lois antispam, sur la manière de traiter les spammeurs et sur ce que vous ne pouvez pas faire en tant que propriétaire d'entreprise, consultez les articles suivants:
- Loi CAN-SPAM de 2003
- Loi CAN-SPAM Règles pour les organisations à but non lucratif
- 5 Règles CAN-SPAM Les propriétaires de petites entreprises doivent comprendre
Définition d'un roman épistolaire dans l'écriture créative
Trouvez la définition du terme littéraire
Général de l'armée - Grade et définition
Un général de l'armée, ou général deux étoiles, se classe au-dessous des lieutenants généraux mais au-dessus des brigadiers généraux, ce qui le place au troisième rang des positions.
Définition et utilisation des données démographiques dans la publicité
Que sont les données démographiques, comment sont-elles utilisées et comment peuvent-elles avoir un impact (positif ou négatif) sur votre campagne publicitaire?