Web · Images · Blogs et flux

À propos de Ask.com France

Technologie de recherche Ask

Fonctionnement

L'algorithme ExpertRank du moteur Ask assure la pertinence des résultats de recherche en identifiant les sites les plus fiables et les plus respectés sur le Web. Avec la technologie de recherche Ask, il ne s'agit pas d'être le plus grand : il s'agit d'être le meilleur. Notre algorithme ExpertRank ne s'arrête pas à la popularité des liens (c'est-à-dire au classement des pages en fonction du nombre brut de liens pointant vers une page particulière) pour mesurer la popularité des pages dites expertes sur un sujet de recherche donné. À cet effet, on parle de popularité thématique. L'identification des sujets (également nommés « clusters »), des pages expertes sur ces sujets et de la popularité des millions de pages les plus fiables en la matière – à l'instant précis où vous lancez votre recherche – demande de nombreuses analyses supplémentaires non pratiquées par les autres moteurs de recherche. Résultat : une pertinence inégalée proposant souvent une touche rédactionnelle unique par rapport aux autres moteurs de recherche.

Foire aux questions sur le robot d'indexation Ask

Le moteur Ask est notre robot d'indexation du Web (également appelé araignée, chenille, « crawler » ou « spider ») . À partir des documents qu'il recueille sur le Web, ce robot construit l'index toujours croissant du référentiel utilisé par les fonctions de recherche avancée de Ask et des autres sites Web exploitant la technologie de recherche Ask.

La technologie de recherche Ask se distingue de toutes les autres technologies car elle analyse le Web dans sa configuration réelle – en fonction des communautés consacrées à des sujets spécifiques. Ce processus commence par l'élaboration d'un index exhaustif et des plus fiables. Dans cette perspective, notre outil d'indexation du Web est capital car il permet d'assurer que nos résultats de recherche sont continuellement actualisés.

Vous trouverez sur cette page des réponses aux questions fréquemment posées sur le fonctionnement du robot Ask d'indexation du Web.


Foire aux questions

1. Qu'est-ce qu'un robot d'indexation du Web ?

2. Pourquoi Ask utilise-t-il des robots d'indexation du Web ?

3. Comment fonctionne le robot ?

4. À quelle fréquence le robot Ask va-t-il indexer les pages de mon site ?

5. Puis-je empêcher le moteur de recherche Ask d'afficher une copie de ma page résidant en cache ?

6. Ask observe-t-il la norme d'exclusion des robots ?

7. Puis-je empêcher le robot Ask de référencer certaines parties ou la totalité de mon site ou de mon URL ?

8. Où dois-je placer mon fichier robots.txt ?

9. Comment savoir si le robot Ask a rendu visite à mon site ou mon URL ?

10. Comment puis-je empêcher le robot Ask de référencer ma page ou de suivre certains liens d'une page particulière ?

11. Pourquoi est-ce que le robot Ask télécharge plusieurs fois la même page de mon site ?

12. Pourquoi est-ce que le robot Ask essaie de télécharger des liens incorrects sur mon serveur ? Ou d'un serveur qui n'existe pas ?

13. Comment est-ce que le robot Ask a trouvé mon URL ?

14. Quels types de liens le robot Ask suit-il ?

15. Est-ce que le robot Ask inclut les URL dynamiques ?

16. Pourquoi est-ce que le robot Ask ne s'est pas rendu sur mon URL ?

17. Est-ce que le robot Ask prend en charge la compression HTTP ?

18. Comment puis-je inscrire mon site ou mon adresse URL auprès de Ask pour qu'il soit référencé ?

19. Comment se fait-il que les pages référencées par le robot Ask ne figurent pas dans les résultats de recherche ?

20. Puis-je contrôler la fréquence de passage de l'araignée Ask sur mon site ?

21. Comment authentifier le robot d'indexation Ask ?

22. Ask.com reconnaît-il le protocole sitemaps ?

23. Comment puis-je incorporer la recherche Ask.com à mon site ?

24. Où puis-je obtenir des informations supplémentaires ?


Q : Qu'est-ce qu'un robot d'indexation du Web ?

R : Un robot d'indexation du Web (également appelé araignée, chenille, « crawler » ou « spider ») est un logiciel conçu pour suivre les hyperliens résidant sur un site Web, ainsi que pour récupérer et indexer les pages qui vont permettre de référencer le site lors des recherches ultérieures. Les robots sont inoffensifs et n'endommagent en rien le site ou les serveurs du propriétaire.


Q : Pourquoi Ask utilise-t-il des robots d'indexation du Web ?

R : Ask utilise des robots d'indexation du Web pour recueillir les données brutes et rassembler les informations nécessaires à l'élaboration de notre index de recherche toujours croissant. Le processus d'indexation garantit l'actualité et la pertinence des informations fournies par nos résultats. Nos robots ont été bien conçus, sont professionnellement maintenus et assurent un service précieux en accord avec toutes les normes de l'industrie de la recherche.


Q : Comment fonctionne le robot ?

  • Le robot visite une adresse Web (URL) et télécharge la page HTML.

  • Le robot suit les hyperliens se trouvant sur la page, lesquels sont des URL pointant vers un même site ou d'autres sites.

  • Le robot ajoute les nouvelles URL à sa liste d'adresses URL à visiter. En répétant inlassablement cette procédure, il découvre de nouvelles URL, suit les liens et télécharge les pages correspondantes.

  • Le robot rejette certaines URL s'il estime avoir téléchargé un nombre suffisant d'adresses sur le site Web ou s'il s'avère que l'URL est un double d'une autre URL déjà téléchargée.

  • Les fichiers des URL analysées sont alors compilés dans un catalogue de recherche. Ces adresses URL sont affichées dans les résultats de recherche proposés par l'interface d'affichage du moteur de la technologie Ask, chaque fois qu'une correspondance est établie.

Q : À quelle fréquence le robot Ask va-t-il indexer les pages de mon site ?

R : Le robot ne va télécharger qu'une page de votre site (c'est-à-dire de votre adresse IP) à la fois. Une fois qu'il a reçu une page, il marque une pause d'un certain temps avant de télécharger la page suivante. Ce délai peut aller d'un dixième de seconde à plusieurs heures. Plus vite votre site répond à la requête du robot demandant des pages, plus court est cet intervalle.

Q : Puis-je empêcher le moteur de recherche Ask d'afficher une copie de ma page résidant en cache ?

R : Oui. Nous observons la balise méta « noarchive ». Si vous placez la commande ci-dessous dans le code HTML de votre page, nous ne fournirons pas la copie archivée de votre document à l'utilisateur.
< META NAME = "ROBOTS" CONTENT = "NOARCHIVE" >

Si vous souhaitez que cette restriction ne s'applique qu'au moteur Ask, vous pouvez substituer le terme « teoma » au terme « robots ».

Q : Ask observe-t-il la norme d'exclusion des robots ?

R : Oui, nous observons la norme RES (Robots Exclusion Standard) de 1994, laquelle fait partie du protocole d'exclusion des robots. Le protocole d'exclusion des robots est une instruction par laquelle les administrateurs de sites Web peuvent indiquer aux robots les parties de leur site ne devant pas être visitées par le robot. Pour plus de renseignements sur la norme RES et sur le protocole d'exclusion des robots, veuillez vous rendre à l'adresse http://www.robotstxt.org/wc/exclusion.html.

Q : Puis-je empêcher le robot Ask de référencer certaines parties ou la totalité de mon site ou de mon URL ?

R : Oui. Le robot Ask respecte et observe les commandes lui demandant de ne pas référencer une URL tout entière ou une partie d'URL. Pour préciser que le robot Ask ne rende visite qu'aux pages dont le chemin d'accès commence par /public, ajoutez les lignes suivantes :

# Admission à certains répertoires uniquement
User-agent: Teoma
Disallow: /
Allow: /public


Q : Où dois-je placer mon fichier robots.txt ?

R : Votre fichier doit se trouver au niveau supérieur de votre site Web, par exemple, si www.monsite.fr est le nom de votre site Web, le fichier robots.txt doit se trouver au niveau http://www.monsite.fr/robots.txt.

Q : Comment savoir si le robot Ask a rendu visite à mon site ou mon URL ?

R : Pour déterminer si le robot Ask s'est rendu sur votre site, consultez les fichiers de journalisation de votre serveur. Plus précisément, vous devez rechercher la chaîne de caractères user-agent suivante :

User-Agent: Mozilla/2.0 (compatible; Ask Jeeves/Teoma)


Q : Comment puis-je empêcher le robot Ask de référencer ma page ou de suivre certains liens d'une page particulière ?

R : Si vous placez la commande suivante dans la section <head> de votre page HTML, le robot Ask n'indexera pas votre document ; par conséquent, celui-ci ne figurera pas dans nos résultats de recherche :

< META NAME = "ROBOTS" CONTENT = "NOINDEX" >

Les commandes ci-dessous indiquent au robot Ask d'indexer le document, mais sans en suivre les hyperliens :

< META NAME = "ROBOTS" CONTENT = "NOFOLLOW" >

Vous pouvez désactiver toutes ces directives en utilisant l'instruction ci-dessous :

< META NAME = "ROBOTS" CONTENT = "NONE" >

Voir http://www.robotstxt.org/wc/exclusion.html#meta pour plus de détails.



Q : Pourquoi est-ce que le robot Ask télécharge plusieurs fois la même page de mon site ?

R : En règle générale, le robot Ask ne doit télécharger au cours d'une visite d'indexation qu'un exemplaire de chaque fichier de votre site. Il convient de noter deux exceptions :

  • Une URL peut contenir des commandes de « redirection » du robot vers une autre URL. À cet effet, utiliser la commande HTML suivante :

    < META HTTP-EQUIV="REFRESH" CONTENT="0; URL=http://www.adresse de votre page.html" >

    ou les codes d'état HTTP 301 ou 302. Dans ce cas, le robot télécharge la deuxième page au lieu de la première. Si de nombreuses adresses URL opèrent une redirection vers la même page, il se peut alors que la seconde page soit téléchargée plusieurs fois avant que le robot ne réalise que toutes ces pages sont des doubles.

  • Il arrive qu'une page HTML soit constituée d'un ensemble de cadres appelé « frameset ». Une telle page est constituée de plusieurs pages composées appelées cadres ou « frames ». Quand plusieurs pages composées utilisent la même page de cadre que leurs composantes, il arrive qu'une page composée soit téléchargée plusieurs fois avant que le robot ne réalise que toutes ces composantes sont des doubles.

Q : Pourquoi est-ce que le robot Ask essaie de télécharger des liens incorrects sur mon serveur ? Ou d'un serveur qui n'existe pas ?

R : Il est de la nature même du Web qu'à un moment ou à un autre, nombre de liens seront cassés ou désuets. Chaque fois qu'une page Web contient un lien cassé ou désuet vers votre site, ou vers un site qui n'a jamais existé ou qui n'existe plus, Ask emprunte ce lien afin de trouver la page Web référencée. Dans ce cas, le robot recherche des URL qui n'existent plus ou qui n'ont jamais existé, ou essaie de lancer des requêtes HTTP à des adresses IP qui ne correspondent à aucun serveur du Web. Le robot n'invente pas des adresses au hasard : il se contente de suivre des liens. C'est pour cette raison qu'une machine répond quelquefois à des sollicitations, même sans être un serveur du Web.


Q : Comment est-ce que le robot Ask a trouvé mon URL ?

R : Le robot Ask trouve les pages en suivant les liens (les balises HREF ancrées dans le code HTML) venant d'autres pages. Lorsque le robot rencontre une page contenant des cadres (la page est un ensemble de cadres), il les télécharge et considère que leur contenu fait partie de la page originale. Le robot Ask n'indexe pas les cadres composants en tant qu'URL propres, sauf s'ils sont référencés par des HREF venant d'autres pages.

Q : Quels types de liens le robot Ask suit-il ?

R : Le robot Ask suit les liens HREF, les liens SRC et les redirections.


Q : Est-ce que le robot Ask inclut les URL dynamiques ?

R. Nous incorporons un nombre limité d'URL dynamiques à notre index. Toutefois, un filtre de détection des doubles est activé avant le téléchargement.

Q : Pourquoi est-ce que le robot Ask ne s'est pas rendu sur mon URL ?

R : Si le robot Ask ne s'est pas rendu sur votre URL, c'est parce que nous n'avons pas trouvé de lien vers cette URL à partir d'autres pages (URL) visitées.

Q : Est-ce que le robot Ask prend en charge la compression HTTP ?

R : Absolument. Pour que la fonction de compression fonctionne, le client et le serveur HTTP doivent tous les deux la prendre en charge. Dans ce cas, les webmestres peuvent envoyer des documents comprimés (dans des formats gzip ou autres) au lieu des documents originaux. Cela représente une nette économie de la bande passante, autant au niveau du serveur que du client. Il en résulte une petite charge supplémentaire de l'UC pour les besoins de l'encodage/décodage, autant au niveau du serveur que du client, mais cela en vaut la peine. Grâce à une méthode de compression connue telle que gzip, la taille des fichiers peut être facilement réduite à 75 % environ.

Q : Comment puis-je inscrire mon site ou mon adresse URL auprès de Ask pour qu'il soit référencé ?

R : Nous vous remercions de l’intérêt que vous portez au système de référencement du moteur de recherche Ask France. La meilleure solution est de suivre le protocole ouvert « Sitemaps » reconnu par Ask.com. Une fois que vous avez préparé le plan sitemap de votre site, ajoutez la directive de soumission automatique au fichier robots.txt, ou soumettez votre fichier sitemap par l’URL de commande ping. (Pour plus de détails, veuillez consulter la section ci-dessous « Ask.com reconnaît-il le protocole sitemaps ? ») Veuillez noter qu’une soumission du fichier sitemap ne garantit en rien le référencement des URL.

Construisez votre site et configurez votre serveur Web de manière à mieux tirer parti de la façon dont les moteurs de recherche analysent le contenu de votre site et de la façon dont ils référencent les pages et interprètent les différents mots-clés déclencheurs. Il existe des ressources en ligne qui fournissent des conseils et des informations utiles sur la façon de procéder.

Q : Comment se fait-il que les pages référencées par le robot Ask ne figurent pas dans les résultats de recherche ?

R : Si vos pages ne sont pas référencées dans nos résultats de recherche, ne vous inquiétez pas. Comme nous sommes très attentifs à la qualité de notre index, il nous faut un certain temps pour analyser les résultats de l'indexation et traiter les résultats à incorporer dans notre base de données. Ask n'inclut pas nécessairement tous les sites visités dans son index.

Q : Puis-je contrôler la fréquence de passage de l'araignée Ask sur mon site ?

R : Oui. Nous observons la directive d'attente « Crawl-Delay » du fichier robots.txt. À l'aide de cette directive, vous pouvez préciser le délai minimum entre deux passages successifs de notre araignée sur votre site.

Q : Comment authentifier le robot d'indexation Ask ?

R : Un identifiant User-Agent ne constitue pas une garantie d'authenticité et certains utilisateurs malveillants arrivent couramment à imiter les propriétés du robot Ask. Pour authentifier correctement le robot d'indexation Ask, il faut effectuer un aller-retour DNS. Ceci consiste à prendre l'adresse IP du robot Ask et à établir une consultation DNS inverse pour s'assurer que l'adresse IP appartient effectivement au domaine ask.com. Il faut ensuite opérer une consultation DNS avec le nom d'hôte pour vérifier que l'adresse IP obtenue correspond bien à l'originale.

Q : Ask.com reconnaît-il le protocole sitemaps ?

R : Oui, Ask.com reconnaît le protocole ouvert « Sitemaps ». Une fois que vous avez préparé le protocole sitemap, ajoutez la directive de soumission automatique au fichier robots.txt de la façon suivante :

SITEMAP: http://www.l'URL-de-votre-fichier-sitemap.xml

L’emplacement du fichier sitemap doit faire mention de l’URL complète. Sinon, vous pouvez aussi soumettre votre fichier sitemap par l’URL de commande ping :

http://submissions.ask.com/ping?sitemap=http%3A//www.l'URL-de-votre-fichier-sitemap.xml

Veuillez noter qu’une soumission du fichier sitemap ne garantit en rien le référencement des URL. Pour en savoir davantage sur ce protocole, veuillez vous rendre sur le site web Sitemaps à l’adresse http://www.sitemaps.org/fr.

Q : Comment puis-je incorporer la recherche Ask.com à mon site ?

R : Il est très facile d'ajouter l'outil de recherche Ask.com à votre site : il vous suffit de cliquer ici afin de produire le code nécessaire.

Quel codage de caractères dois-je utiliser ?

Ask.com présume que vos termes de recherche nous sont envoyés au format UTF-8. Si ce n’est pas le cas, vous pouvez spécifier le codage utilisé par votre site dans la valeur du champ caché « qenc ». Veuillez consulter ci-dessous la liste des codages de caractères pris en charge.

Il est important que vous nous indiquiez le codage utilisé afin que nous puissions interpréter correctement les requêtes. Ceci est particulièrement vrai lorsqu'un utilisateur saisit une lettre accentuée ou un jeu de caractères qui ne sont pas latins. Si vous ne spécifiez pas le bon codage, l'utilisateur constatera alors l’absence de caractères ou peut-être même l'apparition de caractères tout à fait erronés dans ses termes de recherche (habituellement des points d'interrogation). Dans les deux cas, il en résultera une mauvaise expérience de recherche pour votre utilisateur.

Les codages de caractères suivants sont actuellement supportés par le paramètre « qenc »  :

  • utf-8
  • iso-8859-1
  • shift_jis
  • euc-jp

Comment puis-je déterminer le codage utilisé dans mon site Web ?

Le codage employé dans votre site est très probablement indiqué dans une balise méta que vous retrouverez dans le code source. Affichez le code source de la page dans laquelle vous aimeriez ajouter une boîte de recherche Ask.com et cherchez le texte semblable à celui-ci : <meta http-equiv="content-type" content="text/html; charset=ISO-8859-1">. Le paramètre « charset » indique le codage de caractères utilisé dans votre site. Dans cet exemple, il révèle que la page est codée en ISO-8859-1 (ou Latin-1). Il faudrait donc mettre à jour cet exemple de code HTML en indiquant « iso-8859-1 » dans la valeur du champ caché « qenc ».

Que faire si le codage de ma page n'apparaît pas dans la liste des codages pris en charge ?

Si votre site Web utilise un codage qui n'est pas mentionné ci-dessus et que vous souhaitez toujours incorporer une boîte de recherche Ask.com à votre page, veuillez contacter notre service clientèle et lui fournir les informations suivantes :

  • L’adresse URL de la page dans laquelle vous aimeriez ajouter la boîte de recherche Ask.com
  • Le codage que vous aimeriez voir pris en charge par Ask.com

Nous ferons de notre mieux afin d'assurer la compatibilité du codage demandé et nous vous aviserons lorsque tout sera en place afin d’accueillir le trafic provenant de votre site.


Q : Où puis-je obtenir des informations supplémentaires ?

R : Veuillez contacter notre service clientèle.

Veuillez noter cependant que nous ne sommes pas en mesure d'accuser réception de vos messages concernant les mises à jour de votre site ou URL ni de respecter vos demandes d'indexation.

© 2009 Ask.com