Les bots IA à connaître
Chaque famille de moteur dispose d'un ou plusieurs User-Agents. Certains servent au crawl d'entraînement, d'autres au crawl en temps réel pour la recherche.
| User-Agent | Éditeur | Usage principal |
|---|---|---|
GPTBot | OpenAI | Crawl pour entraînement et amélioration des produits. |
OAI-SearchBot | OpenAI | Crawl pour ChatGPT Search. |
ChatGPT-User | OpenAI | Fetch au moment de la requête utilisateur. |
PerplexityBot | Perplexity | Index principal de Perplexity. |
Perplexity-User | Perplexity | Fetch déclenché par l'utilisateur. |
ClaudeBot / anthropic-ai / Claude-Web | Anthropic | Crawl pour entraînement et recherche Claude. |
Google-Extended | Directive robots pour l'entraînement Gemini / Vertex (distincte de Googlebot). | |
Applebot-Extended | Apple | Directive pour l'entraînement Apple Intelligence. |
Bytespider | ByteDance | Crawl agressif, souvent bloqué par défaut. |
CCBot | Common Crawl | Corpus utilisé par de nombreux modèles open source. |
meta-externalagent | Meta | Crawl pour entraînement Meta AI. |
cohere-ai | Cohere | Crawl pour entraînement Cohere. |
robots.txt — la bonne configuration par défaut
Une configuration neutre, orientée visibilité, laisse passer tous les bots IA majeurs. C'est le choix retenu par llmoptimisation.fr — documenté et assumé.
User-agent: *
Allow: /
User-agent: GPTBot
Allow: /
User-agent: OAI-SearchBot
Allow: /
User-agent: PerplexityBot
Allow: /
User-agent: ClaudeBot
Allow: /
User-agent: Google-Extended
Allow: /
Sitemap: https://votresite.fr/sitemap-index.xml Bloquer ou laisser passer : un arbitrage business
Trois postures cohérentes, selon votre modèle :
| Profil | Posture recommandée | Raison |
|---|---|---|
| Marketing / SaaS / service B2B | Laisser passer tous les bots IA majeurs | Maximiser la visibilité et la citation. |
| E-commerce | Laisser passer, mais protéger les données produit sensibles (prix dynamique, stock) | Les pages produit ont un intérêt marketing pour l'IA ; les flux temps réel ne devraient pas être crawlés. |
| Média sous paywall ou modèle payant | Bloquer ou accord commercial | Préserver la valeur du contenu. OpenAI, Google et Perplexity signent des licences avec les éditeurs majeurs. |
| Contenu premium non indexable | Bloquer explicitement | Cohérence éditoriale et légale. |
Rendering et crawl : le piège du JS
Les moteurs IA n'exécutent pas tous le JavaScript. Perplexity, ChatGPT Search et beaucoup de crawlers se contentent du HTML statique ou d'un rendu rapide. Les sites qui rendent leur contenu côté client (SPA React/Vue non SSR) peuvent être partiellement ou totalement invisibles pour l'IA.
- Privilégiez le SSR (Server-Side Rendering) ou le SSG (Static Site Generation).
- Pour les SPA existantes, mettez en place un pré-rendu pour les bots (Prerender.io, Rendertron).
- Vérifiez que les contenus critiques sont dans le HTML initial, pas injectés après chargement.
- Évitez les modals qui chargent du contenu à la demande comme seul support d'information.
- Testez avec
curlsans JS :curl -A 'PerplexityBot' https://votresite.fr/page.
Schema.org : ce qui aide vraiment
Le schema.org ne garantit pas les citations IA, mais il améliore la désambiguïsation et aide les surfaces Google (AI Overviews, panneaux). Priorisez :
Organization— identité de marque,sameAsvers profils officiels, logo.WebSite+SearchAction— sur la home.Article/TechArticle— sur les piliers.BreadcrumbList— partout.FAQPage— sur les pages FAQ, pas sur toutes les pages (sinon dilution).HowTo— sur les pages méthode structurées en étapes.Product,Review,AggregateRating— e-commerce.DefinedTerm,DefinedTermSet— glossaires.
Performance : encore et toujours
Les bots IA fixent des budgets d'exécution. Un site lent limite la quantité de pages crawlées par session. Règles minimales :
- LCP < 2.5 s, CLS < 0.1, INP < 200 ms.
- HTML compressé (gzip / brotli).
- HTTP/2 ou HTTP/3.
- Images modernes (AVIF / WebP),
loading="lazy". - Pas de CSS bloquant inutile.
Le fichier llms.txt
Fichier Markdown servi à la racine. Il propose aux LLMs une table des matières curatée du site. Adoption encore limitée. Utilité réelle : modérée. Coût : négligeable. Recommandation : le publier, ne pas en faire une priorité.
Pour la spécification et les bonnes pratiques détaillées, voir la ressource externe dédiée (le site frère llmtxt.info couvre ce standard en profondeur).
Checklist technique express
- robots.txt explicite avec les bots IA majeurs déclarés.
- WAF / Cloudflare vérifié : bots IA non bloqués par règle WAF par défaut.
- SSR ou SSG ; HTML critique présent sans exécution JS.
- Sitemap XML propre, canonical absolu sur chaque page.
- Schemas schema.org validés (rich results test).
- Core Web Vitals dans le vert.
- llms.txt et llms-full.txt à la racine, cohérents avec la structure du site.
- Logs surveillés pour GPTBot, PerplexityBot, ClaudeBot.