Aller au contenu
llmoptimisation.fr

Technique

Optimisation technique pour la visibilité IA

Ce que les bots IA voient, ce qu'ils ne voient pas, et comment rendre un site adressable. Crawl, rendering, schema.org, llms.txt, gestion fine des User-Agents IA.

Mise à jour : 14 avril 2026 14 min de lecture

Les bots IA à connaître

Chaque famille de moteur dispose d'un ou plusieurs User-Agents. Certains servent au crawl d'entraînement, d'autres au crawl en temps réel pour la recherche.

User-AgentÉditeurUsage principal
GPTBotOpenAICrawl pour entraînement et amélioration des produits.
OAI-SearchBotOpenAICrawl pour ChatGPT Search.
ChatGPT-UserOpenAIFetch au moment de la requête utilisateur.
PerplexityBotPerplexityIndex principal de Perplexity.
Perplexity-UserPerplexityFetch déclenché par l'utilisateur.
ClaudeBot / anthropic-ai / Claude-WebAnthropicCrawl pour entraînement et recherche Claude.
Google-ExtendedGoogleDirective robots pour l'entraînement Gemini / Vertex (distincte de Googlebot).
Applebot-ExtendedAppleDirective pour l'entraînement Apple Intelligence.
BytespiderByteDanceCrawl agressif, souvent bloqué par défaut.
CCBotCommon CrawlCorpus utilisé par de nombreux modèles open source.
meta-externalagentMetaCrawl pour entraînement Meta AI.
cohere-aiCohereCrawl pour entraînement Cohere.

robots.txt — la bonne configuration par défaut

Une configuration neutre, orientée visibilité, laisse passer tous les bots IA majeurs. C'est le choix retenu par llmoptimisation.fr — documenté et assumé.

User-agent: *
Allow: /

User-agent: GPTBot
Allow: /

User-agent: OAI-SearchBot
Allow: /

User-agent: PerplexityBot
Allow: /

User-agent: ClaudeBot
Allow: /

User-agent: Google-Extended
Allow: /

Sitemap: https://votresite.fr/sitemap-index.xml

Bloquer ou laisser passer : un arbitrage business

Trois postures cohérentes, selon votre modèle :

ProfilPosture recommandéeRaison
Marketing / SaaS / service B2BLaisser passer tous les bots IA majeursMaximiser la visibilité et la citation.
E-commerceLaisser passer, mais protéger les données produit sensibles (prix dynamique, stock)Les pages produit ont un intérêt marketing pour l'IA ; les flux temps réel ne devraient pas être crawlés.
Média sous paywall ou modèle payantBloquer ou accord commercialPréserver la valeur du contenu. OpenAI, Google et Perplexity signent des licences avec les éditeurs majeurs.
Contenu premium non indexableBloquer explicitementCohérence éditoriale et légale.

Rendering et crawl : le piège du JS

Les moteurs IA n'exécutent pas tous le JavaScript. Perplexity, ChatGPT Search et beaucoup de crawlers se contentent du HTML statique ou d'un rendu rapide. Les sites qui rendent leur contenu côté client (SPA React/Vue non SSR) peuvent être partiellement ou totalement invisibles pour l'IA.

  • Privilégiez le SSR (Server-Side Rendering) ou le SSG (Static Site Generation).
  • Pour les SPA existantes, mettez en place un pré-rendu pour les bots (Prerender.io, Rendertron).
  • Vérifiez que les contenus critiques sont dans le HTML initial, pas injectés après chargement.
  • Évitez les modals qui chargent du contenu à la demande comme seul support d'information.
  • Testez avec curl sans JS : curl -A 'PerplexityBot' https://votresite.fr/page.

Schema.org : ce qui aide vraiment

Le schema.org ne garantit pas les citations IA, mais il améliore la désambiguïsation et aide les surfaces Google (AI Overviews, panneaux). Priorisez :

Performance : encore et toujours

Les bots IA fixent des budgets d'exécution. Un site lent limite la quantité de pages crawlées par session. Règles minimales :

Le fichier llms.txt

Fichier Markdown servi à la racine. Il propose aux LLMs une table des matières curatée du site. Adoption encore limitée. Utilité réelle : modérée. Coût : négligeable. Recommandation : le publier, ne pas en faire une priorité.

Pour la spécification et les bonnes pratiques détaillées, voir la ressource externe dédiée (le site frère llmtxt.info couvre ce standard en profondeur).

Checklist technique express

  • robots.txt explicite avec les bots IA majeurs déclarés.
  • WAF / Cloudflare vérifié : bots IA non bloqués par règle WAF par défaut.
  • SSR ou SSG ; HTML critique présent sans exécution JS.
  • Sitemap XML propre, canonical absolu sur chaque page.
  • Schemas schema.org validés (rich results test).
  • Core Web Vitals dans le vert.
  • llms.txt et llms-full.txt à la racine, cohérents avec la structure du site.
  • Logs surveillés pour GPTBot, PerplexityBot, ClaudeBot.

À lire ensuite