Optimisation technique pour la visibilité IA

Les bots IA à connaître

Chaque famille de moteur dispose d'un ou plusieurs User-Agents. Certains servent au crawl d'entraînement, d'autres au crawl en temps réel pour la recherche.

User-Agent	Éditeur	Usage principal
`GPTBot`	OpenAI	Crawl pour entraînement et amélioration des produits.
`OAI-SearchBot`	OpenAI	Crawl pour ChatGPT Search.
`ChatGPT-User`	OpenAI	Fetch au moment de la requête utilisateur.
`PerplexityBot`	Perplexity	Index principal de Perplexity.
`Perplexity-User`	Perplexity	Fetch déclenché par l'utilisateur.
`ClaudeBot` / `anthropic-ai` / `Claude-Web`	Anthropic	Crawl pour entraînement et recherche Claude.
`Google-Extended`	Google	Directive robots pour l'entraînement Gemini / Vertex (distincte de Googlebot).
`Applebot-Extended`	Apple	Directive pour l'entraînement Apple Intelligence.
`Bytespider`	ByteDance	Crawl agressif, souvent bloqué par défaut.
`CCBot`	Common Crawl	Corpus utilisé par de nombreux modèles open source.
`meta-externalagent`	Meta	Crawl pour entraînement Meta AI.
`cohere-ai`	Cohere	Crawl pour entraînement Cohere.

robots.txt — la bonne configuration par défaut

Une configuration neutre, orientée visibilité, laisse passer tous les bots IA majeurs. C'est le choix retenu par llmoptimisation.fr — documenté et assumé.

User-agent: *
Allow: /

User-agent: GPTBot
Allow: /

User-agent: OAI-SearchBot
Allow: /

User-agent: PerplexityBot
Allow: /

User-agent: ClaudeBot
Allow: /

User-agent: Google-Extended
Allow: /

Sitemap: https://votresite.fr/sitemap-index.xml

Bloquer ou laisser passer : un arbitrage business

Trois postures cohérentes, selon votre modèle :

Profil	Posture recommandée	Raison
Marketing / SaaS / service B2B	Laisser passer tous les bots IA majeurs	Maximiser la visibilité et la citation.
E-commerce	Laisser passer, mais protéger les données produit sensibles (prix dynamique, stock)	Les pages produit ont un intérêt marketing pour l'IA ; les flux temps réel ne devraient pas être crawlés.
Média sous paywall ou modèle payant	Bloquer ou accord commercial	Préserver la valeur du contenu. OpenAI, Google et Perplexity signent des licences avec les éditeurs majeurs.
Contenu premium non indexable	Bloquer explicitement	Cohérence éditoriale et légale.

Rendering et crawl : le piège du JS

Les moteurs IA n'exécutent pas tous le JavaScript. Perplexity, ChatGPT Search et beaucoup de crawlers se contentent du HTML statique ou d'un rendu rapide. Les sites qui rendent leur contenu côté client (SPA React/Vue non SSR) peuvent être partiellement ou totalement invisibles pour l'IA.

Privilégiez le SSR (Server-Side Rendering) ou le SSG (Static Site Generation).
Pour les SPA existantes, mettez en place un pré-rendu pour les bots (Prerender.io, Rendertron).
Vérifiez que les contenus critiques sont dans le HTML initial, pas injectés après chargement.
Évitez les modals qui chargent du contenu à la demande comme seul support d'information.
Testez avec curl sans JS : curl -A 'PerplexityBot' https://votresite.fr/page.

Schema.org : ce qui aide vraiment

Le schema.org ne garantit pas les citations IA, mais il améliore la désambiguïsation et aide les surfaces Google (AI Overviews, panneaux). Priorisez :

Organization — identité de marque, sameAs vers profils officiels, logo.
WebSite + SearchAction — sur la home.
Article / TechArticle — sur les piliers.
BreadcrumbList — partout.
FAQPage — sur les pages FAQ, pas sur toutes les pages (sinon dilution).
HowTo — sur les pages méthode structurées en étapes.
Product, Review, AggregateRating — e-commerce.
DefinedTerm, DefinedTermSet — glossaires.

Performance : encore et toujours

Les bots IA fixent des budgets d'exécution. Un site lent limite la quantité de pages crawlées par session. Règles minimales :

LCP < 2.5 s, CLS < 0.1, INP < 200 ms.
HTML compressé (gzip / brotli).
HTTP/2 ou HTTP/3.
Images modernes (AVIF / WebP), loading="lazy".
Pas de CSS bloquant inutile.

Le fichier llms.txt

Fichier Markdown servi à la racine. Il propose aux LLMs une table des matières curatée du site. Adoption encore limitée. Utilité réelle : modérée. Coût : négligeable. Recommandation : le publier, ne pas en faire une priorité.

Pour la spécification et les bonnes pratiques détaillées, voir la ressource externe dédiée (le site frère llmtxt.info couvre ce standard en profondeur).

Checklist technique express

robots.txt explicite avec les bots IA majeurs déclarés.
WAF / Cloudflare vérifié : bots IA non bloqués par règle WAF par défaut.
SSR ou SSG ; HTML critique présent sans exécution JS.
Sitemap XML propre, canonical absolu sur chaque page.
Schemas schema.org validés (rich results test).
Core Web Vitals dans le vert.
llms.txt et llms-full.txt à la racine, cohérents avec la structure du site.
Logs surveillés pour GPTBot, PerplexityBot, ClaudeBot.