Principe central : écrire pour le retrieval
Les moteurs IA en mode recherche (ChatGPT Search, Perplexity, AI Overviews) fonctionnent en deux temps : un retrieval qui récupère des passages pertinents dans un corpus, puis une génération qui synthétise une réponse en citant ces passages. Optimiser pour le retrieval, c'est rendre chacun de vos paragraphes lisible hors contexte.
Chunking : la granularité qui compte
Les systèmes de retrieval découpent les documents en chunks de quelques centaines à quelques milliers de caractères. Les frontières de chunk suivent souvent la structure HTML (titres, paragraphes).
| Composant HTML | Rôle dans le chunking | Bonne pratique |
|---|---|---|
| H2 | Frontière forte | Un H2 = une intention distincte, avec sa requête de longue traîne implicite. |
| H3 | Frontière secondaire | Sous-question ou sous-aspect, jamais décoratif. |
| Paragraphe | Unité de chunk typique | 3 à 6 lignes. Une idée par paragraphe. |
| Liste | Chunk quasi-extractible tel quel | Items autoportants, pas de renvoi à "voir ci-dessus". |
| Tableau | Très bien extrait | En-têtes clairs, cellules courtes, éviter les cellules fusionnées. |
Autoportance : tester chaque passage
Test simple : copiez n'importe quel paragraphe de votre page et collez-le dans un message vide à un collègue. Si le paragraphe reste compréhensible, il est autoportant.
- Évitez les pronoms sans antécédent ("il permet..." au milieu d'une page).
- Re-nommez les entités principales en début de section.
- Définissez les acronymes en première occurrence locale, pas uniquement en début de page.
- Datez les affirmations temporelles ("en 2026", pas "cette année").
Contenu citation-friendly
Un passage cité est un passage que le modèle peut exhiber avec confiance. Il a trois caractéristiques :
- Une affirmation nette — "Google AI Overviews a été généralisé en France en 2025" est citable. "L'IA change le SEO" ne l'est pas.
- Un contexte minimum — qui, quoi, quand. Pas d'ambiguïté sur le sujet.
- Une vérifiabilité — une source externe, une donnée publiée, un auteur.
Entités et désambiguïsation
Les LLMs relient vos contenus à des entités. Si votre marque partage son nom avec autre chose (plante, personnalité, autre entreprise), la désambiguïsation est prioritaire. Techniques :
- Co-occurrence systématique avec les marqueurs du domaine : secteur, produit, segment client.
- Lien fondateur vers Wikipedia, Wikidata, LinkedIn officiel, site officiel, via
sameAsdansOrganizationschema. - Biographie factuelle sur une page À propos, avec dates, lieux, activités, sources.
- Cohérence éditoriale : le même ton, la même terminologie sur tout le site et sur les canaux annexes (LinkedIn, presse, podcasts).
Anatomie d'une page GEO
- H1 — requête principale, 6 à 12 mots, sans superlatifs.
- Lede — 2 à 4 phrases qui répondent déjà à la question. Première phrase autoportante.
- Dates — publication + dernière mise à jour, visibles.
- H2 "En bref" — 3 à 5 puces, chacune citable telle quelle.
- Corps — 5 à 8 sections H2 couvrant les sous-intentions.
- Tableau ou checklist — au moins un élément dense et extractible.
- FAQ contextuelle — 3 à 6 questions locales, pas génériques.
- Maillage sortant — 3 à 6 liens internes contextuels, 1 à 3 liens externes sources.
- Auteur et organisation — schema.org
Article+Organization.
Longueur, format, densité
Il n'y a pas de longueur magique. Une page doit couvrir son sujet, pas un quota de mots. Points repères :
- Pilier : 2 000 à 4 000 mots, 6 à 10 H2.
- Satellite : 800 à 1 500 mots, 3 à 5 H2.
- FAQ / définition : 400 à 800 mots, réponses autoportantes.
Erreurs fréquentes observées
- Murs de texte — paragraphes de 15 lignes, invisibles en retrieval.
- H2 décoratifs : "Conclusion", "Introduction", "En savoir plus" — portent zéro requête.
- Schemas JSON-LD contradictoires avec le contenu visible (auteur absent, date bidon, type faux).
- Contenu IA-généré non révisé, qui empile des formulations vides.
- Duplications inter-pages qui diluent l'autorité.
- Phrases conditionnelles à rallonge qui ne disent rien de citable.
Checklist express
- Chaque H2 porte une intention claire et reformule une requête.
- Chaque paragraphe peut être lu isolément.
- Chaque affirmation chiffrée est datée et sourcée.
- Chaque acronyme est défini en première occurrence.
- La page contient au moins un tableau ou une checklist.
- La page porte une date de mise à jour visible.
- Le maillage interne sort vers au moins 3 autres pages du site.
- Les schemas schema.org sont validés.