L'illusion des petits nombres · Épisode 1

Vieille-Toulouse, capitale du cambriolage ?

Sacha Zaouati · Datajournaliste indépendant · Mai 2026

Vieille-Toulouse, Haute-Garonne. 67,9 ‰ — le taux de cambriolages le plus élevé de France en 2024, selon les données du ministère de l'Intérieur. Si Paris connaissait le même taux, il y aurait 95 000 cambriolages par an dans la capitale. Le chiffre réel est de 9 235.

L'écart ne vient pas d'une différence de criminalité. Il vient d'une mécanique mathématique que la presse ignore systématiquement : la loi des petits nombres. Faites défiler pour la voir à l'œuvre.

Étape 1 · 8

10 951 communes

Chaque point représente une commune française dont le ministère de l'Intérieur publie les chiffres 2024. L'axe horizontal montre sa population (échelle logarithmique). L'axe vertical montre son taux de cambriolages pour 1 000 logements.

Survolez un point pour voir le nom de la commune, sa population et ses chiffres.

Source : SSMSI / data.gouv.fr, base communale 2025. Le SSMSI ne diffuse que les communes où les chiffres sont anonymisables (10 951 sur 34 945).

Étape 2 · 8

Le point le plus haut

67,9 ‰

Vieille-Toulouse, Haute-Garonne. 1 230 habitants. 37 cambriolages enregistrés en 2024. C'est le taux le plus élevé de France parmi les communes diffusées.

Ce chiffre de 67,9 ‰ donne l'impression d'une commune très exposée. Mais il repose sur 37 événements : un cambriolage de moins ferait tomber le taux à 61,1 ‰. Un de plus : 73,1 ‰. La mesure est intrinsèquement fragile.

Étape 3 · 8

Le palmarès qui fait peur

Les 10 communes au taux le plus élevé. 9 sur 10 ont moins de 4 000 habitants. Boissettes, Seine-et-Marne : 437 habitants, 7 cambriolages dans l'année — suffit pour entrer dans ce classement.

Ce type de palmarès est régulièrement publié dans la presse. Il mesure principalement une chose : la petite taille des communes, pas leur niveau réel de criminalité.

Étape 4 · 8

Les grandes villes sont absentes

6 à 10 ‰

Paris : 6,6 ‰. Marseille : 9,6 ‰. Lyon : 7,9 ‰. Bordeaux : 8,9 ‰. Toutes entre 6 et 10 ‰. Aucune n'approche du sommet du palmarès brut.

Non pas parce qu'elles seraient moins touchées — mais parce que leur grande taille stabilise la mesure. L'écart-type d'un taux décroît en 1/√n : pour 1,4 million de logements à Paris, il est 70 fois plus petit que pour les 200 logements de Vieille-Toulouse.

Étape 5 · 8

La correction par seuil

En excluant les communes de moins de 10 000 habitants, on passe de 10 951 à 1 116 communes. Le seuil n'est pas mathématique — c'est un choix méthodologique, inspiré des seuils utilisés en santé publique (300 accouchements/an pour une maternité).

Le nuage se resserre. La dispersion à gauche disparaît. Ce qui reste est interprétable.

Étape 6 · 8

Le top 10 après seuil

Un autre tableau

Parmi les 1 116 communes retenues : 7 sur 10 du top corrigé sont des banlieues pavillonnaires de métropoles régionales (Tours, Bordeaux, Rennes, Rouen…). 2 sont en Guyane. Aucune n'apparaissait dans le top 10 brut.

Même jeu de données, méthode différente. Mais ce seuil reste arbitraire — il efface aussi des communes intéressantes.

Étape 7 · 8

L'entonnoir de Spiegelhalter

Sous l'hypothèse que toutes les communes partagent le taux national (6,4 ‰), on calcule pour chaque taille la fourchette des taux observables par hasard pur — loi de Poisson, calcul exact (pas d'approximation normale). Deux bandes : à 95 % (zone attendue) et à 99,8 % (zone d'alarme).

547 communes sortent de la bande 99,8 % par le haut, 392 entre 95 % et 99,8 %. Sous Poisson pur on en attendrait 11 et 263 ; l'écart mesure une vraie hétérogénéité (surdispersion φ ≈ 4,6).

Mais « hors entonnoir » veut dire « anormal en 2024 », pas « durablement élevé ». Vieille-Toulouse y figure — 10 cambriolages quand on en attendait 0,7 — son rang 2024 est statistiquement réel. Reste à savoir s'il tient en 2025 ; c'est l'étape suivante (lissage bayésien) traitée dans l'article complet.

Méthode : Spiegelhalter (2005), Statistics in Medicine. Quantiles exacts de Poisson aux deux niveaux. φ = Σ(O−E)²/E /(n−1) mesure la surdispersion résiduelle.

Étape 8 · 8

Le lissage bayésien

Au lieu de couper net (seuil) ou de classer par p-value (entonnoir), on tire chaque taux brut vers la moyenne nationale, d'autant plus fort que la commune est petite. Un village de 200 logements et 5 cambriolages voit son taux divisé par deux ; Lyon (200 000 logements) ne bouge presque pas.

Concrètement : on suppose que les vrais taux λi suivent une loi Gamma(α, β) commune, on observe Xi ~ Poisson(λi·ni) et on calcule l'espérance a posteriori : (α + Xi) / (β + ni). C'est l'Empirical Bayes de Robbins (1956), version conjuguée Gamma-Poisson.

Vieille-Toulouse passe de 67,9 ‰ à 32,1 ‰ — soit 58 % de lissage. Elle reste à la 1re place du nouveau classement, mais la moitié de son taux brut était du bruit. Le top 10 lissé combine 3 petites communes statistiquement crédibles et 7 communes moyennes (5 000 à 17 000 hab.).

Méthode : Empirical Bayes Gamma-Poisson, hyperparamètres estimés par méthode des moments (Marshall 1991, Clayton-Kaldor 1987). Robinson, Introduction to Empirical Bayes, package R ebbr.

Quatre classements pour les mêmes données

Mêmes 10 951 communes, mêmes chiffres SSMSI 2024 — quatre méthodes statistiques, quatre top 10 différents. Les communes surlignées en rouge apparaissent dans les quatre classements ; en jaune, dans trois ; en gris foncé, dans deux. Plus une commune ressort de toutes les méthodes, plus son rang est crédible.

Top 10 brut

Trier par taux décroissant. Méthode médiatique.

    Seuil ≥ 10 000 hab.

    On exclut les petites communes. Filtre arbitraire.

      Entonnoir (alarmes)

      Trié par p-value Poisson — les anomalies les plus extrêmes.

        Lissage bayésien

        Empirical Bayes Gamma-Poisson. Le palmarès statistiquement honnête.

          Les taux affichés sont en ‰ de logements (cambriolages 2024). Pour la colonne « lissage bayésien », c'est le taux a posteriori ; pour les trois autres, le taux brut observé. Les communes en intersection sont les seules qu'un journaliste pourrait raisonnablement citer comme « plus exposées que la moyenne en 2024 » — quelle que soit la méthode choisie.

          Note méthodologique

          Source. SSMSI, base communale 2025, publiée en février 2026 sur data.gouv.fr. Indicateur « Cambriolages de logement », année 2024. Taux pour 1 000 logements (recensement INSEE).

          Périmètre. 10 951 communes diffusées sur 34 945 (INSEE 2025). Le SSMSI masque les communes dont l'effectif est trop faible pour être anonymisé.

          Entonnoir. Quantiles exacts de la loi de Poisson, sans approximation normale. Pour une commune de n logements et un taux national moyen μ (6,4 ‰), on calcule λ₀ = μ·n/1000 puis les bornes par qpois(α/2, λ₀)·1000/n et qpois(1−α/2, λ₀)·1000/n. Bandes affichées : 95 % (α = 0,05) et 99,8 % (α = 0,002). Le ratio logements/habitant (≈ 0,55, INSEE) convertit l'axe X. Surdispersion estimée par la statistique de Pearson : φ = Σ(O−E)²/E /(n−1) ≈ 4,6, signe d'une hétérogénéité réelle entre communes au-delà du bruit Poisson — d'où la nécessité d'un lissage bayésien (Empirical Bayes) pour produire un classement robuste, traité dans l'article complet.

          Code source et données : github.com/szaouati/illusion-petits-nombres · Licence MIT (code) + CC BY 4.0 (contenu).