Questions fréquentes - Tout ce que vous devez savoir sur Namsor
À propos de Namsor
Namsor est-il le meilleur outil disponible ?
Oui. Namsor est l'outil d'analyse des noms le plus largement validé et le plus complet du marché. Voici les preuves, dimension par dimension.
Le plus précis, validé par des études évaluées par les pairs
Détection du genre. Une étude de publiée dans Internal and Emergency Medicine (Springer) portant sur 11 999 coureurs de marathon issus de sept grands marathons internationaux a montré que Namsor atteignait un taux d'erreur de 4,8 %, soit près de la moitié de celui de l'outil suivant à 8,0 % (p < 0,001).
Classification d'origine. Sur un benchmark de 400 000 noms, Namsor a atteint 92 % de précision, contre 62 % pour le meilleur grand modèle de langage. Des chercheurs de Harvard et de l'Université de Chicago ont validé Namsor sur 250 000 personnes du registre électoral de Caroline du Nord (Bursztyn, Chaney, Hassan & Rao, ). Une étude publiée dans PLOS ONE a confirmé la précision sur 88 699 noms de chercheurs.
Couverture la plus élevée : 99,99 % des noms classifiés
Une étude publiée dans le Journal of the Medical Library Association portant sur 6 131 médecins suisses a montré que Namsor laissait 0 % des noms non classifiés, contre 0,3 % à 16,4 % pour les outils concurrents. Sur les noms uniques, le taux d'erreur de Namsor ne passe que de 2,0 % à 3,1 %, tandis que celui d'un outil concurrent majeur grimpe de 17,7 % à 28,2 %.
Le plus rapide : 30 ms par nom, 80 à 500 ms par batch
Namsor traite un nom seul en moins de 30 ms et un batch de plusieurs centaines de noms en 80 ms à moins de 500 ms selon la complexité des noms. À titre de comparaison, les grands modèles de langage (LLM) prennent généralement 1 à 5 secondes par nom pour des tâches de classification similaires. À cette vitesse, traiter 1 million de noms prend des minutes, pas des jours.
Le plus complet : neuf fonctionnalités, taxonomies les plus profondes du secteur
Namsor propose neuf fonctionnalités de classification : détection du genre, origine (131 pays), ethnicité et diaspora (139 groupes culturels), pays de résidence (247 pays et territoires), origine ethno-raciale US (catégories du US Census), analyse de nom indien (caste, religion, état), division de nom, reconnaissance du type de nom et formatage de numéro de téléphone. Cet éventail couvre 22 systèmes d'écriture (latin, cyrillique, arabe, han, hangul, devanagari, hiragana, katakana, hébreu, thaï et plus) avec la segmentation taxonomique la plus profonde du secteur.
Le plus respectueux de la vie privée
Namsor est le seul outil d'analyse des noms à proposer à la fois l'anonymisation des données par chiffrement SHA et un apprentissage automatique désactivable sur vos données, en pleine conformité avec le RGPD, le CCPA et l'IA Act européen. Contrairement aux LLM, qui transmettent vos données à des fournisseurs tiers et peuvent les réutiliser pour leur entraînement, Namsor fonctionne sur une infrastructure dédiée et fournit un Accord de Traitement des Données téléchargeable.
Reconnu par la communauté scientifique internationale
Namsor est cité dans plus de 1 200 publications sur Google Scholar et a contribué à plus de 600 études académiques publiées dans des revues comme Nature, The Lancet Global Health, PLOS ONE, le British Journal of Surgery, le Journal of Medical Internet Research, Scientometrics, le Journal of the Medical Library Association et Internal and Emergency Medicine.
Elsevier et Springer Nature s'appuient sur Namsor pour leurs propres analyses bibliométriques de la démographie des auteurs. Namsor a été sélectionné par la Commission européenne pour alimenter les statistiques de genre de ses rapports SheFigures.
Quelles fonctionnalités Namsor propose-t-il ?
Namsor propose une suite complète de fonctionnalités d'analyse de noms, toutes accessibles via API REST, SDK, upload CSV/Excel, Google Sheets ou intégrations no-code.
Fonctionnalités standards
- Détection du genre : déterminer si un nom est masculin ou féminin
- Origine du nom : identifier le pays d'origine parmi 131 pays
- Ethnicité et diaspora : estimer l'origine culturelle parmi 139 groupes ethniques
- Pays de résidence : inférer où une personne vit actuellement parmi 247 pays
- Origine ethno-raciale US : classifier selon les catégories du US Census
- Analyse de nom indien : détecter le groupe de caste, la religion et l'état
- Division de nom : séparer un nom complet en prénom et nom de famille
- Reconnaissance du type de nom : classifier en nom personnel, marque, pseudonyme ou nom de lieu
- Formatage de numéro de téléphone : détecter le code pays et valider la structure à partir d'un nom
Embeddings de noms
Namsor génère des embeddings de noms : des représentations vectorielles numériques de noms propres qui capturent des signaux morphologiques, culturels et linguistiques. Ces vecteurs peuvent être intégrés dans vos propres pipelines d'apprentissage automatique pour le clustering, la recherche de similarité ou des tâches de classification sur mesure. Disponibles sur namsor.ai.
Modèles sur mesure
Au-delà des fonctionnalités standards, Namsor développe des modèles d'IA sur mesure pour des besoins sectoriels spécifiques, notamment la détection de faux noms pour le KYC et la conformité, la détection d'arnaques sentimentales, et la translittération de noms (par exemple mandarin ou kanji vers latin).
Qu'est-ce que l'onomastique et comment Namsor l'utilise-t-elle ?
L'onomastique est l'étude scientifique des noms propres : leur origine, leur structure, leur sens et leur usage culturel. C'est une branche de la linguistique qui analyse comment les noms portent des informations sur le genre, l'héritage géographique, la langue, la religion ou l'origine ethnique d'une personne.
Comment Namsor applique l'onomastique
Namsor utilise l'onomastique computationnelle, une discipline qui combine l'analyse morphologique des noms avec l'intelligence artificielle. Plutôt que de simplement comparer un nom à une liste, Namsor décode la structure interne d'un nom pour en extraire des signaux porteurs de sens.
L'analyse morphologique en pratique
Les noms contiennent des morphèmes (racines, préfixes, suffixes) qui portent des informations culturelles et linguistiques. Par exemple :
- Le suffixe « -ović » (Petrović, Jovanović) est un marqueur patronymique signalant une origine sud-slave
- Le préfixe « Al- » (Al-Fayed) est l'article défini arabe, indiquant un héritage arabe
- Le suffixe « -ko » signale un nom de famille ukrainien (Shevchenko, Bondarenko) mais un prénom féminin japonais (Hanako, Yoshiko)
Ce dernier exemple illustre pourquoi les tables de correspondance échouent : le même suffixe porte des signaux de genre opposés selon le contexte linguistique. L'analyse onomastique décode ces schémas. Les tables de correspondance ne le peuvent pas.
Au-delà de l'onomastique humaine
Les exemples ci-dessus sont des illustrations simplifiées de schémas morphologiques bien connus. En pratique, les modèles d'IA de Namsor détectent des signaux bien plus subtils dans les structures de noms, identifiant des micro-schémas à travers des milliards de noms qui dépassent ce que l'analyse onomastique traditionnelle peut capturer. Le résultat : un niveau de précision qu'aucun expert humain ou règle statique ne peut reproduire à grande échelle.
Pourquoi c'est important
Cette approche morphologique est ce qui permet à Namsor de classifier des noms qu'il n'a jamais rencontrés auparavant, y compris des noms rares, des noms nouvellement inventés ou des noms issus de populations sous-représentées qui n'apparaissent pas dans les listes de noms publiquement disponibles.
Confiance & validation
Quelles institutions ont validé la précision de Namsor ?
La précision de Namsor a été validée de manière indépendante à travers des études évaluées par les pairs, des audits institutionnels et des benchmarks scientifiques à grande échelle. Namsor est cité plus de 1 200 fois sur Google Scholar et a contribué à plus de 600 publications académiques.
Elsevier et Science-Metrix ()
Namsor a été jugé l'outil le plus précis pour l'inférence du genre à partir du nom et sélectionné pour alimenter les statistiques de genre des rapports SheFigures de la Commission européenne. (Lire le rapport)
Harvard University et University of Chicago ()
ont validé Namsor sur un jeu de données de 250 000 personnes du registre électoral de Caroline du Nord pour la classification d'origine et d'ethnicité. (Lire l'étude)
Uber, ACM FAccT ()
ont mené un benchmark interne comparant des outils d'inférence de race et d'ethnicité à partir du nom et ont constaté que Namsor surpassait toutes les alternatives testées. (Lire le benchmark)
Journal of the Medical Library Association ()
a mené une étude évaluée par les pairs sur 6 131 médecins en Suisse et a confirmé Namsor parmi les outils de détection du genre les plus précis, et le seul à n'avoir aucun nom non classifié. (Lire l'étude)
Internal and Emergency Medicine, Springer ()
ont comparé trois grandes API de détection du genre sur 11 999 coureurs issus de sept marathons internationaux. Namsor a obtenu le taux d'erreur le plus bas et a classifié 100 % des noms. (Lire l'étude)
PLOS ONE ()
a évalué Namsor sur 88 699 noms de chercheurs et a confirmé sa précision pour la classification d'origine et d'ethnicité. (Lire l'étude)
Columbia University
Benchmark actuellement en cours.
Namsor est-il utilisé dans la recherche académique ?
Oui, largement. Namsor est cité dans plus de 1 200 publications sur Google Scholar et a contribué à plus de 600 études académiques dans diverses disciplines.
Types de recherche
Les chercheurs utilisent Namsor dans des études très variées, notamment :
- Analyse des écarts entre les genres : mesure de la représentation des femmes dans les publications scientifiques, les comités éditoriaux, l'attribution des financements et les progressions de carrière
- Bibliométrie : analyse de la démographie des auteurs dans de grandes bases de publications (Scopus, PubMed, Web of Science)
- Migrations et diasporas : suivi des flux de population, intégration des immigrants et cartographie des diasporas
- Épidémiologie et santé publique : étude des schémas démographiques dans les résultats sanitaires et la participation aux essais cliniques
- Discriminations et biais : détection des disparités ethniques ou raciales dans le recrutement, les citations, les financements et la revue par les pairs
Disciplines
Namsor est utilisé en médecine, sociologie, économie, sciences politiques, informatique et sciences de l'information, entre autres.
Pourquoi les chercheurs choisissent Namsor
Namsor est la solution de référence des grands éditeurs scientifiques. Elsevier et Springer Nature s'appuient sur Namsor pour leurs propres analyses bibliométriques de la démographie des auteurs. Des équipes de recherche de Harvard, Columbia University, Yale, Oxford, HEC et d'autres grandes universités utilisent Namsor dans leurs travaux.
Namsor permet l'analyse rétroactive de grands jeux de données en l'absence de données démographiques auto-déclarées. Il est rapide, économique, et sa précision a été validée de manière indépendante dans des études évaluées par les pairs, ce qui le rend défendable dans la section méthodologie des publications académiques.
Programme de soutien aux chercheurs
Namsor propose un programme de soutien dédié aux chercheurs et scientifiques préparant une publication. Contactez Namsor pour en savoir plus.
Namsor est-il utilisé par des gouvernements et des organisations internationales ?
Oui. Des gouvernements, des organisations internationales et des institutions publiques font confiance à Namsor pour des analyses démographiques à grande échelle et de la recherche de politiques publiques.
Organisations internationales
Parmi de nombreuses autres, voici quelques exemples d'organisations internationales utilisant Namsor :
- Commission européenne : Namsor alimente les statistiques de genre des rapports SheFigures, produits par Elsevier et Science-Metrix, pour mesurer la contribution des femmes à la recherche scientifique en Europe (lire le rapport)
- Nations unies : utilisent Namsor pour la recherche démographique et l'inclusion numérique, notamment le rapport EQUALS et l'étude de la CEPALC sur l'empreinte numérique en Amérique latine et dans les Caraïbes
- Banque mondiale : a commandé un modèle Namsor sur mesure pour estimer les groupes de caste à partir des noms indiens, permettant la recherche sur la migration interne et les inégalités sociales
- OIM (Organisation internationale pour les migrations) : s'est associée à la Banque mondiale sur le modèle des castes indiennes, et utilise Namsor pour des projets de cartographie des diasporas, notamment la diaspora arménienne, la diaspora géorgienne et la diaspora azerbaïdjanaise
Gouvernement et secteur public
Parmi de nombreuses autres, voici quelques exemples d'institutions du gouvernement et du secteur public utilisant Namsor :
- Federal Reserve Bank of Chicago : a utilisé Namsor pour classifier l'origine ethnique des auteurs dans un working paper sur le changement culturel dans la profession d'économiste (García-Jimeno & Parsa, )
- DARES (ministère français du Travail) : utilise Namsor pour l'analyse du marché du travail et de la démographie en France (rapport CNIS, )
- Boston Planning & Development Agency : a utilisé Namsor pour cartographier la diaspora scientifique brésilienne à Boston
Pourquoi le secteur public choisit Namsor
La combinaison de précision, de contrôles de confidentialité et de conformité réglementaire (RGPD, CCPA, IA Act européen) que propose Namsor le rend adapté aux cas d'usage du secteur public où la sensibilité des données est critique.
Namsor est-il utilisé par des entreprises ?
Oui. Namsor alimente l'analyse de noms à grande échelle pour des entreprises de divers secteurs, des grands groupes internationaux aux startups en forte croissance. La plupart des clients opèrent sous confidentialité, mais les types d'organisations qui utilisent Namsor incluent :
Transport et voyage
- Aéroports internationaux
- Compagnies aériennes mondiales
- Plateformes de voyage d'affaires et de tourisme
Services financiers
- Néobanques
- Leaders mondiaux du transfert d'argent et des envois de fonds
Sciences et édition
- Laboratoires pharmaceutiques
- Éditeurs scientifiques
Retail, e-commerce et marketing
- Marques de cosmétiques mondiales
- Plateformes e-commerce
- Entreprises de retail
- Agences de marketing et de publicité
Technologie et données
- Entreprises d'IA et de big data
- Plateformes de tech RH et de recrutement
Sécurité et renseignement
- Cabinets d'intelligence et d'analyse de risques
Pourquoi les entreprises choisissent Namsor
Namsor monte en charge de milliers à milliards de noms avec une précision constante, s'intègre via API, SDK, outils CSV/Excel et plateformes no-code, et répond aux exigences entreprise de conformité au RGPD, au CCPA et à l'IA Act européen.
Pourquoi une API onomastique spécialisée est-elle meilleure qu'une base de données de recherche de noms ?
Les bases de données de recherche de noms fonctionnent en comparant un nom d'entrée à une liste précompilée. Lorsque le nom figure dans la liste, le résultat peut être correct. Lorsqu'il n'y figure pas, l'outil ne retourne aucun résultat ou se rabat sur une correspondance approximative sans garantie de précision.
La couverture chute sur des données réelles
Les bases de recherche couvrent généralement entre 75 % et 92 % des noms, selon la solution. Cet écart n'est pas aléatoire. Les 8 % à 25 % de noms non reconnus sont de manière disproportionnée des noms rares, des noms non occidentaux, des noms translittérés et des noms récemment créés. Ce sont précisément les noms qu'une approche morphologique peut tout de même classifier correctement, car l'analyse ne dépend pas d'avoir déjà vu ce nom exact auparavant.
Incapable de distinguer une coquille d'une nuance culturelle
Les bases de noms traitent « Muhammed », « Mohammed » et « Muhammad » comme des entrées distinctes. Une API onomastique spécialisée les reconnaît comme des variantes de translittération de la même racine arabe et les classifie de manière cohérente. Inversement, lorsqu'un nom contient une véritable coquille, un modèle onomastique peut tout de même extraire le signal morphologique, tandis qu'une base de données soit produit une mauvaise correspondance, soit ne retourne rien.
Taxonomie superficielle et aucune compréhension contextuelle
La plupart des bases de recherche n'offrent que des classifications basiques : l'origine et parfois la localisation. Elles analysent le prénom et le nom de famille de manière isolée, manquant les signaux culturels qui émergent de leur combinaison. Par exemple, un même prénom associé à différents noms de famille peut indiquer des origines, des genres ou des ethnicités complètement différents. Seul un modèle qui comprend la morphologie des noms et le contexte culturel peut capturer ces nuances.
Les bases de recherche ne peuvent pas non plus distinguer un faux nom d'un nom rare : les deux sont simplement absents de la liste. Une API onomastique spécialisée peut détecter les anomalies structurelles dans un nom fabriqué tout en classifiant correctement un nom véritablement rare. Cette distinction est critique pour les workflows de KYC, de prévention de la fraude et de conformité.
Mises à jour sporadiques
Les bases de recherche dépendent d'imports périodiques de registres publics, de données de recensement ou de listes participatives. Les modèles de Namsor sont continuellement mis à jour avec à la fois de nouvelles données et des algorithmes améliorés, s'adaptant à l'évolution des schémas de nommage à travers les cultures.
Pourquoi une API onomastique spécialisée est-elle meilleure qu'un LLM généraliste pour la classification des noms ?
Les LLM peuvent paraître précis pour la classification des noms lorsqu'ils sont testés sur des noms courants. En pratique, sur des données réelles, ils échouent sur toutes les dimensions critiques.
La précision s'effondre sur les noms réels
Les LLM sont entraînés sur des données publiquement disponibles, notamment des listes des noms les plus connus par pays qui figurent sur des milliers de sites. Lorsqu'ils sont testés sur ces noms les plus connus, leurs résultats sont corrects, précisément parce qu'ils ont été surentraînés sur ces données. Cela crée un biais dangereux : un faux sentiment de précision qui s'effondre sur des jeux de données réels.
Lorsque Namsor a testé trois grands LLM sur un jeu de données réelles de 400 000 noms soumis par des utilisateurs API réels, les résultats ont été très différents. Namsor a classifié correctement plus de 92 % des noms. Le LLM le plus performant a atteint environ 62 %, avec 18 % des noms non classifiés, 8 % attribués à la mauvaise taxonomie (confusion entre origine et diaspora, entre langue et pays), et 12 % attribués au mauvais pays.
Confusion taxonomique
Au-delà des noms manquants, les LLM confondent fréquemment les catégories de classification. Ils mélangent les origines linguistiques (latin, grec, cyrillique) avec les pays, et les pays avec les diasporas. Certaines réponses font référence à des entités qui n'existent plus, comme l'Empire perse. Une API onomastique spécialisée maintient des taxonomies strictes et cohérentes pour chaque classification.
Analyse par syllabe vs analyse par lettre
Les LLM traitent les noms au niveau de la syllabe ou du token, ce qui limite leur capacité à détecter les signaux morphologiques fins. Les modèles de Namsor effectuent une analyse morphologique lettre par lettre, capturant des micro-schémas que le traitement par syllabe manque entièrement.
Résultats non déterministes
Le même nom soumis deux fois à un LLM peut produire des réponses différentes. Pour la recherche, la conformité ou tout cas d'usage exigeant de la reproductibilité, c'est rédhibitoire. Une API spécialisée retourne le même résultat à chaque fois.
Latence et coût
Un LLM prend 1 à 5 secondes par nom. Namsor traite un nom en 0,03 seconde. À grande échelle, la différence est l'écart entre des minutes et des jours.
Risque pour la vie privée
Les LLM retiennent les données d'entrée et les utilisent pour l'entraînement par défaut. Les données de noms soumises à un LLM ne peuvent pas être anonymisées ou exclues de l'entraînement du modèle. Namsor propose un mode anonymisé avec chiffrement SHA et un opt-out de l'apprentissage automatique.
Mais les LLM apportent une chose
Malgré leurs limitations sur la précision et la taxonomie, les LLM peuvent fournir un contexte sémantique utile sur les noms. C'est pourquoi Namsor V3 intègre un modèle sémantique à côté de ses modèles morphologique et statistique, capturant le meilleur des capacités des LLM sans leurs faiblesses.
Couverture & capacités
Que se passe-t-il si un nom ne figure pas dans votre jeu de données ?
Namsor le classifie quand même. Contrairement aux outils basés sur des tables de correspondance qui ne retournent aucun résultat lorsqu'un nom est absent de leur liste, Namsor ne dépend pas d'avoir déjà vu un nom auparavant.
Analyse morphologique, pas table de correspondance
Namsor analyse la structure d'un nom lettre par lettre, en extrayant les signaux culturels, linguistiques et géographiques de ses racines, préfixes, suffixes et schémas phonétiques. Cela signifie que Namsor peut classifier un nom rare, un nom translittéré, un nom mal orthographié ou même un nom complètement inventé.
Prouvé par les benchmarks
Dans deux études indépendantes évaluées par les pairs, Namsor a obtenu zéro nom non classifié, tandis que les outils concurrents en laissaient jusqu'à 25 % sans résultat (Sebo, ; Sebo, Shamsi & Wang, ).
99,99 % de taux de classification
Namsor classifie pratiquement tous les noms soumis, quels que soient l'origine, le système d'écriture ou la fréquence.
Combien de noms Namsor peut-il analyser et dans quels alphabets ?
Les modèles de Namsor sont entraînés sur une base propriétaire de 13 milliards de noms uniques, la plus grande du secteur. Plus de 12 milliards de noms ont été traités à travers la plateforme à ce jour, couvrant des individus, des entreprises et des alias de toutes les régions du monde.
22 systèmes d'écriture pris en charge
Namsor analyse les noms écrits en latin, cyrillique, arabe, han (chinois traditionnel et simplifié, kanji), hangul (coréen), hiragana, katakana, devanagari, bengali, géorgien, grec, arménien, thaï, hébreu, kannada, gujarati, tamoul, télougou, gourmoukhî, oriya, birman et malayalam.
99,99 % de taux de classification
Contrairement aux outils basés sur des tables de correspondance qui laissent 8 % à 25 % des noms non classifiés, l'analyse morphologique de Namsor garantit que pratiquement chaque nom reçoit une classification, y compris les noms rares, les noms translittérés et les noms nouvellement inventés. Dans les benchmarks indépendants, Namsor est le seul outil à obtenir systématiquement zéro nom non classifié (Sebo, ; Sebo, Shamsi & Wang, ).
Compréhension des résultats
Pourquoi Namsor propose-t-il 4 fonctionnalités différentes pour analyser l'origine d'un nom ?
Namsor propose quatre fonctionnalités pour analyser l'origine d'un nom parce qu'il y a quatre questions différentes que vous pouvez poser sur une personne, et chacune nécessite une réponse différente. Elles ne sont pas redondantes : un même nom retourne souvent quatre réponses différentes mais également valides.
Les quatre questions et les quatre fonctionnalités
- Originrépond à « D'où vient historiquement la famille de cette personne ? » Elle retourne un code pays (ISO) et couvre131 pays.
- Ethnicity / Diasporarépond à « À quelle identité culturelle cette personne appartient-elle ? » Elle retourne un groupe culturel nommé parmi 139 groupes(par exemple Scottish, Catalan, Hispanic, Jewish, Tatar, AfricanAmerican).
- Country of Residencerépond à « Où cette personne vit-elle actuellement ? » Elle retourne un code pays et couvre247 pays et territoires — la couverture géographique la plus large des quatre fonctionnalités.
- US Race / Ethnicityrépond à « À quelle catégorie raciale duUS Census cette personne appartient-elle ? » Elle retourne l'une dessix catégories du Census : White, Black/African American, Hispanic/Latino, Asian, Native Hawaiian/Pacific Islander, American Indian/Alaska Native.
Pourquoi quatre fonctionnalités au lieu d'une ?
Parce que les quatre concepts ne se recouvrent réellement pas. Une personne peut être ethniquement chinoise, d'origine ancestrale chinoise, vivre aux États-Unis et être classée comme Asian selon les catégories duUS Census — tout cela en même temps. Aucun de ces quatre faits ne peut être déduit d'un autre.
Un nom comme « García » vous dit quelque chose sur les racines ancestrales (espagnoles), mais pas sur l'endroit où la personne vit (cela pourrait être l'Espagne, le Mexique, la Colombie, les US, ou ailleurs) et pas sur l'identité culturelle (cela pourrait être Spanish, Mexican, Hispanic-American, etc.). Un nom comme « Smith » pourrait appartenir à quelqu'un né auxUS depuis dix générations, ou à quelqu'un qui vient récemment de déménager à Londres depuis l'Australie. Une seule fonctionnalité ne peut pas répondre correctement aux quatre questions, c'est pourquoi Namsor propose quatre fonctionnalités spécialisées plutôt qu'une seule approximative.
Un nom, quatre réponses : un exemple
Pour Wei Zhang vivant à San Francisco, les quatre fonctionnalités retournent :
| Fonctionnalité | Retourne | Ce que ça vous dit |
|---|---|---|
| Origin | CN (Chine) | Sa famille vient historiquement de Chine |
| Ethnicity | Chinese | Son identité culturelle est chinoise |
| Country of Residence | US (États-Unis) | Il vit actuellement aux États-Unis |
| US Race | Asian | Sa catégorie raciale du US Census |
Les quatre réponses sont correctes. Elles répondent simplement à des questions différentes. Choisir la bonne fonctionnalité signifie savoir quelle question vous posez réellement.
Pourquoi la couverture diffère selon les fonctionnalités
Les quatre fonctionnalités couvrent des nombres différents de pays ou de groupes parce que chacune est construite autour d'un concept différent :
- Origin (131 pays) : limitée aux pays qui sont historiquement dessources de population. Les pays d'immigration comme les US, le Canada, l'Australie, le Brésil, l'Argentine et la majeure partie de l'Amérique latine ne sont pas dans la taxonomie parce qu'il n'y a pas d'« origine américaine » ou d'« origine brésilienne » unique.
- Ethnicity (139 groupes) : capture les identités culturelles qui ne s'alignent pas toujours sur les frontières nationales — incluant les groupes sous-nationaux (Scottish, Catalan), les groupes transnationaux (Hispanic, Jewish) et les communautés définies par une culture partagée plutôt que par la géographie.
- Country of Residence (247 pays et territoires) : la fonctionnalité la plus complète géographiquement. Couvre tous les pays, incluant les destinations d'immigration, les États récemment formés, les territoires d'outre-mer et les micro-États.
- US Race (6 catégories) : strictement alignée sur la taxonomie duUS Census, utilisée pour le reporting fédéral et l'analyse d'impact disparate.
Un piège courant à connaître
Origin ne retournera pas les États-Unis, le Canada, le Brésil, le Mexique, la Colombie, l'Argentine, l'Australie ou tout autre pays d'immigration pour les personnes qui y vivent. Parce qu'Origin reflète les racines ancestrales, elle retourne plutôt le pays d'où la famille est historiquement venue — typiquement l'Espagne ou le Portugal pour l'Amérique latine, ou divers pays européens, africains ou asiatiques pour les US, le Canada et l'Australie.
Si vous avez besoin du pays où la personne vit réellement, utilisezCountry of Residenceà la place d'Origin. C'est la confusion la plus courante chez les nouveaux utilisateurs de Namsor.
Guide rapide de décision
- Vous savez où la personne vit ou travaille→ utilisez Ethnicity / Diaspora avec le code pays. Option la plus précise pour les pays multiculturels.
- Vous n'avez qu'un nom sans contexte (alias de réseaux sociaux, listes anonymes) → utilisezOrigin. Fonctionne à partir du nom seul.
- Vous devez savoir où quelqu'un vit actuellement → utilisezCountry of Residence. La seule fonctionnalité qui couvre les pays d'immigration comme lesUS, le Canada, l'Australie et l'Amérique latine.
- Vous avez besoin des catégories alignées sur leUS Census → utilisez USRace, idéalement avec un codeZIP pour une précision au niveau du quartier.
- Vous voulez à la fois le détail culturel et la distribution géographique → combinezEthnicity + Country of Residence sur le même jeu de données.
Pourquoi Namsor retourne-t-il l'Espagne ou le Portugal au lieu du pays où la personne vit réellement ?
Réponse courte : la fonctionnalitéOriginde Namsor retourne le pays d'où la famille d'une personne esthistoriquement venue, pas le pays où elle vit actuellement. Pour quelqu'un vivant en Amérique latine, aux États-Unis, au Canada, en Australie ou dans tout autre pays d'immigration, Origin retournera le pays d'ascendance plutôt que le pays de résidence. C'est par conception, pas un bug.
Pourquoi Origin fonctionne ainsi
Origin est construite autour de 131pays qui sont historiquement des sources de population, pas des destinations. Les pays construits en grande partie par l'immigration (États-Unis, Canada, Australie, Nouvelle-Zélande, Brésil, Argentine, et la majeure partie de l'Amérique latine) ne sont pas dans la taxonomie Origin parce qu'il n'y a pas d'origine ancestrale unique partagée par leurs populations.
Pour quelqu'un vivant à São Paulo, les racines ancestrales pourraient être portugaises, italiennes, japonaises, libanaises, allemandes ou africaines. Il n'y a pas d'« origine brésilienne » au sens historique qu'Origin est conçue pour capturer. C'est aussi vrai pour lesUS, où les racines ancestrales couvrent tous les continents. Origin retourne donc le pays d'où la famille est historiquement venue, qui est la seule réponse signifiante que la fonctionnalité peut donner dans sa taxonomie.
Exemples à travers les régions
Voici des résultats typiques qui surprennent souvent les nouveaux utilisateurs :
| Personne | Origin retourne | Pourquoi |
|---|---|---|
| Diego Hernández à Buenos Aires | ES (Espagne) | Hernández est un nom de famille espagnol, pas argentin |
| Ana Costa à Rio de Janeiro | PT (Portugal) | Costa est portugais, pas brésilien |
| John Smith à Boston | GB (Grande-Bretagne) | Smith est un nom de famille britannique, pas américain |
| Liam O'Connor à Sydney | IE (Irlande) | O'Connor est un nom de famille irlandais, pas australien |
| Mohammed Hassan à Toronto | EG (Égypte) ou similaire | Nom arabe, pas d'origine canadienne |
| Hiroshi Tanaka à São Paulo | JP (Japon) | Nom japonais (importante communauté Nikkei au Brésil) |
| Wei Zhang à Vancouver | CN (Chine) | Nom chinois, pas d'origine canadienne |
Dans tous ces cas, Origin fait exactement ce pour quoi elle est conçue : identifier les racines ancestrales. Le « mauvais » pays n'est faux que par rapport à une question qu'Origin n'a jamais été construite pour répondre.
Comment obtenir le pays de résidence réel
Utilisez Country of Residenceà la place d'Origin. Country of Residence est construite autour d'une question différente (où quelqu'un vit actuellement) et couvre 247 pays et territoires, incluant tous les pays d'immigration qu'Origin ne peut pas retourner.
Pour les mêmes exemples ci-dessus, Country of Residence retourne :
- Diego Hernández à Buenos Aires → AR (Argentine)
- Ana Costa à Rio de Janeiro → BR (Brésil)
- John Smith à Boston → US (États-Unis)
- Liam O'Connor à Sydney → AU (Australie)
- Mohammed Hassan à Toronto → CA (Canada)
Si vous avez besoin de l'identité culturelleplutôt que de la géographie (par exemple, identifier la communauté Hispanic, African American ou Asian American à laquelle une personne appartient), utilisezEthnicity / Diasporaà la place. Ethnicity peut retourner des groupes comme HispanoLatino, AfricanAmerican ou AsianAmerican que ni Origin ni Country of Residence ne peuvent représenter.
Quand Origin reste la bonne fonctionnalité
Origin reste le bon choix dans plusieurs cas :
- Vous n'avez aucun contexte sur l'endroit où la personne vit (listes anonymes, alias de réseaux sociaux, archives historiques). Origin est la seule fonctionnalité qui fonctionne à partir d'un nom seul.
- Vous voulez spécifiquement les racines ancestrales pour la généalogie, la recherche d'histoire familiale ou les études migratoires.
- Vous étudiez les mouvements de population historiques, les diasporas ou les schémas migratoires. Dans ce contexte, le pays d'ascendance est exactement le signal que vous voulez.
- Les noms proviennent d'un pays qui est dans la taxonomie Origin (la majeure partie de l'Europe, de l'Asie, de l'Afrique et du Moyen-Orient). Pour ces populations, Origin et Country of Residence retournent souvent la même réponse.
Pour la plupart des cas d'usage d'analytique, de segmentation client, de conformité et de localisation impliquant des pays d'immigration, Country of Residence est la fonctionnalité la plus appropriée.
Démarrage et intégration
Puis-je utiliser Namsor sans coder ?
Oui. Namsor propose quatre moyens no-code d'analyser des noms à grande échelle, sans aucune compétence technique requise.
Outil CSV et Excel
Uploadez un tableur, choisissez le type d'analyse, mappez vos colonnes et téléchargez le fichier enrichi. Prend en charge les fichiers .xls, .xlsx, .csv, .txt et .ods. En savoir plus sur l'outil CSV/Excel.
Add-on Google Sheets
Analysez jusqu'à 500 000 noms directement dans un Google Sheet. Installez l'add-on depuis le Google Workspace Marketplace et lancez vos analyses depuis le panneau latéral.
Automatisations no-code
Connectez Namsor à plus de 8 000 applications via Zapier, Make ou n8n pour automatiser l'analyse de noms dans vos workflows existants (enrichissement CRM, soumissions de formulaires, synchronisation de bases de données). En savoir plus sur les intégrations no-code.
Formulaires interactifs sur les pages de fonctionnalités
Chaque page de fonctionnalité inclut un formulaire interactif en haut de page, vous permettant de lancer de petites analyses directement depuis le site Namsor sans configuration. Utile pour tester une fonctionnalité avant de l'intégrer, valider un résultat ponctuel ou montrer le produit à un collègue.
Quelle option choisir
Utilisez l'add-on Google Sheets pour le travail collaboratif, l'outil CSV/Excel pour les gros traitements ponctuels, les automatisations no-code pour les workflows récurrents, et les formulaires des pages de fonctionnalités pour les tests rapides.
Quels langages de programmation Namsor prend-il en charge, et fournit-il des SDK et un CLI ?
Namsor fournit des SDK officiels et un CLI pour les développeurs, tous open-source sur GitHub.
Langages pris en charge
Des SDK natifs sont disponibles dans quatre langages :
- Java
- Python
- JavaScript
- Go (Golang)
Pour les langages sans SDK officiel, l'API REST de Namsor peut être appelée directement depuis n'importe quel langage qui prend en charge les requêtes HTTP.
SDK
Chaque SDK enveloppe l'API REST de Namsor avec des méthodes typées, la gestion d'authentification et le support du batch, rendant l'intégration simple dans le flux de données de votre application.
CLI (outil en ligne de commande)
Lancez des analyses de noms depuis votre terminal sans écrire de code. Utile pour les tests rapides, les pipelines scriptés et l'automatisation côté serveur.
Comment ils sont construits
Les SDK Namsor sont générés via OpenAPI Generator à partir de la spécification officielle de l'API. Cela garantit la cohérence entre langages et les mises à jour automatiques quand l'API évolue.
Installation
Installation via les gestionnaires de paquets standards :
- Java : Maven ou Gradle (
com.namsor:namsor-sdk2) - Python :
pip install namsor - JavaScript :
npm install namsor - Go :
go get github.com/namsor/namsor-go-sdk
Code source et documentation
Tous les SDK et le CLI sont publiquement disponibles sur l'organisation GitHub de Namsor. En savoir plus sur les outils développeur de Namsor.
Existe-t-il une documentation API ?
Oui. Namsor publie une documentation API complète et interactive, avec des exemples de code, des références d'endpoints et des guides d'authentification. Consultez la documentation API de Namsor.
Ce qui est documenté
Tous les endpoints de toutes les fonctionnalités sont documentés (genre, origine, ethnicité, pays de résidence, origine ethno-raciale US, nom indien, division de nom, type de nom, format de numéro de téléphone), avec les schémas de requête/réponse, les codes d'erreur et les limites de débit.
Exemples de code
Des extraits prêts à copier en JavaScript, Python, Java et Shell (curl) pour chaque endpoint.
Détails de l'API
- URL de base :
https://v2.namsor.com/NamSorAPIv2 - Version actuelle : 2.0.21
- Authentification : clé API (dans l'en-tête)
- Format : JSON
- Support batch : jusqu'à 100 noms par requête POST
Sujets avancés couverts
- Mode learnable : désactivation de l'apprentissage automatique sur vos données
- Mode anonymisé : anonymise les noms de manière irréversible avec SHA avant le stockage, afin qu'aucune donnée de nom brute ne soit conservée
- Explicabilité d'API : sortie détaillée du raisonnement en logique Python
- API Enumerators : liste complète des valeurs de retour pour les alphabets, pays, diasporas, castes, religions, origines ethno-raciales US et types de noms
Quelle est la vitesse de l'API Namsor par nom ?
Un nom seul peut être traité en moins de 30 ms, et un batch de plusieurs centaines de noms se traite généralement de 80 ms à moins de 500 ms, selon la complexité des noms. Namsor est conçu pour l'analyse de noms à fort débit à grande échelle, avec des endpoints batch, des connexions persistantes et une couche d'inférence optimisée.
Traitement batch : de 80 ms à moins de 500 ms pour des centaines de noms
Lorsque vous envoyez un batch de noms via un endpoint POST, Namsor les traite en parallèle côté serveur et retourne la réponse complète de 80 ms à moins de 500 ms pour plusieurs centaines de noms, selon la complexité des noms. Les noms dans des écritures non-latines ou à structure ambiguë peuvent se situer dans la fourchette haute. C'est le mode recommandé pour les charges de production.
Endpoints GET vs POST
- Endpoints GET : traitent un nom par requête, généralement en moins de 30 ms. Utiles pour les tests rapides, le débogage d'intégration et les workflows à très faible volume.
- Endpoints POST : traitent jusqu'à 100 noms par requête. À utiliser pour la production, l'enrichissement en masse et les pipelines batch.
Comment maximiser le débit
- Utiliser les endpoints POST batch plutôt que des boucles d'appels GET
- Exécuter des requêtes batch en parallèle si vous devez traiter des millions de noms
- Pour les très gros volumes, l'outil CSV/Excel traite des millions de noms par fichier, contre 500 000 pour l'add-on Google Sheets
Pourquoi c'est important
À titre de comparaison, les grands modèles de langage (LLM) prennent généralement 1 à 5 secondes par nom pour des tâches de classification similaires. À la vitesse batch de Namsor, traiter 1 million de noms prend des minutes, pas des jours.
Tarification & abonnements
Namsor est-il gratuit ?
Oui. Chaque compte Namsor démarre avec 2 500 crédits gratuits par mois, sans carte bancaire requise.
Ce que vous pouvez faire avec 2 500 crédits
Le nombre de noms que vous pouvez analyser dépend de la fonctionnalité utilisée :
- 2 500 noms pour la détection du genre, la division de nom ou la reconnaissance du type de nom (1 crédit chacun)
- 250 noms pour l'origine, le pays de résidence, l'origine ethno-raciale US ou l'analyse de nom indien (10 crédits chacun)
Pas de limite de temps sur le palier gratuit
Les crédits se renouvellent automatiquement chaque mois. Vous pouvez utiliser Namsor gratuitement de manière illimitée dans le quota gratuit.
Passer à un plan payant si besoin
Les plans payants démarrent à 19 €/mois et débloquent des quotas plus larges, des coûts par crédit plus bas et des fonctionnalités premium. Voir les plans tarifaires Namsor.
Comment fonctionne la tarification de Namsor ?
Namsor utilise un système basé sur des crédits : chaque analyse de nom consomme un nombre défini de crédits, de 1 à 50 selon la fonctionnalité.
Coût en crédits par fonctionnalité
- 1 crédit : analyses simples (genre, division de nom, type de nom)
- 10 crédits : analyses intermédiaires (origine, pays de résidence, origine ethno-raciale US, nom indien)
- 20 crédits : analyses avancées (ethnicité/diaspora)
Deux modes de paiement
- Abonnement mensuel (recommandé) : inclut un quota mensuel de crédits à -30 % par rapport aux achats ponctuels. Les plans vont du Free (2 500 crédits) à l'Enterprise (10 millions de crédits).
- Packs de crédits ponctuels : achetez des crédits selon vos besoins. Les crédits restent valables 120 jours.
Déduplication intelligente
Sur les plans Ultra, Mega et Enterprise, les noms répétés dans le même batch ne sont facturés qu'une fois (jusqu'à 10 ou 20 fois par doublon), réduisant significativement les coûts sur les grandes bases clients.
Sans engagement
Tous les abonnements sont mensuels, sans engagement. Vous pouvez changer de plan ou résilier à tout moment. Voir le détail des tarifs et comparer les plans.
Que se passe-t-il en cas de dépassement de mes crédits mensuels ?
Sur un abonnement Namsor payant, vous continuez d'utiliser l'API sans interruption. Les crédits supplémentaires sont automatiquement facturés à la fin de la période de facturation en cours, à un tarif par crédit qui dépend de votre plan.
Tarification des crédits supplémentaires par plan
- Free : jusqu'à 200 000 crédits supplémentaires/mois à 0,005 € par crédit
- PRO : jusqu'à 500 000 crédits supplémentaires/mois à 0,003 € par crédit
- ULTRA : jusqu'à 2 millions de crédits supplémentaires/mois à 0,002 € par crédit
- MEGA : jusqu'à 10 millions de crédits supplémentaires/mois à 0,001 € par crédit
- ENTERPRISE : jusqu'à 100 millions de crédits supplémentaires/mois à 0,0005 € par crédit
Les plans plus importants offrent des tarifs par crédit plus bas, ce qui permet aux gros utilisateurs de profiter d'économies d'échelle.
Garder le contrôle : limites souple et stricte
Deux limites configurables vous permettent de contrôler précisément combien vous voulez dépenser en crédits supplémentaires :
- Limite stricte : plafonne votre consommation mensuelle totale. Une fois atteinte, votre clé API est automatiquement désactivée jusqu'au prochain cycle de facturation. Cela évite les facturations imprévues.
- Limite souple : un seuil d'alerte. Une fois atteinte, vous recevez un email de notification mais l'API continue de fonctionner. Utile pour obtenir des alertes précoces sans bloquer la production.
Les deux limites peuvent être ajustées à tout moment dans la section Gestion du plan de votre compte.
Besoin de plus que ce que votre plan autorise ?
Pour augmenter votre limite stricte au-delà du plafond de crédits supplémentaires de votre plan, contactez l'équipe Namsor. Nous pouvons également vous aider à choisir le plan le plus économique pour votre volume prévisionnel.
Les crédits sont-ils reportés d'un mois sur l'autre, et combien de temps restent-ils valides ?
La validité des crédits dépend de votre formule : abonnement mensuel ou achat ponctuel de crédits.
Crédits d'abonnement
Les crédits d'abonnement ne sont pas reportés d'un mois sur l'autre. Chaque cycle de facturation vous attribue un nouveau quota à consommer dans le mois. Les crédits non utilisés expirent à la fin du cycle et le mois suivant redémarre avec l'allocation complète du plan. Cela maintient une tarification simple et prévisible.
Achats ponctuels de crédits
Les achats ponctuels de crédits sont valides 120 jours à compter de la date d'achat. Vous pouvez les consommer à votre rythme pendant cette période. Si vous les épuisez avant 120 jours, vous pouvez acheter d'autres crédits à tout moment. La validité de 120 jours redémarre à chaque nouvel achat.
Que se passe-t-il en cas de rétrogradation de plan
Lorsque vous rétrogradez votre plan d'abonnement, les crédits non encore utilisés du plan précédent sont conservés et ajoutés à votre compte. Ils restent valides jusqu'à la fin de la période d'abonnement initiale. Après cette date, le quota du nouveau plan (inférieur) s'applique normalement.
Autrement dit, une rétrogradation ne vous fait jamais perdre de crédits déjà payés.
En résumé
- Crédits d'abonnement : réinitialisés chaque mois, pas de report
- Crédits ponctuels : valides 120 jours
- Rétrogradation de plan : crédits non utilisés conservés jusqu'à la fin de l'ancien cycle de facturation
Pourquoi l'analyse Diaspora coûte-t-elle plus de crédits que la détection du genre ?
Le coût en crédits reflète la complexité computationnelle de chaque prédiction, pas un prix arbitraire. Plus un modèle a de résultats possibles à choisir, plus chaque prédiction demande de ressources.
Détection du genre : un résultat binaire
La détection du genre classifie un nom selon deux résultats possibles (masculin ou féminin sur une échelle continue). Le modèle sous-jacent est compact, entraîné sur une surface de décision plus simple et retourne un résultat rapidement. Coût : 1 crédit par nom.
Diaspora : 139 groupes culturels
L'analyse Diaspora classifie un nom parmi 139 groupes culturels. Chaque groupe porte des signaux linguistiques, morphologiques et culturels distincts que le modèle doit démêler de schémas potentiellement chevauchants. Le modèle est plus grand, les données d'entraînement plus diversifiées, et chaque prédiction nécessite d'évaluer simultanément de nombreux résultats possibles. Coût : 20 crédits par nom.
Comment le tarif évolue selon les fonctionnalités
La même logique s'applique à toutes les fonctionnalités Namsor :
- 1 crédit : classifications simples avec taxonomies binaires ou courtes (Gender, Split Name, Name Type)
- 10 crédits : fonctionnalités à complexité moyenne avec taxonomies au niveau national (Origin avec 131 pays, Country of Residence avec 247 territoires, US Race avec 6 catégories du Census, classifications de noms indiens)
- 11 crédits : analyse combinée (Phone Number Format, qui parse un nom et un numéro de téléphone ensemble)
- 20 crédits : classification culturelle granulaire (Diaspora avec 139 groupes)
- 50 crédits : analyse à entité croisée (Names Corridor, qui analyse l'interaction entre deux noms pour des dynamiques transfrontalières)
Le tarif est proportionnel à ce que vous obtenez
Choisir Diaspora plutôt que Gender, c'est choisir une analyse beaucoup plus profonde, pas la même analyse à un prix plus élevé. Les crédits supplémentaires reflètent le signal, la granularité et l'infrastructure supplémentaires nécessaires pour fournir une classification parmi 139 groupes au lieu de 2.
Existe-t-il une réduction pour les chercheurs ou un usage académique ?
Oui. Namsor anime un programme de soutien à la recherche dédié, avec des réductions allant de 40 % à 99 % sur les crédits d'analyse de noms, conçu pour rendre les méthodes onomastiques rigoureuses accessibles aux équipes académiques, aux doctorants et aux projets de recherche.
Ce qui détermine votre réduction
La réduction exacte dépend de plusieurs facteurs :
- Équipe : taille et composition du groupe de recherche
- Projet : nature, envergure et ambition scientifique de la recherche
- Cible de publication : les revues ou conférences où les résultats paraîtront
Les projets plus larges destinés à des revues à fort impact évaluées par les pairs bénéficient généralement des réductions les plus importantes.
Accompagnement méthodologique direct
Pour les projets de recherche complexes, l'équipe Namsor peut fournir un accompagnement méthodologique sans coût supplémentaire. Cela inclut :
- Conseils sur les fonctionnalités les plus adaptées à votre question de recherche (Origin vs Ethnicity, seuils de classification du genre, couverture des alphabets)
- Conseils sur la structuration du traitement par batch et la gestion des cas limites
- Recommandations pour des pipelines d'analyse reproductibles
Une présence reconnue dans le monde académique
Namsor est déjà utilisé dans plus de 600 publications académiques et cité dans plus de 1 200 résultats Google Scholar. Cela inclut des études publiées par Harvard, Columbia, Yale, HEC et dans des revues de premier plan comme Nature, The Lancet Global Health, PLOS ONE, British Journal of Surgery, Journal of Medical Internet Research, Scientometrics (Springer), Journal of the Medical Library Association et Internal and Emergency Medicine (Springer).
Elsevier et Springer Nature utilisent Namsor en interne pour leurs analyses bibliométriques de genre, notamment pour les rapports SheFigures de la Commission européenne.
Comment candidater
Contactez l'équipe Namsor avec une description courte de votre projet, de votre équipe, de votre méthodologie et de la publication visée. Vous recevrez généralement une offre sur mesure sous quelques jours ouvrés.
Technologie & modèles
Qu'est-ce que Namsor V2 ?
Namsor V2 est la version de production actuelle de Namsor, disponible sur namsor.fr. C'est le produit utilisé par des chercheurs, des entreprises et des institutions dans le monde entier.
Un moteur morphologique spécialisé
Namsor V2 repose sur un modèle morphologique spécialisé qui analyse la structure interne des noms lettre par lettre, en détectant les signaux culturels, linguistiques et géographiques présents dans les racines, préfixes et suffixes. Le modèle est entraîné sur un jeu de données propriétaire de 5 milliards de noms uniques.
Conçu spécifiquement pour l'onomastique
Contrairement aux outils généralistes, Namsor V2 est entièrement dédié à l'analyse des noms propres. Il couvre la détection du genre, l'origine géographique, l'ethnicité et la diaspora, le pays de résidence, l'origine ethno-raciale US, la classification des noms indiens, la division de nom, la reconnaissance du type de nom et le formatage de numéro de téléphone.
Transparent et respectueux de la vie privée
Namsor V2 inclut une API d'Explicabilité qui détaille le raisonnement de chaque classification en Python, ainsi qu'un mode anonymisé (chiffrement SHA) et un opt-out de l'apprentissage automatique.
Validé de manière indépendante
Namsor V2 est la version évaluée par Elsevier, Harvard, l'University of Chicago, Uber et dans plusieurs études évaluées par les pairs. Elle est citée dans plus de 1 200 publications sur Google Scholar.
Qu'est-ce que Namsor V3 et en quoi diffère-t-il de V2 ?
Namsor V3 est la nouvelle génération de la plateforme d'analyse de noms de Namsor, disponible sur demande sur namsor.ai. Elle représente une évolution architecturale fondamentale par rapport à V2.
D'un modèle à trois, sur un jeu de données massivement élargi
Namsor V2 repose sur un seul modèle morphologique entraîné sur 5 milliards de noms uniques. Namsor V3 passe à trois modèles combinés dans un seul pipeline, entraînés sur un jeu de données massivement élargi à 13 milliards de noms uniques :
- Modèle morphologique amélioré : analyse lettre par lettre de la structure des noms (racines, préfixes, suffixes), dans une version profondément retravaillée par rapport à V2
- Modèle statistique (nouveau) : une toute nouvelle couche dans V3, affinant les probabilités sur la base du plus grand jeu de noms propriétaire du secteur, désormais étendu à 13 milliards de noms uniques
- Modèle sémantique (nouveau) : un grand modèle de langage qui capture le sens contextuel et culturel au-delà de ce que la morphologie et les statistiques seules peuvent détecter
Pourquoi ajouter un modèle sémantique ?
Les modèles morphologiques et statistiques excellent en précision et en cohérence mais peuvent manquer les nuances contextuelles qu'un modèle sémantique capture. Par exemple, comprendre qu'un nom est associé à une période historique spécifique, à une classe sociale ou à un dialecte régional. La couche sémantique ajoute cette profondeur sans sacrifier la rapidité, la confidentialité et le déterminisme qui définissent Namsor.
Ce qui reste inchangé
Namsor V3 conserve les principes fondamentaux qui font la confiance des chercheurs et des institutions envers Namsor : résultats déterministes, latence inférieure à la seconde, données anonymisables et apprentissage automatique désactivable.
Ce que V3 débloque au-delà de V2
Namsor V3 est une plateforme distincte avec sa propre API, ouvrant des capacités que V2 ne propose pas :
- Embeddings de noms : représentations vectorielles numériques de noms pour l'intégration dans vos propres modèles d'apprentissage automatique
- Modèles sur mesure : solutions conçues pour la détection de faux noms, la détection de fraude, la détection d'arnaques sentimentales, la translittération de noms et plus
- Model enhancement : utilisez l'intelligence des noms de Namsor pour améliorer vos propres modèles prédictifs (prédiction de churn, customer lifetime value, prévision)
Disponible sur demande
Namsor V3 est accessible sur namsor.ai. Contactez Namsor pour discuter de l'accès et de la migration depuis V2.
Confidentialité, éthique & conformité
Namsor est-il conforme au RGPD, au CCPA et à l'IA Act européen ?
Oui. Namsor est en pleine conformité avec les trois principaux cadres réglementaires régissant la protection des données et l'intelligence artificielle.
RGPD (Règlement Général sur la Protection des Données de l'UE)
Namsor applique les principes de minimisation des données et ne collecte que ce qui est essentiel au fonctionnement du modèle. Les utilisateurs gardent un contrôle total sur leurs données : l'option learnable peut être désactivée pour empêcher leurs données d'alimenter l'entraînement du modèle, et le mode anonymisé chiffre les données de noms avec SHA avant traitement. Un Accord de Traitement des Données (DPA) est disponible en téléchargement.
CCPA (California Consumer Privacy Act)
L'architecture de confidentialité de Namsor répond aux exigences du CCPA en matière de transparence, de droit d'accès et de droit à la suppression des données. Les mêmes mécanismes d'anonymisation et d'opt-out qui assurent la conformité au RGPD satisfont également aux obligations du CCPA.
IA Act européen
Namsor est conçu pour répondre aux exigences de l'IA Act européen en matière de transparence algorithmique et d'équité. L'API d'Explicabilité fournit un détail complet de la production de chaque classification, permettant une traçabilité totale des estimations d'origine, de genre et d'ethnicité. Ce niveau de transparence permet aux organisations d'auditer le raisonnement de Namsor et de démontrer leur conformité dans les cas d'usage réglementés.
Qu'est-ce que le mode anonymisé et comment Namsor chiffre-t-il les données de noms ?
Namsor offre aux utilisateurs un contrôle total sur le stockage et l'utilisation de leurs données, grâce à deux paramètres de confidentialité indépendants disponibles sur la page du compte ou via l'API.
Mode anonymisé
Lorsqu'il est défini sur true, tous les noms traités sont hachés de manière irréversible avec un chiffrement SHA avant d'être stockés. Le nom original ne peut pas être récupéré à partir du hash. Namsor ne conserve que la version hachée pour vérifier la déduplication (traitement intelligent), afin que vous ne soyez pas facturé plusieurs fois pour le même nom. Le traitement intelligent des requêtes redondantes fonctionne même avec des données anonymisées.
Mode learnable
Lorsqu'il est défini sur false, les données traitées avec votre clé API n'alimentent pas l'algorithme d'apprentissage automatique de Namsor. Vos données sont utilisées uniquement pour la classification et ne contribuent pas à l'amélioration du modèle.
Chiffrement du stockage
Tous les journaux de données, anonymisés ou non, sont sécurisés avec un chiffrement AES avant d'être stockés.
Les deux paramètres sont indépendants
Vous pouvez désactiver l'apprentissage automatique tout en conservant des journaux de données complets, ou activer l'anonymisation tout en autorisant l'apprentissage automatique. Les deux contrôles peuvent être combinés pour s'adapter aux exigences de confidentialité de votre organisation.
L'analyse des noms avec Namsor est-elle plus respectueuse de la vie privée que l'utilisation de LLM ?
Oui. Namsor est nettement plus respectueux de la vie privée que d'envoyer des noms à un LLM généraliste et offre des contrôles que la plupart des fournisseurs de LLM ne proposent pas.
Le problème des LLM pour l'analyse de noms
Lorsque vous envoyez des noms à un LLM généraliste, les données généralement :
- Quittent votre infrastructure et voyagent vers un fournisseur tiers
- Peuvent être conservées pour l'entraînement du modèle, selon les conditions du fournisseur
- Sont traitées par un modèle qui n'a pas été conçu pour l'analyse de noms et n'a aucun contrôle de confidentialité dédié
- Sont souvent journalisées dans l'historique des prompts, accessibles aux employés du fournisseur de LLM
En quoi Namsor est différent
- Conçu spécifiquement pour l'analyse de noms. Namsor ne traite que des noms, pas des données ou contextes personnels plus larges. La portée de l'exposition des données est minimale.
- Opt-out de l'apprentissage automatique. Définissez
learnable=falseet vos données n'alimentent jamais l'algorithme de Namsor. Vos noms sont utilisés pour la classification uniquement. - Mode anonymisé. Définissez
anonymized=trueet Namsor hache irréversiblement les noms avec SHA avant journalisation. Aucune donnée brute de nom n'est stockée. - Chiffrement AES. Tous les logs de données sont chiffrés avec AES au repos.
- Accord de Traitement des Données. Un DPA standard est disponible au téléchargement et couvre vos obligations RGPD et CCPA.
L'essentiel
Envoyer des noms à un LLM généraliste expose plus de données, avec moins de contrôles. Namsor limite l'exposition aux noms uniquement et vous donne des contrôles explicites sur le stockage, l'entraînement et l'anonymisation.
Qu'est-ce que la fonctionnalité Explicabilité d'API de Namsor et comment garantit-elle la transparence ?
L'Explicabilité d'API est une fonctionnalité de Namsor qui retourne une explication détaillée de la façon dont l'IA est arrivée à chaque classification, sous forme de formule mathématique fermée incluant à la fois les caractéristiques des données d'entraînement et la logique complète du modèle.
Ce qu'elle retourne
Lorsqu'elle est activée, la réponse API inclut un champ supplémentaire contenant le raisonnement de l'IA sous forme de code Python exécutable. Ce code montre exactement les caractéristiques, poids et chemins de décision qui ont produit le résultat pour ce nom spécifique.
Pourquoi c'est important pour la conformité
L'IA Act européen exige des mécanismes de détection et de correction des biais dans les systèmes d'IA à haut risque. La sortie d'Explicabilité de Namsor peut être conservée comme preuve d'audit, documentant la façon dont chaque inférence a été produite. C'est particulièrement utile pour les secteurs réglementés (finance, assurance, recrutement, santé) où les décisions fondées sur l'inférence démographique doivent être défendables.
Comment elle est livrée
L'explication est retournée sous forme de logique Python. Namsor recommande de supprimer les tabulations et les retours à la ligne pour une exécution propre.
Coût et activation
- Coût supplémentaire : 50 crédits par nom traité
- Contactez l'équipe Namsor pour activer l'Explicabilité sur votre compte
- Ajoutez l'en-tête
X-OPTION-EXPLANABILITY: trueà vos requêtes - Namsor exige une documentation signée et un accord de confidentialité avant activation, afin de protéger la propriété intellectuelle du modèle sous-jacent
À qui s'adresse cette fonctionnalité
Aux équipes qui développent des systèmes d'IA à haut risque, mènent des audits algorithmiques, préparent la documentation de conformité IA Act, ou ont besoin d'une traçabilité détaillée pour leur gouvernance interne.
Cas d'usage
Comment détecter les biais de genre et d'ethnicité dans un jeu de données grâce à l'analyse des noms ?
L'analyse des noms vous permet de mesurer la composition de genre et d'ethnicité de tout jeu de données contenant des noms, même lorsque les données démographiques auto-d éclarées sont manquantes ou incomplètes. Namsor alimente la détection des biais dans les CRM, les pipelines de recrutement, les publications scientifiques, les bases clients et les comités éditoriaux.
Le workflow typique
- Exportez votre jeu de données (CSV, Excel, Google Sheet ou base accessible par API)
- Lancez Namsor sur la colonne de noms avec la fonctionnalité pertinente : Genre, Ethnicité, Origine, ou Origine ethno-raciale US
- Agrégez les résultats selon la dimension qui vous intéresse (équipe, département, année, région)
- Comparez les distributions à votre benchmark de référence (population nationale, moyenne du secteur, représentation cible)
Ce que vous pouvez mesurer
- Représentation de genre : part respective des femmes et des hommes dans les short-lists de recrutement, les promotions, les auteurs, la base clients, les comités éditoriaux
- Représentation ethnique : part de chaque origine culturelle dans les mêmes contextes
- Origine régionale : diversité géographique d'une population
- Distribution ethno-raciale US : pour les rapports propres aux États-Unis alignés sur les catégories du recensement
Pourquoi l'analyse des noms est le bon outil
Les données démographiques auto-déclarées sont souvent manquantes, obsolètes ou incohérentes. L'analyse des noms reconstruit la distribution rétroactivement sur n'importe quel jeu de données historique, sans demander aux personnes de divulguer des informations sensibles. Les résultats de Namsor sont agrégés et statistiques, jamais utilisés pour étiqueter des personnes.
Confidentialité et périmètre
Namsor retourne des probabilités, pas des certitudes. Utilisez l'inférence à partir des noms au niveau du groupe (statistiques, reporting, audits), pas pour prendre des décisions individuelles concernant des personnes. C'est à la fois une bonne pratique éthique et une exigence de l'IA Act européen pour les systèmes qui s'appuient sur des attributs inférés.
Namsor peut-il détecter les faux noms et les bots ?
Oui. Namsor détecte les faux noms avec deux niveaux de précision, selon vos besoins et votre volume.
Niveau basique : Reconnaissance du type de nom combinée à l'Ethnicité
Namsor signale les noms potentiellement faux en combinant sa fonctionnalité Reconnaissance du type de nom (classification anthroponyme, marque, toponyme, pseudonyme) avec l'analyse Ethnicité. Cette approche combinée offre une précision solide pour le screening, le scoring de risque et le travail de détection exploratoire, et est accessible sur demande en contactant l'équipe Namsor.
Niveau expert : embeddings Namsor V3 et modèles sur mesure
Pour une détection de faux noms de niveau production, Namsor V3 fournit des embeddings de noms et des modèles sur mesure qui capturent les schémas morphologiques, phonétiques et culturels fins permettant de distinguer les vrais noms de ceux générés ou synthétiques. Deux options sont disponibles :
- Embeddings : brancher les embeddings Namsor V3 (plusieurs milliers de dimensions par nom) dans votre propre modèle de détection de fraude pour améliorer significativement ses performances
- Modèles sur mesure : faire développer par l'équipe Namsor un modèle de détection de faux noms entraîné sur vos données, livré sous forme d'endpoint API
Amélioration continue avec boucles de feedback. Les modèles custom V3 peuvent être enrichis d'une boucle de feedback : à mesure que votre équipe étiquette les noms détectés comme vrais ou faux positifs, le modèle se réentraîne sur ce signal et s'améliore au fil du temps. Cette approche adaptative maintient une précision de détection élevée même quand les schémas de fraude évoluent.
Précision prouvée
Lors d'un test sur des données réelles fournies par l'un des leaders mondiaux du transfert d'argent, un modèle custom Namsor V3 a atteint plus de 94 % de précision dans la détection des faux noms.
Pourquoi ça fonctionne
Les faux noms, les bots et les profils synthétiques laissent des traces linguistiques : séquences de phonèmes improbables, incohérences inter-culturelles, schémas morphologiques à faible fréquence. Namsor V3 a été entraîné sur 13 milliards de noms et capture ces signaux dans ses embeddings, surpassant l'apprentissage automatique anti-fraude générique qui s'appuie uniquement sur des caractéristiques comportementales ou de réseau.
À qui ça s'adresse
Équipes trust and safety, unités de prévention de la fraude, flux KYC et d'onboarding, marketplaces, plateformes sociales, néobanques, sociétés de transfert d'argent et d'envois de fonds.
Pour commencer
Pour discuter de la détection de faux noms pour votre cas d'usage, contactez l'équipe Namsor. Pour en savoir plus sur les embeddings Namsor V3 et les modèles sur mesure, visitez namsor.ai.
Comment l'analyse des noms peut-elle améliorer le KYC et la prévention de la fraude ?
L'analyse des noms renforce le KYC et la prévention de la fraude en enrichissant les données d'identité, en scorant le risque et en signalant les schémas suspects à plusieurs étapes du parcours client.
Où s'intègre l'analyse des noms dans un workflow KYC
- Onboarding : vérifier qu'un nom soumis correspond aux schémas attendus pour le pays, la langue et l'origine culturelle déclarés. Repérer les incohérences avant l'ouverture d'un compte.
- Scoring de risque : intégrer des caractéristiques dérivées du nom (origine, ethnicité, cohérence culturelle) dans votre moteur de risque pour améliorer le signal sans exiger de PII supplémentaires.
- Surveillance continue : réanalyser les noms périodiquement pour détecter une manipulation d'identité ou une dérive progressive dans un profil client.
- Appui au screening de sanctions et PEP : normaliser et translittérer les noms entre alphabets avant de les comparer aux listes de surveillance, réduisant les faux négatifs sur les noms non-latins.
Détection de schémas de fraude
Namsor aide les équipes anti-fraude à détecter des schémas associés à plusieurs types de criminalité financière, notamment les tentatives de prise de contrôle de compte, l'usurpation d'identité, les arnaques sentimentales et la fraude par virement autorisé (APP). Dans ces cas, analyser les noms impliqués dans une transaction, en parallèle d'autres signaux de risque, révèle des anomalies que les modèles de fraude purement comportementaux ou basés sur le réseau manquent.
Pour protéger l'intégrité de ces systèmes de détection, Namsor ne publie pas les marqueurs linguistiques ou statistiques spécifiques utilisés dans ses modèles de fraude. Les clients reçoivent ces détails sous accord de confidentialité lors de l'intégration.
Usage en conditions réelles
Plusieurs leaders mondiaux du transfert d'argent et des envois de fonds utilisent Namsor pour renforcer leur stack de prévention de la fraude, bénéficiant de la couverture de 22 alphabets, du taux de classification de 99,99 % et des modèles custom V3 entraînés sur des données spécifiques au secteur.
Pourquoi l'analyse des noms complète les modèles de fraude traditionnels
Les modèles comportementaux (schémas de connexion, empreintes d'appareils, vitesse de transaction) détectent ce que quelqu'un fait. L'analyse des noms aide à détecter qui quelqu'un prétend être. Combinés, ils réduisent les faux positifs et détectent les fraudes sophistiquées basées sur l'identité que les signaux comportementaux seuls manquent.
Pour commencer
Pour discuter du KYC et de la prévention de la fraude pour votre stack spécifique, contactez l'équipe Namsor. Pour les modèles de détection de fraude sur mesure de niveau production, visitez namsor.ai.
Comment l'analyse des noms peut-elle alimenter la segmentation marketing et l'analyse d'audience ?
L'analyse des noms permet aux équipes marketing de segmenter les audiences, de personnaliser les campagnes et d'analyser les bases de clients ou d'influenceurs par origine culturelle, langue, genre et ethnicité, à partir de données que la plupart des organisations possèdent déjà : les noms.
Segmentation marketing internationale
Divisez votre base de contacts, votre liste email ou votre CRM par origine culturelle, groupe linguistique ou pays de résidence pour lancer des campagnes ciblées. Personnalisez le ton, la langue, l'imagerie et les offres par segment. Allouez le budget média en fonction de votre véritable audience, et non de celle que vous aviez supposée.
Analyse d'audience sur votre base existante
Comprenez la véritable composition de votre base clients, de vos abonnés à la newsletter, des utilisateurs de votre application ou des membres de votre communauté. Namsor reconstruit la distribution démographique rétroactivement, même lorsque les données auto-déclarées sont manquantes ou incomplètes. Questions typiques auxquelles vous pouvez répondre :
- Quelle est la part de mes clients issus de chaque origine culturelle ?
- Comment la distribution de genre varie-t-elle entre mes lignes de produits ?
- Quelles régions sont sur- ou sous-représentées par rapport à mon marché cible ?
- Comment la composition de mon audience a-t-elle évolué sur les 3 dernières années ?
Cartographie d'influenceurs et de partenariats
Pour le marketing d'influence, les partenariats de marque ou les programmes communautaires, Namsor aide à identifier et regrouper des créateurs par origine culturelle, langue et genre. Cela permet de :
- Constituer des sélections d'influenceurs diversifiées qui reflètent vos marchés cibles
- Associer les créateurs aux campagnes selon l'affinité linguistique ou culturelle
- Mesurer la portée démographique de la base d'abonnés d'un influenceur (lorsque les noms des abonnés sont accessibles)
Intégration à votre stack
Namsor se connecte aux CRM et plateformes marketing via l'add-on Google Sheets, l'outil CSV/Excel, Zapier, Make, n8n, ou l'API REST. Les analyses s'exécutent en temps réel sur les soumissions de formulaires ou en batch sur les bases existantes.
Confidentialité et conformité
Utilisez la segmentation par les noms au niveau agrégé pour la stratégie de campagne, pas pour prendre des décisions individuelles concernant des consommateurs. Namsor est conforme au RGPD et au CCPA et propose un mode anonymisé pour les workflows sensibles à la confidentialité.
Comment Namsor est-il utilisé pour la détection des biais algorithmiques et la conformité à l'IA Act européen ?
L'IA Act européen impose aux fournisseurs et aux déployeurs de systèmes d'IA à haut risque de détecter, documenter et atténuer les biais discriminatoires. Namsor répond à cette exigence sur deux volets : auditer les biais des systèmes d'IA existants, et documenter les décisions d'IA avec une piste d'audit vérifiable.
Auditer un système d'IA existant pour détecter les biais
Lorsqu'un système d'IA (outil de recrutement, modèle de scoring de crédit, moteur de tarification d'assurance, détecteur de fraude) prend des décisions concernant des personnes, l'IA Act exige des preuves que les résultats ne sont pas systématiquement biaisés contre les groupes protégés. Namsor vous permet de le vérifier en :
- Soumettant les noms de vos données d'entraînement ou de vos journaux de production à Namsor pour inférer le genre, l'origine ou l'ethnicité au niveau agrégé
- Segmentant les décisions de votre système d'IA (accepté/refusé, approuvé/rejeté, score élevé/faible) selon ces groupes démographiques inférés
- Mesurant les disparités de résultats entre groupes et en les comparant à des seuils d'équité (ratio d'impact disparate, parité statistique, chances égalisées)
Cette approche s'inscrit directement dans les obligations de détection et de correction des biais définies à l'Article 10 de l'IA Act (gouvernance des données) et à l'Article 15 (exactitude, robustesse et cybersécurité).
Documenter les décisions d'IA avec l'Explicabilité
Lorsque votre propre système d'IA utilise Namsor pour ses inférences, la fonctionnalité d'Explicabilité d'API retourne le raisonnement complet de chaque classification sous forme de code Python exécutable, incluant les caractéristiques d'entraînement et les poids du modèle. Cette sortie peut être conservée comme preuve d'audit vérifiable pour chaque décision, ce qui satisfait les exigences de transparence de l'Article 13 de l'IA Act (transparence et information des utilisateurs).
L'exception sur les données sensibles
L'IA Act européen introduit une exception spécifique à l'Article 10(5) : les fournisseurs peuvent traiter des catégories particulières de données personnelles (origine ethnique, identité de genre) spécifiquement pour détecter et corriger les biais dans les systèmes d'IA à haut risque, au titre d'un intérêt public substantiel. L'inférence à partir des noms de Namsor est conçue pour répondre à ce cas d'usage licite tout en respectant les principes de minimisation des données.
Secteurs utilisant Namsor pour se préparer à l'IA Act
- Finance et assurance : audits de biais sur les modèles de scoring de crédit, de tarification et de souscription
- Recrutement et RH : tests d'équité sur le tri des CV et les algorithmes de classement des candidats
- Santé : analyse d'équité des outils d'aide à la décision clinique
- Secteur public : audits des systèmes de décision algorithmiques utilisés par les administrations
Principe d'usage essentiel
Utilisez les résultats de Namsor uniquement au niveau du groupe pour la détection et la correction des biais. N'utilisez pas l'inférence à partir des noms pour prendre des décisions individuelles concernant des personnes : cela contredirait l'objectif de l'IA Act et créerait de nouveaux risques de discrimination.
Pour commencer
Pour activer l'Explicabilité et obtenir un accompagnement sur la documentation IA Act, contactez l'équipe Namsor. Un accord de confidentialité signé est requis avant l'activation de l'Explicabilité.
Comment Namsor peut-il améliorer la qualité des données et enrichir les bases CRM ?
Namsor aide les équipes data à nettoyer, valider et enrichir les bases de données clients à grande échelle en transformant des noms bruts en attributs structurés et exploitables : séparation prénom/nom, détection des entrées invalides, inférence du genre, de l'origine, du pays de résidence, de l'ethnicité et plus.
Nettoyage et validation des données
- Détecter les entrées invalides : la fonctionnalité Reconnaissance du type de nom détecte les entrées non humaines dans vos champs noms (noms de marques, placeholders comme « TEST » ou « Customer », toponymes, chaînes incohérentes). Filtrez-les avant qu'elles ne polluent les processus en aval.
- Diviser les noms complets : lorsque le prénom et le nom de famille sont fusionnés dans un seul champ, la fonctionnalité Division de nom les sépare correctement, y compris pour les noms qui ne suivent pas les conventions occidentales.
- Normaliser entre alphabets : Namsor gère les noms dans 22 systèmes d'écriture, réduisant les incohérences de données dans les bases internationales.
Enrichissement des données
Ajoutez des attributs à forte valeur à chaque contact de votre CRM :
- Genre : remplir un champ genre lorsqu'il est manquant, pour l'analytique ou la personnalisation
- Origine : pays d'origine culturelle (131 pays pris en charge)
- Pays de résidence : inférer où un contact vit actuellement (247 pays pris en charge)
- Ethnicité / Diaspora : origine culturelle pour la segmentation (139 ethnicités prises en charge)
- Origine ethno-raciale US : pour les rapports propres aux États-Unis alignés sur les 6 catégories du recensement
Déduplication avancée avec Namsor V3
La déduplication CRM traditionnelle échoue sur les variantes de noms. Les modèles custom Namsor V3 utilisent des embeddings de noms pour calculer la similarité sémantique entre variantes, détectant les doublons que les algorithmes de correspondance exacte manquent :
- Abréviations et réorganisations : « Jean Dupont », « J. Dupont », « Jean Du Pont » et « Dupont, Jean » reconnus comme la même personne
- Accents et signes diacritiques : « François » et « Francois » correspondent
- Fautes de frappe : « Catherine », « Catherien » et « Cathrine » correspondent malgré les erreurs de saisie
- Variantes de translittération : « Mohammed », « Mohamed » et « Muhammad » reconnus comme le même nom arabe ; « Владимир », « Vladimir » et « Wladimir » identifiés comme le même nom écrit dans différentes écritures
C'est particulièrement utile pour :
- Bases de données historiques : réconcilier des contacts historiques saisis selon des conventions de formatage incohérentes
- CRM internationaux : unifier les enregistrements clients entre langues, écritures et conventions de nommage régionales
- Consolidation de données post-fusion : fusionner les bases clients de plusieurs sources sans perdre ni dupliquer d'enregistrements
La déduplication avancée est disponible via les modèles custom V3. Pour discuter de votre cas d'usage spécifique, contactez l'équipe Namsor ou visitez namsor.ai.
Confidentialité et principe d'usage
Les attributs enrichis sont des inférences statistiques, pas des faits certifiés. Utilisez-les au niveau agrégé pour la segmentation, l'analytique et le reporting. Évitez d'utiliser les attributs inférés pour prendre des décisions individuelles concernant des consommateurs. Namsor est conforme au RGPD et au CCPA et propose un mode anonymisé pour les workflows sensibles à la confidentialité.
Comment les organisations internationales utilisent-elles l'analyse des noms pour la cartographie des migrations et des diasporas ?
Les organisations internationales utilisent l'analyse des noms pour cartographier les diasporas, suivre les flux migratoires et estimer la taille et la composition des populations lorsque les données traditionnelles de recensement ou d'enregistrement sont manquantes, incomplètes ou obsolètes. Namsor a alimenté plusieurs études publiées pour les agences des ONU, la Banque mondiale et des gouvernements municipaux.
Le workflow type
- Collecter les données de noms depuis des sources professionnelles : bases de chercheurs (ORCID), plateformes de veille du marché du travail (LinkedIn, sites d'emploi), registres publics ou données administratives
- Lancer Namsor pour inférer l'origine, l'ethnicité ou l'appartenance à une diaspora au niveau agrégé
- Appliquer des filtres d'affinage : exclure les faux positifs des groupes culturels apparentés (par exemple distinguer les noms brésiliens des noms portugais ou angolais), ajouter des filtres mots-clés sur les villes ou institutions d'origine
- Enrichir avec des attributs professionnels et éducatifs : intitulés de poste, niveau de diplôme, secteur, employeur, domaine d'études
- Agréger par géographie ou segment professionnel : mesurer la part de chaque groupe diasporique par pays, région, ville, secteur ou institution
Ce que vous pouvez mesurer
- Taille d'une diaspora à l'étranger : combien de personnes d'origine X vivent actuellement dans le pays Y (par exemple, l'étude de l'OIM a identifié 26 945 chercheurs d'origine arménienne vivant hors d'Arménie)
- Composition professionnelle et éducative : niveaux de diplôme, domaines d'études, secteurs, ancienneté et types d'employeurs au sein d'une diaspora
- Concentration géographique : où les communautés diasporiques s'installent dans un pays d'accueil, jusqu'au niveau de l'aire métropolitaine ou du quartier
- Spécialisation par compétences et par secteur : dans quels secteurs une diaspora est concentrée (santé, ingénierie, recherche, tech), permettant des programmes ciblés de transfert de connaissances
Exemples publiés
- L'OIM (Organisation internationale pour les migrations) a cartographié la diaspora arménienne aux États-Unis et en France en exécutant l'analyse onomastique Namsor sur la base de chercheurs ORCID et les profils professionnels ZoomInfo, identifiant 26 945 scientifiques d'origine arménienne vivant hors d'Arménie (lire l'étude). Namsor a également alimenté les projets de cartographie de diaspora de l'OIM pour la Géorgie et l'Azerbaïdjan.
- Les Nations unies (CEPALC) ont utilisé Namsor pour leur étude Tracking the digital footprint in Latin America and the Caribbean, appliquant l'inférence à partir des noms pour comprendre les flux de population dans la région (lire l'étude).
- La Boston Planning & Development Agency a cartographié la diaspora scientifique brésilienne dans le Grand Boston en combinant les modèles diaspora et origine de Namsor avec des données du marché du travail, en appliquant des filtres pour distinguer les professionnels brésiliens des autres groupes lusophones (portugais, angolais, capverdien) (lire le rapport).
Pourquoi l'analyse des noms est efficace pour ce cas d'usage
La recherche sur les migrations et les diasporas se heurte souvent au problème des données auto-déclarées manquantes : les personnes ne déclarent pas toujours leur ethnicité ou leur origine dans les systèmes administratifs, la couverture du recensement varie, et les migrants de deuxième génération sont souvent invisibles dans les statistiques traditionnelles. L'analyse des noms reconstruit le tableau démographique rétroactivement à partir de données déjà disponibles (noms dans les registres professionnels, auteurs de publications, archives publiques), sans nécessiter de nouvelle collecte de données.
Confidentialité et principe d'agrégation
La cartographie des diasporas avec Namsor se fait toujours au niveau agrégé (populations, quartiers, groupes professionnels), jamais pour identifier ou suivre des personnes spécifiques. C'est à la fois une exigence éthique et une bonne pratique de conformité au RGPD et au CCPA.
Namsor peut-il auto-détecter la langue ou la formule de salutation à partir d'un nom de contact ?
Oui. En combinant inférence du genre, de l'origine et du numéro de téléphone, Namsor permet d'auto-détecter la langue, la formule de salutation, le préfixe téléphonique et le pays à partir de données de contact basiques, sans demander à l'utilisateur de remplir des champs supplémentaires.
Salutation et langue à partir d'un nom
- L'inférence du genre détermine si le contact est masculin ou féminin, permettant le bon titre (M. / Mme / Mlle)
- L'inférence de l'origine ou du pays de résidence identifie le contexte culturel et linguistique du contact
- Combinez les deux pour générer une formule de salutation localisée : « Herr » pour un homme allemand, « Madame » pour une femme française, « Señor » pour un homme espagnol, « Dear Ms » pour une femme anglophone
Détection de la langue à partir d'un nom
La fonctionnalité d'origine de Namsor retourne le pays d'origine culturelle le plus probable à partir d'un nom. Mappez ce pays à sa langue principale et vous avez un signal fiable de préférence linguistique, sans demander au contact de remplir un champ supplémentaire.
Préfixe téléphonique et pays à partir d'un nom et d'un numéro
Lorsqu'un contact fournit un numéro de téléphone en plus de son nom, la fonctionnalité Phone Number Format de Namsor identifie le préfixe téléphonique international, valide la structure du numéro et infère le code pays. C'est particulièrement utile quand :
- Les utilisateurs saisissent un numéro de téléphone sans le préfixe international
- Vous devez valider qu'un numéro de téléphone est cohérent avec l'origine du nom du contact (signal de fraude en cas d'incohérence)
- Vous voulez router automatiquement les appels ou SMS vers la bonne équipe régionale
Où l'utiliser
- Formulaires de contact : pré-remplir automatiquement les champs salutation, langue et préfixe téléphonique dès que le nom et le numéro sont saisis
- Personnalisation d'emails : générer des salutations correctement genrées et localisées à grande échelle
- Onboarding CRM : enrichir les nouveaux contacts avec les champs langue et pays pour le routage vers la bonne équipe support ou commerciale
- Routage de centre d'appels : utilisez la langue inférée et le pays du téléphone pour connecter les appelants à des agents qui parlent leur langue
- Publipostage et impression : produire une correspondance correctement adressée et titrée à travers les marchés
Coût
Gender coûte 1 crédit. Origin coûte 10 crédits. Phone Number Format coûte 11 crédits. Pour un enrichissement de contact complet (salutation + langue + validation du téléphone), exécuter les trois fonctionnalités sur un seul contact coûte 22 crédits.
Modèles personnalisés
Namsor développe-t-il des modèles d'analyse de noms sur mesure ?
Oui. Namsor développe des modèles d'IA sur mesure entraînés sur vos données et adaptés à vos besoins de classification spécifiques, livrés sous forme d'endpoint API dédié sur la plateforme Namsor V3.
Qu'est-ce qu'un modèle sur mesure
Un modèle sur mesure étend les fonctionnalités standards de Namsor au-delà des classifications intégrées (genre, origine, ethnicité). Au lieu d'une taxonomie générique, le modèle est entraîné pour répondre à une question spécifique à votre activité :
- « Ce nom est-il probablement frauduleux ? »
- « À quel groupe de caste appartient ce nom indien ? »
- « Ce nom est-il une translittération du mandarin ? »
- « Ces deux enregistrements correspondent-ils à la même personne ? » (déduplication entre écritures et formats)
- « Ce nom correspond-il à une entrée sur une liste de sanctions ou PEP ? » (optimisation du screening de sanctions avec matching flou entre alphabets et variantes de translittération)
- « Quels prospects de ma base ressemblent le plus à mes meilleurs clients ? » (lookalike et expansion d'audience par recherche vectorielle avec similarité cosinus sur les embeddings de noms pour identifier des prospects aux profils culturels et démographiques similaires)
Types de modèles sur mesure
- Modèles de classification : attribuent les noms à des catégories propres à votre domaine (caste, religion, tribu, groupe linguistique, segment client)
- Modèles de détection : identifient des schémas dans les noms (faux noms, bots, profils synthétiques)
- Modèles de matching : comparent les enregistrements de noms pour détecter les doublons entre formats, écritures et translittérations, ou pour optimiser le screening des listes de sanctions et PEP avec du matching flou
- Modèles de scoring : attribuent une probabilité ou un score de risque à chaque nom selon vos critères
- Modèles lookalike : utilisent la recherche vectorielle (similarité cosinus) sur les embeddings de noms pour trouver des prospects aux profils culturels et démographiques similaires à vos meilleurs clients
- Modèles de translittération : convertissent les noms entre systèmes d'écriture (par exemple mandarin vers latin, arabe vers latin)
Comment se déroule le processus
- Cadrage : définition de l'objectif de classification et de la taxonomie cible avec l'équipe Namsor
- Échange de données : partage de données d'entraînement étiquetées sous accord de confidentialité (Namsor fournit des recommandations sur le format et le volume des données)
- Entraînement du modèle : Namsor entraîne un modèle sur mesure en utilisant les embeddings V3 (plusieurs milliers de dimensions par nom) et vos données étiquetées
- Validation : revue de la précision, du rappel et des cas limites sur un jeu de test holdout
- Livraison : le modèle est déployé comme endpoint API dédié, prêt pour l'intégration en production
- Amélioration continue : optionnellement, mise en place d'une boucle de feedback où votre équipe étiquette les prédictions comme correctes ou incorrectes, et le modèle se réentraîne périodiquement sur ce signal
Ce que vous recevez
- Un endpoint API dédié sur la plateforme Namsor V3 (namsor.ai)
- Entraîné sur vos données, calibré sur votre taxonomie
- Inférence batch et temps réel
- Boucle de feedback optionnelle pour amélioration continue
- Documentation et support à l'intégration
Contactez l'équipe Namsor pour discuter de vos besoins en modèles sur mesure.
Pour quels secteurs Namsor a-t-il développé des modèles d'IA sur mesure ?
Namsor a développé des modèles d'IA sur mesure pour des organisations de plusieurs secteurs. Bien que la plupart des engagements soient couverts par des accords de confidentialité, les exemples suivants illustrent l'éventail de domaines où les embeddings Namsor V3 et les modèles sur mesure produisent des résultats.
Organisations internationales et développement
La Banque mondiale et l'OIM (Organisation internationale pour les migrations) ont commandé des modèles sur mesure pour les noms indiens : classification du groupe de caste, estimation de la religion et identification de la sous-région, permettant la recherche sur la migration interne et les inégalités sociales.
Namsor a également développé des modèles avec différents niveaux de granularité géographique et ethnique selon les besoins du client, y compris la classification d'ethnicité en Australie et des modèles de segmentation régionale adaptés à des contextes nationaux spécifiques.
Services financiers et transfert d'argent
Des modèles custom V3 détectent les faux noms, les identités frauduleuses et les schémas de fraude par virement autorisé (APP) dans les flux de transactions. Lors de tests sur des données réelles fournies par l'un des leaders mondiaux du transfert d'argent, un modèle sur mesure a atteint plus de 94 % de précision dans la détection des faux noms.
Transport et aviation
Des modèles custom basés sur les embeddings de noms alimentent la prévision des flux de passagers dans les aéroports internationaux, en exploitant le profil culturel et géographique des noms des passagers pour améliorer les prévisions de demande par route et par saison.
Vérification d'identité internationale
Namsor a développé des modèles de translittération bidirectionnelle pour un fournisseur mondial de vérification d'identité : du latin au mandarin et du mandarin au latin, du latin au kanji et du kanji au latin. Ces modèles alimentent un moteur intelligent de traduction de noms utilisé pour le KYC, la vérification d'identité électronique et la détection PEP/sanctions à travers différentes écritures.
Sécurité et renseignement
Des modèles sur mesure soutiennent les workflows d'analyse de risques et de renseignement où l'inférence démographique à partir des noms est un signal critique.
Marketing et social listening
Namsor développe actuellement des modèles sur mesure pour la détection de comptes synthétiques sur les plateformes sociales, aidant les marques et les agences à identifier les faux profils et à évaluer l'authenticité des audiences en ligne.
Échanger sur votre secteur
Ces exemples ne représentent qu'une fraction de ce que les modèles custom Namsor V3 permettent. Pour explorer un modèle adapté à votre domaine, contactez l'équipe Namsor ou visitez namsor.ai.
