une recherche phonétique de doublons

Capture d'écran d'un fichier excel comprenant une liste de noms et prénoms dans deux colonnes.

Permet de lister les doublons dans une liste de noms sur la base d’une proximité phonétique.

import pandas as pd
from fuzzywuzzy import fuzz

# Charger la liste de noms et prénoms à partir du fichier Excel
data = pd.read_excel("liste_noms_prenoms.xlsx")

# Fonction pour trouver les correspondances phonétiques
def find_similar_names(df):
    similar_pairs = []
    for i in range(len(df)):
        for j in range(i+1, len(df)):
            similarity = fuzz.ratio(df.iloc[i]["Nom"] + df.iloc[i]["Prénom"], 
                                    df.iloc[j]["Nom"] + df.iloc[j]["Prénom"])
            if similarity >= 60:  # Ajustez le seuil de similarité selon vos besoins
                similar_pairs.append((df.iloc[i]["Nom"], df.iloc[i]["Prénom"],
                                      df.iloc[j]["Nom"], df.iloc[j]["Prénom"]))
    return similar_pairs

# Trouver les paires de noms et prénoms proches phonétiquement
similar_names = find_similar_names(data)

# Afficher les paires de noms et prénoms proches phonétiquement
for pair in similar_names:
    print(pair)

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *