une recherche phonétique de doublons

Capture d'écran d'un fichier excel comprenant une liste de noms et prénoms dans deux colonnes.

Permet de lister les doublons dans une liste de noms sur la base d’une proximité phonétique.

import pandas as pd
from fuzzywuzzy import fuzz

# Charger la liste de noms et prénoms à partir du fichier Excel
data = pd.read_excel("liste_noms_prenoms.xlsx")

# Fonction pour trouver les correspondances phonétiques
def find_similar_names(df):
    similar_pairs = []
    for i in range(len(df)):
        for j in range(i+1, len(df)):
            similarity = fuzz.ratio(df.iloc[i]["Nom"] + df.iloc[i]["Prénom"], 
                                    df.iloc[j]["Nom"] + df.iloc[j]["Prénom"])
            if similarity >= 60:  # Ajustez le seuil de similarité selon vos besoins
                similar_pairs.append((df.iloc[i]["Nom"], df.iloc[i]["Prénom"],
                                      df.iloc[j]["Nom"], df.iloc[j]["Prénom"]))
    return similar_pairs

# Trouver les paires de noms et prénoms proches phonétiquement
similar_names = find_similar_names(data)

# Afficher les paires de noms et prénoms proches phonétiquement
for pair in similar_names:
    print(pair)

une recherche phonétique de doublons

Published by French Python

Laisser un commentaire Annuler la réponse