Moteur de recherche sur des bulletins de l'ADIT

Moteur de recherche sur des bulletins de l'ADIT

  • Développement complet d'un moteur de recherche en Python appliqué à un corpus de bulletins ADIT, intégrant correction orthographique, lemmatisation, indexation inversée et interface graphique.
2023
UTC

Technologies utilisées

PythonSpaCySnowballJSONXMLDash

Détails du projet

  • Nettoyage du corpus HTML et transformation en XML structuré, avec extraction fine des métadonnées.
  • Construction d'un anti-dictionnaire basé sur le score tf-idf, renforcé par une analyse statistique (loi de Zipf-Mandelbrot).
  • Indexation optimisée via lemmatisation spaCy et normalisation des entités par distance de Levenshtein.
  • Traitement avancé des requêtes en langage naturel via analyse de patterns et conversion en JSON.
  • Interface web interactive en Dash, avec tri par pertinence/date, et moteur évalué avec des métriques de précision, rappel et F1.

Galerie de photos

Moteur de recherche sur des bulletins de l'ADIT - Image 1

Rapport PDF

Consultez le rapport associé à ce projet.

Moteur de recherche sur des bulletins de l'ADIT - Rapport PDF

Télécharger le PDF

Intéressé par ce projet ?

N'hésitez pas à me contacter pour en discuter ou voir d'autres projets.