
⏳
Moteur de recherche sur des bulletins de l'ADIT
- Développement complet d'un moteur de recherche en Python appliqué à un corpus de bulletins ADIT, intégrant correction orthographique, lemmatisation, indexation inversée et interface graphique.
2023
UTC
Technologies utilisées
PythonSpaCySnowballJSONXMLDash
Détails du projet
- Nettoyage du corpus HTML et transformation en XML structuré, avec extraction fine des métadonnées.
- Construction d'un anti-dictionnaire basé sur le score tf-idf, renforcé par une analyse statistique (loi de Zipf-Mandelbrot).
- Indexation optimisée via lemmatisation spaCy et normalisation des entités par distance de Levenshtein.
- Traitement avancé des requêtes en langage naturel via analyse de patterns et conversion en JSON.
- Interface web interactive en Dash, avec tri par pertinence/date, et moteur évalué avec des métriques de précision, rappel et F1.
Galerie de photos

⏳
Rapport PDF
Consultez le rapport associé à ce projet.
Moteur de recherche sur des bulletins de l'ADIT - Rapport PDF
Télécharger le PDFIntéressé par ce projet ?
N'hésitez pas à me contacter pour en discuter ou voir d'autres projets.