[EPIC] Créer la base de connaissance externe sur Albert #23

rprebot · 2024-12-03T11:34:32Z

📌 Contexte

Le retrieval des bons documents se fera en utilisant Albert qui héberge les données sur une base vectorielle Qdrant, permettant d'utiliser un algorithme de recherche de similarité sémantique pour rapprocher la question de l'utilisateur des "chunks" de la base vectorielle.

🚀 Objectif

Créer des "collections" publiques sur Albert (une par source de droit identifiée), en s'appuyant sur leur API d'import de données qui gère aussi le découpage des documents en "chunks", l'embedding et la vectorisation

Les sources de données prioritaires identifiées sont :

les fiches pratiques service public
les fiches pratiques ministères du travail
les pages infos (contributions) CDTN
l'ensemble des articles du code du travail

🔎 Features attendues - MVP

Dans la version MVP, on a besoin d'importer en "one-shot" l'ensemble des sources de données prioritaires à jour de la date d'import, avec une liste de meta données minimales.

[ ]
[BDD externe] Créer des collections sur Albert par typologie de documents #3
[BDD externe] Insérer l'ensemble des données prioritaires dans les collections Albert #6
[BDD externe] Ingérer les articles du code du travail dans une collection Albert #9
[BDD externe] Ingérer les fiches pratiques services publiques dans une collection publique Albert #10
[BDD externe] Ecrire le script permettant de convertir une page infos CDTN en vecteur #11
[BDD externe] Ingérer les fiches pratiques ministère du travail dans une collection publique Albert #12
[BDD externe] Créer une collections pour les contributions (Q/R) code du travail numérique et y transférer les contributions à jour #29
[BDD externe] Récupérer le contenu des fiches services-public sans les balises XML #34
[BDD externe] Ré-ingérer les collections créés suite à la perte du token #35

🤖 Features attendues - Post-MVP

En version post-MVP, des sources de données complémentaires seront utilisées (ex : conventions collectives et jurisprudences), le retrieval pourra être améliorée par l'ajout de meta données (keywords, summary, questions, ...), et les données pourront être mises à jour automatiquement (par exemple en important les données depuis CDTN via des API à créer)

📚 Ressources utiles

documentation API d'import Albert : https://github.com/etalab-ia/albert-api/blob/main/docs/collections.md
liste des questions posées à Albert pour comprendre le RAG : https://pad.numerique.gouv.fr/zvo2AmjDTQeqax9eMvkMHw?both

rprebot added the EPIC label Dec 3, 2024

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

[EPIC] Créer la base de connaissance externe sur Albert #23

[EPIC] Créer la base de connaissance externe sur Albert #23

rprebot commented Dec 3, 2024 •

edited

Loading

[EPIC] Créer la base de connaissance externe sur Albert #23

[EPIC] Créer la base de connaissance externe sur Albert #23

Comments

rprebot commented Dec 3, 2024 • edited Loading

📌 Contexte

🚀 Objectif

🔎 Features attendues - MVP

🤖 Features attendues - Post-MVP

📚 Ressources utiles

rprebot commented Dec 3, 2024 •

edited

Loading