You signed in with another tab or window. Reload to refresh your session.You signed out in another tab or window. Reload to refresh your session.You switched accounts on another tab or window. Reload to refresh your session.Dismiss alert
Le retrieval des bons documents se fera en utilisant Albert qui héberge les données sur une base vectorielle Qdrant, permettant d'utiliser un algorithme de recherche de similarité sémantique pour rapprocher la question de l'utilisateur des "chunks" de la base vectorielle.
🚀 Objectif
Créer des "collections" publiques sur Albert (une par source de droit identifiée), en s'appuyant sur leur API d'import de données qui gère aussi le découpage des documents en "chunks", l'embedding et la vectorisation
Dans la version MVP, on a besoin d'importer en "one-shot" l'ensemble des sources de données prioritaires à jour de la date d'import, avec une liste de meta données minimales.
En version post-MVP, des sources de données complémentaires seront utilisées (ex : conventions collectives et jurisprudences), le retrieval pourra être améliorée par l'ajout de meta données (keywords, summary, questions, ...), et les données pourront être mises à jour automatiquement (par exemple en important les données depuis CDTN via des API à créer)
📌 Contexte
Le retrieval des bons documents se fera en utilisant Albert qui héberge les données sur une base vectorielle Qdrant, permettant d'utiliser un algorithme de recherche de similarité sémantique pour rapprocher la question de l'utilisateur des "chunks" de la base vectorielle.
🚀 Objectif
Créer des "collections" publiques sur Albert (une par source de droit identifiée), en s'appuyant sur leur API d'import de données qui gère aussi le découpage des documents en "chunks", l'embedding et la vectorisation
Les sources de données prioritaires identifiées sont :
🔎 Features attendues - MVP
Dans la version MVP, on a besoin d'importer en "one-shot" l'ensemble des sources de données prioritaires à jour de la date d'import, avec une liste de meta données minimales.
[BDD externe] Créer des collections sur Albert par typologie de documents #3
[BDD externe] Insérer l'ensemble des données prioritaires dans les collections Albert #6
[BDD externe] Ingérer les articles du code du travail dans une collection Albert #9
[BDD externe] Ingérer les fiches pratiques services publiques dans une collection publique Albert #10
[BDD externe] Ecrire le script permettant de convertir une page infos CDTN en vecteur #11
[BDD externe] Ingérer les fiches pratiques ministère du travail dans une collection publique Albert #12
[BDD externe] Créer une collections pour les contributions (Q/R) code du travail numérique et y transférer les contributions à jour #29
[BDD externe] Récupérer le contenu des fiches services-public sans les balises XML #34
[BDD externe] Ré-ingérer les collections créés suite à la perte du token #35
🤖 Features attendues - Post-MVP
En version post-MVP, des sources de données complémentaires seront utilisées (ex : conventions collectives et jurisprudences), le retrieval pourra être améliorée par l'ajout de meta données (keywords, summary, questions, ...), et les données pourront être mises à jour automatiquement (par exemple en important les données depuis CDTN via des API à créer)
[BDD externe] Empêcher Albert de "re-chunker" nos chunks après ingestion #36
[BDD externe] Tenir une base de données juridiques à jour en format texte (document) et vectorielles (chunks) #38
📚 Ressources utiles
The text was updated successfully, but these errors were encountered: