Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

[EPIC] Créer la base de connaissance externe sur Albert #23

Open
4 tasks
rprebot opened this issue Dec 3, 2024 · 0 comments
Open
4 tasks

[EPIC] Créer la base de connaissance externe sur Albert #23

rprebot opened this issue Dec 3, 2024 · 0 comments
Labels

Comments

@rprebot
Copy link
Contributor

rprebot commented Dec 3, 2024

📌 Contexte

Le retrieval des bons documents se fera en utilisant Albert qui héberge les données sur une base vectorielle Qdrant, permettant d'utiliser un algorithme de recherche de similarité sémantique pour rapprocher la question de l'utilisateur des "chunks" de la base vectorielle.

🚀 Objectif

Créer des "collections" publiques sur Albert (une par source de droit identifiée), en s'appuyant sur leur API d'import de données qui gère aussi le découpage des documents en "chunks", l'embedding et la vectorisation

Les sources de données prioritaires identifiées sont :

  • les fiches pratiques service public
  • les fiches pratiques ministères du travail
  • les pages infos (contributions) CDTN
  • l'ensemble des articles du code du travail

🔎 Features attendues - MVP

Dans la version MVP, on a besoin d'importer en "one-shot" l'ensemble des sources de données prioritaires à jour de la date d'import, avec une liste de meta données minimales.

🤖 Features attendues - Post-MVP

En version post-MVP, des sources de données complémentaires seront utilisées (ex : conventions collectives et jurisprudences), le retrieval pourra être améliorée par l'ajout de meta données (keywords, summary, questions, ...), et les données pourront être mises à jour automatiquement (par exemple en important les données depuis CDTN via des API à créer)

📚 Ressources utiles

@rprebot rprebot added the EPIC label Dec 3, 2024
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
Projects
None yet
Development

No branches or pull requests

1 participant