Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

[BDD externe] Tenir une base de données juridiques à jour en format texte (document) et vectorielles (chunks) #38

Open
rprebot opened this issue Dec 11, 2024 · 0 comments
Assignees

Comments

@rprebot
Copy link
Contributor

rprebot commented Dec 11, 2024

Contexte
Nous faisons face à deux problématiques dans une réflexion de passage à l'échelle :

  • les sources juridiques évoluent avec le temps et notre base de connaissance externe doit donc être mise à jour régulièrement
  • nous avons besoin de faire le lien entre les chunks trouvées en sortie du retriever et le contenu du document source (dans le cas où nous ajoutons un contexte plus large dans la fenêtre de prompt que seulement le chunk)

Nous avons donc besoin :

  • d'avoir deux bases de données pour les documents (format et stockage à définir) et pour les chunks (sur Albert)
  • de définir comment relier les 2 (c'est à dire être capable de retrouver le document à partir des informations contenues dans un chunks)
  • que ces bases soient mises à jour en temps réel ou à intervalles réguliers

Solution
Plusieurs options techniques sont envisageables et à discuter avec CDTN (une possibilité étant d'ouvrir des APIs depuis les données cdtn )

@rprebot rprebot changed the title [BDD externe] Tenir une base de données juridiques à jour en format documents et vectorielles (collections) [BDD externe] Tenir une base de données juridiques à jour en format texte (document) et vectorielles (chunks) Dec 11, 2024
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

3 participants