Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

[pipeline RAG] Héberger le contenu des documents sur une base de données externes #31

Open
Tracked by #24
rprebot opened this issue Dec 9, 2024 · 0 comments
Assignees

Comments

@rprebot
Copy link
Contributor

rprebot commented Dec 9, 2024

Dépendance
est nécessaire pour la réalisation de #30

Contexte
On va tester 2 méthodes pour récupérer le contenu des sources de droit priorisés en sortie du Retrieval :

  • option 1 : on insère seulement les chunks dans le prompt
  • option 2 : on insère l'intégralité du texte sources dont sont issus les chunks dans le prompt (dans la limite de la fenêtre de contexte)

Solution
Dans ce ticket, on a besoin d'héberger dans un BDD externe (i.e. externe à Albert) les sources (avec le contenu brut et non vectorisé) des dumps de données utilisées pour générer les collections.

Il faut donc un ID unique entre le chunk et les sources de cette BDD. Il y a plusieurs options :

  • l'ID unique du document dans Albert (mais cela nécessite de le récupérer)
  • l'URL du document
  • le titre du document
@rprebot rprebot self-assigned this Dec 9, 2024
@rprebot rprebot changed the title [pipeline RAG] Héberger les sources brutes sur une base de données externes [pipeline RAG] Héberger le contenu des documents sur une base de données externes Dec 11, 2024
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

1 participant