[pipeline RAG] Héberger le contenu des documents sur une base de données externes #31

rprebot · 2024-12-09T13:02:18Z

Dépendance
est nécessaire pour la réalisation de #30

Contexte
On va tester 2 méthodes pour récupérer le contenu des sources de droit priorisés en sortie du Retrieval :

option 1 : on insère seulement les chunks dans le prompt
option 2 : on insère l'intégralité du texte sources dont sont issus les chunks dans le prompt (dans la limite de la fenêtre de contexte)

Solution
Dans ce ticket, on a besoin d'héberger dans un BDD externe (i.e. externe à Albert) les sources (avec le contenu brut et non vectorisé) des dumps de données utilisées pour générer les collections.

Il faut donc un ID unique entre le chunk et les sources de cette BDD. Il y a plusieurs options :

l'ID unique du document dans Albert (mais cela nécessite de le récupérer)
l'URL du document
le titre du document

rprebot mentioned this issue Dec 9, 2024

[EPIC] Définir et réaliser des tests pour optimiser le Retriever #24

Open

5 tasks

rprebot self-assigned this Dec 9, 2024

rprebot changed the title ~~[pipeline RAG] Héberger les sources brutes sur une base de données externes~~ [pipeline RAG] Héberger le contenu des documents sur une base de données externes Dec 11, 2024

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

[pipeline RAG] Héberger le contenu des documents sur une base de données externes #31

[pipeline RAG] Héberger le contenu des documents sur une base de données externes #31

rprebot commented Dec 9, 2024 •

edited

Loading

[pipeline RAG] Héberger le contenu des documents sur une base de données externes #31

[pipeline RAG] Héberger le contenu des documents sur une base de données externes #31

Comments

rprebot commented Dec 9, 2024 • edited Loading

rprebot commented Dec 9, 2024 •

edited

Loading