[BDD externe] Tenir une base de données juridiques à jour en format texte (document) et vectorielles (chunks) #38

rprebot · 2024-12-11T13:48:55Z

Contexte
Nous faisons face à deux problématiques dans une réflexion de passage à l'échelle :

les sources juridiques évoluent avec le temps et notre base de connaissance externe doit donc être mise à jour régulièrement
nous avons besoin de faire le lien entre les chunks trouvées en sortie du retriever et le contenu du document source (dans le cas où nous ajoutons un contexte plus large dans la fenêtre de prompt que seulement le chunk)

Nous avons donc besoin :

d'avoir deux bases de données pour les documents (format et stockage à définir) et pour les chunks (sur Albert)
de définir comment relier les 2 (c'est à dire être capable de retrouver le document à partir des informations contenues dans un chunks)
que ces bases soient mises à jour en temps réel ou à intervalles réguliers

Solution
Plusieurs options techniques sont envisageables et à discuter avec CDTN (une possibilité étant d'ouvrir des APIs depuis les données cdtn )

rprebot assigned maxgfr and RealVidy Dec 11, 2024

rprebot mentioned this issue Dec 11, 2024

[EPIC] Créer la base de connaissance externe sur Albert #23

Open

4 tasks

rprebot changed the title ~~[BDD externe] Tenir une base de données juridiques à jour en format documents et vectorielles (collections)~~ [BDD externe] Tenir une base de données juridiques à jour en format texte (document) et vectorielles (chunks) Dec 11, 2024

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

[BDD externe] Tenir une base de données juridiques à jour en format texte (document) et vectorielles (chunks) #38

[BDD externe] Tenir une base de données juridiques à jour en format texte (document) et vectorielles (chunks) #38

rprebot commented Dec 11, 2024

[BDD externe] Tenir une base de données juridiques à jour en format texte (document) et vectorielles (chunks) #38

[BDD externe] Tenir une base de données juridiques à jour en format texte (document) et vectorielles (chunks) #38

Comments

rprebot commented Dec 11, 2024