DuckDB embeddings + semantic search pour retrieval augmentΓ©
ββββββββββββββββββββββββββββββββββββββββ
β π COSMIC Documents (6 files) β
β 170+ pages, mixed formats β
ββββββββββββββββ¬ββββββββββββββββββββββββ
β
βΌ
ββββββββββββββββββββββββ
β βοΈ Text Chunking β
β β’ 512 tokens/chunk β
β β’ Overlap: 50 tok β
β β’ 115+ chunks total β
ββββββββββββ¬ββββββββββββ
β
βΌ
ββββββββββββββββββββββββ
β π§ nomic-embed-text β
β β’ Ollama local β
β β’ 768-dim vectors β
β β’ Batch: 32 chunks β
ββββββββββββ¬ββββββββββββ
β
βΌ
ββββββββββββββββββββββββ
β πΎ DuckDB Storage β
β β’ Vector index β
β β’ 2.8 MB size β
β β’ In-memory β
ββββββββββββ¬ββββββββββββ
β
ββββββββββββΌββββββββββββ
β π Query Processing βββββ User Query
ββββββββββββ¬ββββββββββββ
β
βΌ
ββββββββββββββββββββββββ
β π Cosine Similarityβ
β β’ Top-K: 5 chunks β
β β’ Threshold: 0.7 β
ββββββββββββ¬ββββββββββββ
β
βΌ
ββββββββββββββββββββββββ
β π¦ Context Assembly β
β β’ Merge chunks β
β β’ Add metadata β
ββββββββββββ¬ββββββββββββ
β
βΌ
ββββββββββββββββββββββββ
β π€ LLM Augmentation ββββΊ Answer
ββββββββββββββββββββββββChargement des 6 documents COSMIC (170+ pages)
Transformation en vecteurs avec nomic-embed-text
Indexation dans DuckDB vector database
Recherche par similaritΓ© cosinus

