Chapter 42

RAG সিস্টেম

RAG Systems

🎬 LLM-কে বই পড়ান

Retrieval-Augmented Generation (RAG) মানে — উত্তর দেওয়ার আগে LLM-কে সংশ্লিষ্ট ডকুমেন্ট retrieve করে context-এ জুড়ে দেওয়া। ফলে hallucination কম, knowledge always fresh।

RAG পাইপলাইন

Document Corpus
   ↓ chunk + embed
Vector DB (FAISS / Qdrant / pgvector)

User Query
   ↓ embed
   ↓ similarity search → top-k chunks
   ↓ build prompt = {chunks + query}
   ↓ LLM
Answer + citations

Chunking Strategy

Fixed: 500–1000 token, overlap 50–100।
Semantic: sentence/paragraph boundary।
Recursive: heading → paragraph → sentence (LangChain)।
Late chunking: পুরো doc embed করে পরে slice।

Embedding ও Vector DB

from sentence_transformers import SentenceTransformer
emb = SentenceTransformer("BAAI/bge-m3")     # multilingual

import faiss, numpy as np
vecs = emb.encode(chunks, normalize_embeddings=True)
index = faiss.IndexFlatIP(vecs.shape[1])     # cosine via inner-product
index.add(vecs)

# Query
q = emb.encode(["আমার প্রশ্ন"], normalize_embeddings=True)
scores, ids = index.search(q, k=5)

Prompt Template

SYSTEM = """তুমি একজন সহকারী। কেবল নিচের context থেকে উত্তর দাও।
যদি context-এ উত্তর না থাকে — বলো 'জানি না'। উৎস হিসেবে [1], [2] cite করো।"""

context = "\n\n".join(f"[{i+1}] {c}" for i,c in enumerate(top_chunks))
user = f"Context:\n{context}\n\nQuestion: {query}"

Hybrid Search — Dense + Sparse

Dense (embedding) semantic ধরে, কিন্তু rare keyword মিস করে। BM25-এর মতো sparse search যোগ করে দুটির result fuse (Reciprocal Rank Fusion) করলে accuracy অনেক বাড়ে।

Reranking

# Top-50 retrieve → cross-encoder দিয়ে top-5 rerank
from sentence_transformers import CrossEncoder
ce = CrossEncoder("BAAI/bge-reranker-v2-m3")
pairs = [(query, c) for c in top50]
scores = ce.predict(pairs)
top5 = [c for _,c in sorted(zip(scores, top50), reverse=True)[:5]]

Production Architecture

Ingestion:
  PDF/HTML → parser → cleaner → chunker → embedder → Qdrant

Query (online):
  Query → rewrite (HyDE) → hybrid search → rerank
       → prompt build → LLM (streaming) → cite + cache