Chapter 45
মাল্টিমোডাল AI
Multimodal AI
🎭 একাধিক modality একসাথে
Multimodal AI — text, image, audio, video একসাথে বুঝতে পারে। CLIP, GPT-4V, Gemini, LLaVA — সব এই family-র।
CLIP (Contrastive Language-Image Pretraining)
Text encoder + Image encoder কে contrastive loss দিয়ে align করা হয় — image ও তার caption-এর embedding কাছাকাছি আসে।
from transformers import CLIPProcessor, CLIPModel
from PIL import Image
model = CLIPModel.from_pretrained("openai/clip-vit-base-patch32")
proc = CLIPProcessor.from_pretrained("openai/clip-vit-base-patch32")
img = Image.open("cat.jpg")
inputs = proc(text=["a cat","a dog","a car"], images=img, return_tensors="pt", padding=True)
logits = model(**inputs).logits_per_image
print(logits.softmax(dim=1))BLIP-2 / LLaVA
Vision encoder (ViT) + LLM (Llama/Vicuna)-এর মাঝে একটা projection layer — image → text generation, VQA সম্ভব।
GPT-4V / Gemini / Claude Vision
- Image upload করে প্রশ্ন: "এই chart-এ trend কী?"
- OCR, diagram বোঝা, UI mock থেকে কোড।
- Video frame সমান্তরালে process।
Whisper — Speech
import whisper
m = whisper.load_model("base")
print(m.transcribe("audio.mp3")["text"])Use Cases
- Image search ("সবুজ জামা পরা মেয়ে")।
- Document AI — invoice/receipt parsing।
- Accessibility — image description।
- Robotics — vision-language-action।
💡 Embedding Space-ই Magic
Multimodal models-এর মূল idea — সব modality একই vector space-এ map করা। তারপর search/compare/generate সব trivial হয়ে যায়।
সারসংক্ষেপ
✨ এই অধ্যায়ে যা শিখলাম
- CLIP = image-text contrastive alignment।
- BLIP-2/LLaVA — vision + LLM bridging।
- GPT-4V, Gemini — frontier multimodal models।