Chapter 45

মাল্টিমোডাল AI

Multimodal AI

🎭 একাধিক modality একসাথে

Multimodal AI — text, image, audio, video একসাথে বুঝতে পারে। CLIP, GPT-4V, Gemini, LLaVA — সব এই family-র।

CLIP (Contrastive Language-Image Pretraining)

Text encoder + Image encoder কে contrastive loss দিয়ে align করা হয় — image ও তার caption-এর embedding কাছাকাছি আসে।

from transformers import CLIPProcessor, CLIPModel
from PIL import Image

model = CLIPModel.from_pretrained("openai/clip-vit-base-patch32")
proc  = CLIPProcessor.from_pretrained("openai/clip-vit-base-patch32")

img = Image.open("cat.jpg")
inputs = proc(text=["a cat","a dog","a car"], images=img, return_tensors="pt", padding=True)
logits = model(**inputs).logits_per_image
print(logits.softmax(dim=1))

BLIP-2 / LLaVA

Vision encoder (ViT) + LLM (Llama/Vicuna)-এর মাঝে একটা projection layer — image → text generation, VQA সম্ভব।

GPT-4V / Gemini / Claude Vision

Image upload করে প্রশ্ন: "এই chart-এ trend কী?"
OCR, diagram বোঝা, UI mock থেকে কোড।
Video frame সমান্তরালে process।

Whisper — Speech

import whisper
m = whisper.load_model("base")
print(m.transcribe("audio.mp3")["text"])

Use Cases

Image search ("সবুজ জামা পরা মেয়ে")।
Document AI — invoice/receipt parsing।
Accessibility — image description।
Robotics — vision-language-action।

💡 Embedding Space-ই Magic

Multimodal models-এর মূল idea — সব modality একই vector space-এ map করা। তারপর search/compare/generate সব trivial হয়ে যায়।

সারসংক্ষেপ

✨ এই অধ্যায়ে যা শিখলাম

CLIP = image-text contrastive alignment।
BLIP-2/LLaVA — vision + LLM bridging।
GPT-4V, Gemini — frontier multimodal models।

পূর্ববর্তী

Vision Transformers

পরবর্তী

সেলফ-সুপারভাইজড লার্নিং