Chapter 45

মাল্টিমোডাল AI

Multimodal AI
🎭 একাধিক modality একসাথে
Multimodal AI — text, image, audio, video একসাথে বুঝতে পারে। CLIP, GPT-4V, Gemini, LLaVA — সব এই family-র।

CLIP (Contrastive Language-Image Pretraining)

Text encoder + Image encoder কে contrastive loss দিয়ে align করা হয় — image ও তার caption-এর embedding কাছাকাছি আসে।

from transformers import CLIPProcessor, CLIPModel
from PIL import Image

model = CLIPModel.from_pretrained("openai/clip-vit-base-patch32")
proc  = CLIPProcessor.from_pretrained("openai/clip-vit-base-patch32")

img = Image.open("cat.jpg")
inputs = proc(text=["a cat","a dog","a car"], images=img, return_tensors="pt", padding=True)
logits = model(**inputs).logits_per_image
print(logits.softmax(dim=1))

BLIP-2 / LLaVA

Vision encoder (ViT) + LLM (Llama/Vicuna)-এর মাঝে একটা projection layer — image → text generation, VQA সম্ভব।

GPT-4V / Gemini / Claude Vision

  • Image upload করে প্রশ্ন: "এই chart-এ trend কী?"
  • OCR, diagram বোঝা, UI mock থেকে কোড।
  • Video frame সমান্তরালে process।

Whisper — Speech

import whisper
m = whisper.load_model("base")
print(m.transcribe("audio.mp3")["text"])

Use Cases

  • Image search ("সবুজ জামা পরা মেয়ে")।
  • Document AI — invoice/receipt parsing।
  • Accessibility — image description।
  • Robotics — vision-language-action।
💡 Embedding Space-ই Magic
Multimodal models-এর মূল idea — সব modality একই vector space-এ map করা। তারপর search/compare/generate সব trivial হয়ে যায়।

সারসংক্ষেপ

✨ এই অধ্যায়ে যা শিখলাম
  • CLIP = image-text contrastive alignment।
  • BLIP-2/LLaVA — vision + LLM bridging।
  • GPT-4V, Gemini — frontier multimodal models।