Chapter 47

রিইনফোর্সমেন্ট লার্নিং

Reinforcement Learning Basics
🎮 Trial & Error দিয়ে শেখা
Reinforcement Learning — agent environment-এর সাথে interact করে action নেয়, reward পায়, এবং দীর্ঘমেয়াদী reward maximize করতে policy শেখে।

মূল উপাদান

  • Agent: সিদ্ধান্তকারী।
  • Environment: দুনিয়া।
  • State (s): বর্তমান পরিস্থিতি।
  • Action (a): agent-এর choice।
  • Reward (r): feedback signal।
  • Policy π(a|s): state থেকে action।

Bellman Equation

V(s) = E[r + γ·V(s')] — future reward-এর discounted sum।

Q-Learning

# Tabular Q-learning
Q[s,a] += α * (r + γ*max(Q[s',:]) - Q[s,a])

Deep Q-Network (DQN)

Q-table-এর জায়গায় neural network — Atari খেলায় human-level।

import gymnasium as gym
env = gym.make("CartPole-v1")
obs, _ = env.reset()
for _ in range(100):
    action = env.action_space.sample()
    obs, r, term, trunc, _ = env.step(action)
    if term or trunc: obs, _ = env.reset()

Policy Gradient — PPO

Policy-কে directly optimize। PPO = Proximal Policy Optimization — stable, popular (RLHF-এও ব্যবহৃত)।

from stable_baselines3 import PPO
model = PPO("MlpPolicy", "CartPole-v1", verbose=1).learn(50_000)

Exploration vs Exploitation

ε-greedy, entropy bonus — নতুন কিছু চেষ্টা vs জানা best action।

RL-এর প্রয়োগ

  • Game (AlphaGo, AlphaStar)।
  • Robotics, self-driving।
  • RLHF — LLM alignment (ChatGPT)।
  • Recommendation, ads bidding।
⚠️ RL কঠিন
Sample inefficient, reward hacking, instability — RL-এ সফল হতে careful reward design ও প্রচুর compute দরকার।

সারসংক্ষেপ

✨ এই অধ্যায়ে যা শিখলাম
  • RL = state→action→reward loop।
  • Q-learning value-based, PPO policy-based।
  • RLHF — modern LLM alignment-এর মেরুদণ্ড।