Chapter 47

রিইনফোর্সমেন্ট লার্নিং

Reinforcement Learning Basics

🎮 Trial & Error দিয়ে শেখা

Reinforcement Learning — agent environment-এর সাথে interact করে action নেয়, reward পায়, এবং দীর্ঘমেয়াদী reward maximize করতে policy শেখে।

মূল উপাদান

Agent: সিদ্ধান্তকারী।
Environment: দুনিয়া।
State (s): বর্তমান পরিস্থিতি।
Action (a): agent-এর choice।
Reward (r): feedback signal।
Policy π(a|s): state থেকে action।

Bellman Equation

V(s) = E[r + γ·V(s')] — future reward-এর discounted sum।

Q-Learning

# Tabular Q-learning
Q[s,a] += α * (r + γ*max(Q[s',:]) - Q[s,a])

Deep Q-Network (DQN)

Q-table-এর জায়গায় neural network — Atari খেলায় human-level।

import gymnasium as gym
env = gym.make("CartPole-v1")
obs, _ = env.reset()
for _ in range(100):
    action = env.action_space.sample()
    obs, r, term, trunc, _ = env.step(action)
    if term or trunc: obs, _ = env.reset()

Policy Gradient — PPO

Policy-কে directly optimize। PPO = Proximal Policy Optimization — stable, popular (RLHF-এও ব্যবহৃত)।

from stable_baselines3 import PPO
model = PPO("MlpPolicy", "CartPole-v1", verbose=1).learn(50_000)

Exploration vs Exploitation

ε-greedy, entropy bonus — নতুন কিছু চেষ্টা vs জানা best action।

RL-এর প্রয়োগ

Game (AlphaGo, AlphaStar)।
Robotics, self-driving।
RLHF — LLM alignment (ChatGPT)।
Recommendation, ads bidding।

⚠️ RL কঠিন

Sample inefficient, reward hacking, instability — RL-এ সফল হতে careful reward design ও প্রচুর compute দরকার।

সারসংক্ষেপ

✨ এই অধ্যায়ে যা শিখলাম

RL = state→action→reward loop।
Q-learning value-based, PPO policy-based।
RLHF — modern LLM alignment-এর মেরুদণ্ড।

পূর্ববর্তী

সেলফ-সুপারভাইজড লার্নিং

পরবর্তী

গ্রাফ নিউরাল নেটওয়ার্ক