Chapter 47
রিইনফোর্সমেন্ট লার্নিং
Reinforcement Learning Basics
🎮 Trial & Error দিয়ে শেখা
Reinforcement Learning — agent environment-এর সাথে interact করে action নেয়, reward পায়, এবং দীর্ঘমেয়াদী reward maximize করতে policy শেখে।
মূল উপাদান
- Agent: সিদ্ধান্তকারী।
- Environment: দুনিয়া।
- State (s): বর্তমান পরিস্থিতি।
- Action (a): agent-এর choice।
- Reward (r): feedback signal।
- Policy π(a|s): state থেকে action।
Bellman Equation
V(s) = E[r + γ·V(s')] — future reward-এর discounted sum।
Q-Learning
# Tabular Q-learning
Q[s,a] += α * (r + γ*max(Q[s',:]) - Q[s,a])Deep Q-Network (DQN)
Q-table-এর জায়গায় neural network — Atari খেলায় human-level।
import gymnasium as gym
env = gym.make("CartPole-v1")
obs, _ = env.reset()
for _ in range(100):
action = env.action_space.sample()
obs, r, term, trunc, _ = env.step(action)
if term or trunc: obs, _ = env.reset()Policy Gradient — PPO
Policy-কে directly optimize। PPO = Proximal Policy Optimization — stable, popular (RLHF-এও ব্যবহৃত)।
from stable_baselines3 import PPO
model = PPO("MlpPolicy", "CartPole-v1", verbose=1).learn(50_000)Exploration vs Exploitation
ε-greedy, entropy bonus — নতুন কিছু চেষ্টা vs জানা best action।
RL-এর প্রয়োগ
- Game (AlphaGo, AlphaStar)।
- Robotics, self-driving।
- RLHF — LLM alignment (ChatGPT)।
- Recommendation, ads bidding।
⚠️ RL কঠিন
Sample inefficient, reward hacking, instability — RL-এ সফল হতে careful reward design ও প্রচুর compute দরকার।
সারসংক্ষেপ
✨ এই অধ্যায়ে যা শিখলাম
- RL = state→action→reward loop।
- Q-learning value-based, PPO policy-based।
- RLHF — modern LLM alignment-এর মেরুদণ্ড।