
📌 GRPO, PPO는 강화학습의 무엇인가?✔️ GRPO(Group Relative Policy Optimization)와 PPO(Proximal Policy Optimization)는👉 강화학습(RL)에서 정책 최적화(Policy Optimization)를 위한 대표적인 알고리즘들입니다.강화학습의 큰 목표는 에이전트(agent)가 환경과 상호작용하며 정책(policy)을 학습해→ 주어진 상태에서 어떤 행동을 취해야 누적 보상(reward)이 최대가 될지를 배우는 것.정책 최적화 계열 알고리즘은 policy 기반으로 학습을 진행해,→ 직접 행동의 확률 분포를 모델링하고 이를 업데이트함으로써→ 환경에서의 성능을 지속적으로 개선합니다.PPO와 GRPO는 이 정책 최적화의 구체적인 방법론에 해당합니다.✅ ..