'2025/06/27 글 목록

강화학습 알고리즘의 GRPO, PPO

📌 GRPO, PPO는 강화학습의 무엇인가?✔️ GRPO(Group Relative Policy Optimization)와 PPO(Proximal Policy Optimization)는👉 강화학습(RL)에서 정책 최적화(Policy Optimization)를 위한 대표적인 알고리즘들입니다.강화학습의 큰 목표는 에이전트(agent)가 환경과 상호작용하며 정책(policy)을 학습해→ 주어진 상태에서 어떤 행동을 취해야 누적 보상(reward)이 최대가 될지를 배우는 것.정책 최적화 계열 알고리즘은 policy 기반으로 학습을 진행해,→ 직접 행동의 확률 분포를 모델링하고 이를 업데이트함으로써→ 환경에서의 성능을 지속적으로 개선합니다.PPO와 GRPO는 이 정책 최적화의 구체적인 방법론에 해당합니다.✅ ..

개발/AI 2025.06.27

일	월	화	수	목	금	토
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

진주의 개발괴발

2025/06/27 1

티스토리툴바