진주의 개발괴발

  • 홈
  • 태그
  • 방명록

2025/06/27 1

강화학습 알고리즘의 GRPO, PPO

📌 GRPO, PPO는 강화학습의 무엇인가?✔️ GRPO(Group Relative Policy Optimization)와 PPO(Proximal Policy Optimization)는👉 강화학습(RL)에서 정책 최적화(Policy Optimization)를 위한 대표적인 알고리즘들입니다.강화학습의 큰 목표는 에이전트(agent)가 환경과 상호작용하며 정책(policy)을 학습해→ 주어진 상태에서 어떤 행동을 취해야 누적 보상(reward)이 최대가 될지를 배우는 것.정책 최적화 계열 알고리즘은 policy 기반으로 학습을 진행해,→ 직접 행동의 확률 분포를 모델링하고 이를 업데이트함으로써→ 환경에서의 성능을 지속적으로 개선합니다.PPO와 GRPO는 이 정책 최적화의 구체적인 방법론에 해당합니다.✅ ..

개발/AI 2025.06.27
이전
1
다음
더보기
프로필사진

개발 냥발 빌려줘요

  • 분류 전체보기 (83)
    • 고려대학교 지능정보 SW 아카데미 4기 (3)
      • 주간 일기 (0)
      • 정리노트 (2)
    • Codestates SEB FE 42기 (67)
      • 주간 일기 (10)
      • 회고 (13)
      • 정리노트 (43)
    • 개발 (11)
      • Javascript (6)
      • HTML & CSS (0)
      • Linux (1)
      • Python (0)
      • AI (2)
      • 자격증 (2)
    • 코딩 테스트 풀이 (0)
    • 논문 리뷰 (1)
      • computer vision (1)

Tag

우분투, 노트북에어팟연결, 우분투에어팟연결, 클로저, spread, 😂, 지능정보sw아카데미, 코드스테이츠, 기본값매개변수, defaultParameter, This, 에어팟연결, 구조분배할당, 객체단축문법, 우분투블루투스, REST,

최근글과 인기글

  • 최근글
  • 인기글

최근댓글

공지사항

  • [공지사항] 벨로그에서 이사왔습니다!

페이스북 트위터 플러그인

  • Facebook
  • Twitter

Archives

Calendar

«   2025/06   »
일 월 화 수 목 금 토
1 2 3 4 5 6 7
8 9 10 11 12 13 14
15 16 17 18 19 20 21
22 23 24 25 26 27 28
29 30

방문자수Total

  • Today :
  • Yesterday :

Copyright © Kakao Corp. All rights reserved.

티스토리툴바