Reinforcement Learning2 02. Supervised Learning of Behaviors Terminology $s_{t}$ = state - 일반적으로 markovian state로 가정함, 현재 시스템의 설정을 표현한 것 (ex. 좌표, velocity 등) $o_{t}$ = observation - input $a_{t}$ = action - output $\pi_{\theta}\left ( a_{t}\mid o_{t} \right )$ = policy - input에서 output으로 가기 위한 중간과정 $\pi_{\theta}\left ( a_{t}\mid s_{t} \right )$ - policy (fully observed) - 더 제한적인 특별한 케이스 Imitation Learning 사람에게서 추출한 $o_{t}$와 $s_{t}$를 사용함 Behavioral Cloning.. 2022. 11. 22. 01. OT UC Berkeley에서 수업자료로 썼던 강의 영상과 슬라이드가 있어서 이걸 기반으로 공부하려고 한다. 첫 번째 강의는 전반적으로 RL에 대해 소개하는 파트였다. 강화학습이란? Learning-based 의사 결정을 위한 수학적 형식 주의 --> 알고리즘을 디자인하는 것 경험으로부터 의사 결정과 control을 배우는 방법 --> 컨트롤러나 규칙에 의존하지 않음 다른 머신러닝과 다른 점 지도학습 i.i.d 데이터라고 가정 (독립적이고 완전 분리 가능한 데이터) 알려진 ground truth output이 학습에 사용됨 강화학습 데이터가 i.i.d가 아님 (이전의 출력이 미래의 입력에 영향을 미침) ground truth answer을 알 수 없는 경우 --> 단지 성공/실패만 알 수 있는 경우 더 일반적.. 2022. 11. 15. 이전 1 다음