UC Berkeley에서 수업자료로 썼던 강의 영상과 슬라이드가 있어서 이걸 기반으로 공부하려고 한다.
첫 번째 강의는 전반적으로 RL에 대해 소개하는 파트였다.
- 강화학습이란?
- Learning-based 의사 결정을 위한 수학적 형식 주의 --> 알고리즘을 디자인하는 것
 - 경험으로부터 의사 결정과 control을 배우는 방법 --> 컨트롤러나 규칙에 의존하지 않음
 
 - 다른 머신러닝과 다른 점
- 지도학습
- i.i.d 데이터라고 가정 (독립적이고 완전 분리 가능한 데이터)
 - 알려진 ground truth output이 학습에 사용됨
 
 - 강화학습
- 데이터가 i.i.d가 아님 (이전의 출력이 미래의 입력에 영향을 미침)
 - ground truth answer을 알 수 없는 경우 --> 단지 성공/실패만 알 수 있는 경우
- 더 일반적으로는 보상에 대해서만 알고 있음
 
 
 - 왜 DEEP 강화학습인지?
- 똑똑한 기계는 유연하게 상황에 대처할 줄 알아야 함
 - 강화학습은 다음 학습에 사용될 정형화된 행동을 제공함
 - Deep RL은 end-to-end training
 
 - 단순히 보상을 넘어서 배워야 하는 것
- 기본적인 RL은 보상을 극대화하는 것을 목표로 함
 - 순차적인 의사결정에는 이것 말고도 중요한 것들이 더 있음
- Inverse reinforcement learning: example을 통해 보상에 대해 배움
 - Transfer learning or Meta-learning: 도메인 간에 knowledge를 전달함
 - 예측하는 것을 배우고 그 예측을 통해 행동함
 
 
 - Intelligent machine을 개발하기 위해서는
- 모듈 별로 알고리즘을 만드는 방법보다는 하나의 유연한 알고리즘이 더 나음
- 하나의 알고리즘은 다양한 입력을 해석할 줄 알아야 하고
 - 복잡한 action을 선택할 줄 알아야 함
 
 
 - 모듈 별로 알고리즘을 만드는 방법보다는 하나의 유연한 알고리즘이 더 나음
 - 여태까지 RL의 challenge들
- 사람은 빠른 속도로 배울 수 있는 반면 RL방법은 느림
 - 사람은 과거의 기억을 다시 사용할 수 있지만 RL에서 지식을 전달하는 것은 아직 문제임
 - 보상이 어떤 것이 되어야할지 명확치 않음
 - 예측의 역할이 무엇이 되어야할지 명확치 않음
 
 
 - 지도학습
 
'Study Log > Software Engineering' 카테고리의 다른 글
| PyTorch 공부 (부제: Simplified MobileNet 구현) (1) | 2022.12.05 | 
|---|---|
| 02. Supervised Learning of Behaviors (0) | 2022.11.22 | 
| pm2와 관련된 것들 (0) | 2022.10.12 | 
| [삽질기록] RDS 연결 안됨 (0) | 2022.10.11 | 
| 바뀐 저장소 설정 (0) | 2022.10.10 | 
										
									
										
									
										
									
										
									
댓글