UC Berkeley에서 수업자료로 썼던 강의 영상과 슬라이드가 있어서 이걸 기반으로 공부하려고 한다.
첫 번째 강의는 전반적으로 RL에 대해 소개하는 파트였다.
- 강화학습이란?
- Learning-based 의사 결정을 위한 수학적 형식 주의 --> 알고리즘을 디자인하는 것
- 경험으로부터 의사 결정과 control을 배우는 방법 --> 컨트롤러나 규칙에 의존하지 않음
- 다른 머신러닝과 다른 점
- 지도학습
- i.i.d 데이터라고 가정 (독립적이고 완전 분리 가능한 데이터)
- 알려진 ground truth output이 학습에 사용됨
- 강화학습
- 데이터가 i.i.d가 아님 (이전의 출력이 미래의 입력에 영향을 미침)
- ground truth answer을 알 수 없는 경우 --> 단지 성공/실패만 알 수 있는 경우
- 더 일반적으로는 보상에 대해서만 알고 있음
- 왜 DEEP 강화학습인지?
- 똑똑한 기계는 유연하게 상황에 대처할 줄 알아야 함
- 강화학습은 다음 학습에 사용될 정형화된 행동을 제공함
- Deep RL은 end-to-end training
- 단순히 보상을 넘어서 배워야 하는 것
- 기본적인 RL은 보상을 극대화하는 것을 목표로 함
- 순차적인 의사결정에는 이것 말고도 중요한 것들이 더 있음
- Inverse reinforcement learning: example을 통해 보상에 대해 배움
- Transfer learning or Meta-learning: 도메인 간에 knowledge를 전달함
- 예측하는 것을 배우고 그 예측을 통해 행동함
- Intelligent machine을 개발하기 위해서는
- 모듈 별로 알고리즘을 만드는 방법보다는 하나의 유연한 알고리즘이 더 나음
- 하나의 알고리즘은 다양한 입력을 해석할 줄 알아야 하고
- 복잡한 action을 선택할 줄 알아야 함
- 모듈 별로 알고리즘을 만드는 방법보다는 하나의 유연한 알고리즘이 더 나음
- 여태까지 RL의 challenge들
- 사람은 빠른 속도로 배울 수 있는 반면 RL방법은 느림
- 사람은 과거의 기억을 다시 사용할 수 있지만 RL에서 지식을 전달하는 것은 아직 문제임
- 보상이 어떤 것이 되어야할지 명확치 않음
- 예측의 역할이 무엇이 되어야할지 명확치 않음
- 지도학습
'Study Log > Software Engineering' 카테고리의 다른 글
PyTorch 공부 (부제: Simplified MobileNet 구현) (1) | 2022.12.05 |
---|---|
02. Supervised Learning of Behaviors (0) | 2022.11.22 |
pm2와 관련된 것들 (0) | 2022.10.12 |
[삽질기록] RDS 연결 안됨 (0) | 2022.10.11 |
바뀐 저장소 설정 (0) | 2022.10.10 |
댓글