01. OT

UC Berkeley에서 수업자료로 썼던 강의 영상과 슬라이드가 있어서 이걸 기반으로 공부하려고 한다.

첫 번째 강의는 전반적으로 RL에 대해 소개하는 파트였다.

강화학습이란?
1. Learning-based 의사 결정을 위한 수학적 형식 주의 --> 알고리즘을 디자인하는 것
2. 경험으로부터 의사 결정과 control을 배우는 방법 --> 컨트롤러나 규칙에 의존하지 않음
다른 머신러닝과 다른 점
- 지도학습
  - i.i.d 데이터라고 가정 (독립적이고 완전 분리 가능한 데이터)
  - 알려진 ground truth output이 학습에 사용됨
- 강화학습
  - 데이터가 i.i.d가 아님 (이전의 출력이 미래의 입력에 영향을 미침)
  - ground truth answer을 알 수 없는 경우 --> 단지 성공/실패만 알 수 있는 경우
    - 더 일반적으로는 보상에 대해서만 알고 있음
- 왜 DEEP 강화학습인지?
  - 똑똑한 기계는 유연하게 상황에 대처할 줄 알아야 함
  - 강화학습은 다음 학습에 사용될 정형화된 행동을 제공함
  - Deep RL은 end-to-end training
- 단순히 보상을 넘어서 배워야 하는 것
  - 기본적인 RL은 보상을 극대화하는 것을 목표로 함
  - 순차적인 의사결정에는 이것 말고도 중요한 것들이 더 있음
    - Inverse reinforcement learning: example을 통해 보상에 대해 배움
    - Transfer learning or Meta-learning: 도메인 간에 knowledge를 전달함
    - 예측하는 것을 배우고 그 예측을 통해 행동함
- Intelligent machine을 개발하기 위해서는
  - 모듈 별로 알고리즘을 만드는 방법보다는 하나의 유연한 알고리즘이 더 나음
    - 하나의 알고리즘은 다양한 입력을 해석할 줄 알아야 하고
    - 복잡한 action을 선택할 줄 알아야 함
- 여태까지 RL의 challenge들
  - 사람은 빠른 속도로 배울 수 있는 반면 RL방법은 느림
  - 사람은 과거의 기억을 다시 사용할 수 있지만 RL에서 지식을 전달하는 것은 아직 문제임
  - 보상이 어떤 것이 되어야할지 명확치 않음
  - 예측의 역할이 무엇이 되어야할지 명확치 않음

'Study Log > Software Engineering' 카테고리의 다른 글

PyTorch 공부 (부제: Simplified MobileNet 구현) (1)	2022.12.05
02. Supervised Learning of Behaviors (0)	2022.11.22
pm2와 관련된 것들 (0)	2022.10.12
[삽질기록] RDS 연결 안됨 (0)	2022.10.11
바뀐 저장소 설정 (0)	2022.10.10

HZie's DevLog

01. OT

'Study Log > Software Engineering' 카테고리의 다른 글

댓글

티스토리툴바

01. OT

'Study Log > Software Engineering' 카테고리의 다른 글

관련글

댓글

티스토리툴바