본문 바로가기
Study Log/Software Engineering

01. OT

by HZie 2022. 11. 15.

UC Berkeley에서 수업자료로 썼던 강의 영상과 슬라이드가 있어서 이걸 기반으로 공부하려고 한다.

첫 번째 강의는 전반적으로 RL에 대해 소개하는 파트였다.

 

  • 강화학습이란?
    1. Learning-based 의사 결정을 위한 수학적 형식 주의 --> 알고리즘을 디자인하는 것
    2. 경험으로부터 의사 결정과 control을 배우는 방법 --> 컨트롤러나 규칙에 의존하지 않음
  • 다른 머신러닝과 다른 점
    • 지도학습
      • i.i.d 데이터라고 가정 (독립적이고 완전 분리 가능한 데이터)
      • 알려진 ground truth output이 학습에 사용됨
    • 강화학습
      • 데이터가 i.i.d가 아님 (이전의 출력이 미래의 입력에 영향을 미침)
      • ground truth answer을 알 수 없는 경우 --> 단지 성공/실패만 알 수 있는 경우
        • 더 일반적으로는 보상에 대해서만 알고 있음
    • 왜 DEEP 강화학습인지?
      • 똑똑한 기계는 유연하게 상황에 대처할 줄 알아야 함
      • 강화학습은 다음 학습에 사용될 정형화된 행동을 제공함
      • Deep RL은 end-to-end training
    • 단순히 보상을 넘어서 배워야 하는 것
      • 기본적인 RL은 보상을 극대화하는 것을 목표로 함
      • 순차적인 의사결정에는 이것 말고도 중요한 것들이 더 있음
        • Inverse reinforcement learning: example을 통해 보상에 대해 배움
        • Transfer learning or Meta-learning: 도메인 간에 knowledge를 전달함
        • 예측하는 것을 배우고 그 예측을 통해 행동함
    • Intelligent machine을 개발하기 위해서는
      • 모듈 별로 알고리즘을 만드는 방법보다는 하나의 유연한 알고리즘이 더 나음
        • 하나의 알고리즘은 다양한 입력을 해석할 줄 알아야 하고
        • 복잡한 action을 선택할 줄 알아야 함
    • 여태까지 RL의 challenge들
      • 사람은 빠른 속도로 배울 수 있는 반면 RL방법은 느림
      • 사람은 과거의 기억을 다시 사용할 수 있지만 RL에서 지식을 전달하는 것은 아직 문제임
      • 보상이 어떤 것이 되어야할지 명확치 않음
      • 예측의 역할이 무엇이 되어야할지 명확치 않음

 

댓글