핵심 내용

Table of Contents

Part 1.
1. 로봇 팔 제어 문제와 머신 러닝의 적용 필요성
2. 강화학습 설정 및 작동 방식
3. 최근 인공지능(AI) 발전 동향
4. 강화학습의 차별점과 역사적 배경
Part 2
1. 강의 소개 및 학습 로드맵
2. 강화학습(RL)의 정의와 지도 학습과의 차이점
3. 강화학습의 형식론 및 상호작용 과정
4. 강화학습 문제의 구체적인 예시
5. 강화학습 방법론의 응용 분야 및 성과
Part 3
1. 딥러닝 기반 AI의 한계와 강화학습의 필요성
2. 리처드 서튼의 ‘쓰라린 교훈(The Bitter Lesson)
3. 학습과 최적화의 시너지 및 지능의 본질
4. 강화학습 분야의 더 넓은 그림
5. 모방 학습 및 의도 추론
6. 예측 모델의 진화 및 응용
7. 지능형 기계 구축을 위한 딥 강화학습의 역할
8. 미해결 과제와 미래 연구 방향

Part 1

1. 로봇 팔 제어 문제와 머신 러닝의 적용 필요성

1. 로봇 팔 물체 집기 문제 정의

목표는 롤봇 카메라가 보는 이미지(시각 정보)를 기반으로 물체를 성공적으로 집을 수 있는 공간 좌표(coordinates in space)를 출력하는 기계를 만드는 것이다.

2. 지도 학습의 한계와 머신러닝의 매력

물체 위치를 파악하여 좌표를 출력하는 것은 간단해 보이지만, 실제로 특수한 경우(speciial cases)와 예외(exceptions)가 많아 해결이 복잡하다.
단단한 물체(rigid object)는 비교적 간단히 집을 수 있다.
모양이 어색하거나 질량이 복잡한 물체 는 질량 중심(center of mass) 근처를 잡아야 떨어지지 않는다.
부드럽고 변형 가능한 물체 는 꼬집는(pinching) 등 완전 다른 전략이 필요하다.
이처럼 특수한 경우와 예외가 많은 상황에서는 머신러닝 을 사용하는 것이 매력적이다.
수동으로 모든 예외를 설계하는 대신, 일반적인 머신러닝 절차(예: CNN)를 사용하여 이미지에서 적절한 잡기 위치를 자동으로 추출할 수 있기를 기대한다.

3. 지도 학습(Supervised Learning)의 문제점

표준 지도 학습 도구는 이 문제를 쉽게 해결하지 못한다.
지도 학습은 이미지 쌍과 적절한 잡기 위치 쌍으로 구성된 데이터셋을 필요로 한다.
문제는 사람 조차도 로봇 손가락으로 물건을 집는 경험이 부족하여 잡기 위치를 잘 결정하지 못한다는 점이다.
잡기 위치는 로봇과 환경 간의 물리적 상호 작용의 속성이며, 인간의 직관으로 잘 알 수 없는 영역이다.

4. 강화학습(Reinforcement Learning, RL)의 대안 제시

manual supervis 없이 머신러닝을 사용하기 위해, 로봇 스스로 많은 시도(trials)를 수집하고, 다양한 잡기를 시도하며 무엇이 성공하고 실패하는지 보게 하는 방법이 있다.
이것이 본질적으로 강화학습의 주요 아이디어이며, 이 강의에서 다룰 방법론들이 이 유형의 문제를 해결하는 데 사용된다.

2. 강화학습 설정 및 작동 방식

1. 강화학습에서의 데이터 수집 방식

강화학습 설정에서는 로봇이 어디를 잡아야 할지 수동으로 지정하지 않는다.
대신, 기계(로봇)가 데이터셋을 스스로 수집하며, 이 데이터는 반드시 좋은 예시로만 구성되지 않는다.
수집된 예시들은 결과 (outcome)로 레이블링된다.
결과는 로봇이 수행한 행동의 이미지와 그것이 실패(failure)로 이어졌는지 성공(success)으로 이어졌는지이다.
더 일반적으로, 이 결과는 보상 함수(rewared function)로 참조된다.

2. 강화학습 알고리즘의 목표

로봇은 성공에 대해 보상을 받고 실패에 대해서는 보상을 받지 않는다.
이 보상 레이블은 강화학습 알고리즘과 함께 사용된다.
강화학습 알고리즘은 지도 학습 알고리즘과 달리 단순히 데이터에 있는 모든 것을 복사하려 하지 않는다.
대신, 성공/실패 레이블(보상 레이블)을 사용하여 성공 횟수를 최대화하거나 보상을 최대화하기 위해 무엇을 해야 할지 파악하려고 시도한다.
이를 통해 로봇이 데이터를 수집하는 동안 자신의 경험을 사용하여 일반적으로 수행했을 행동보다 개선된 정책(policy) 을 얻을 수 있다.

3. 최근 인공지능(AI)의 발전 동향

1. 최근 AI 분야의 주목할 만한 발전

지난 몇 년간(2023년 기준) 인공지능 분야는 매우 활발했다.
텍스트 프롬프트에 응답하여 이미지를 생성하는 AI 시스템에서 인상적인 발전이 있었다.
예를 들어, “살바도르 달리(Salvador Dali)의 생생한 초상화에 절반은 로봇 얼굴을 포함해달라”고 요청하면, 확산 모델(Diffusion model)이 그럴듯한 그림을 생성할 수 있다.
대화 수행, 농담 생성, 복잡한 코딩 프롬프트 답변이 가능한 언어 모델(language models)도 등장했다. 생성 모델링 외에도 생물학 분야에서 흥미로운 결과들이 나타났다.
특정 바이러스에 결합하는 단백질을 생성하는 모델이 가능하다.
데이터 기반 AI는 이미지 생성부터 텍스트, 기타 모든 영역에서 엄청나게 발전했다.

2. 최근 발전의 기반: 지도 학습 기반 밀도 추정

최근 몇 년간 뉴스에 많이 나온 이러한 발전들은 이전 로봇 예시에서 짚어본 지도 학습 접근 방식과 유사한 아이디어에 기반한다.
이미지 생성 모델, 언어 모델 등의 원리는 본질적으로 밀도 추정(density estimation), 즉, $P(X)$ 를 추정하거나 조건부 추정 $P(Y|X)$ 를 추정하는 것에 기반한다.
언어 모델은 자연어 문장의 분포를 추정하고, 이미지 생성 모델은 프롬프트에 조건화된 이미지에 대한 조건부 분포를 추정한다.
이는 통계 시간에 배우는 대규모로 확장된 밀도 추정과 매우 유사한 아이디어이다.

3. 밀도 추정 및 지도 학습의 데이터 의존성

밀도 추정이나 지도 학습을 할 때 기억해야 할 중요한 점은 데이터의 분포를 학습한다는 것이다. 따라서 데이터가 어디에서 왔는지 생각하는 것이 매우 중요하다.
만일 데이터가 웹에서 채굴된 대량의 이미지이고 텍스트 프롬프트로 레이블링되어 있다면 학습하는 것은 사람들이 웹에 올리는 이미지의 종류이다.
텍스트의 경우, 사람들이 키보드로 입력하는 내용을 학습하게 된다.
만약 목표가 인간이 생성했을 콘텐츠(그림, 텍스트)와 유사한 것을 생성하는 것이라면, 이는 매우 강력한 능력을 제공한다.

4. 강화학습의 차별점과 역사적 배경

1. 강화학습의 차별점과 배경 지식 필요성

하지만 자율 시스템에서 우리가 원하는 것은 그것만이 아니다.
강화학습이 지도 학습과 다르게 하는 것이 무엇인지 논의하기 전에, 현대 강화학습이 무엇이며 어디에서 왔는지에 대한 약간의 역사적 배경이 필요하다.

2. 현대 강화학습의 계보

현대 강화학습은 두 가지 이전 학분에서 그 계보를 추적한다.

심리학 및 동물 행동 연구 강화학습이라는 이름이 붙은 분야는 심리학, 특히 동물 행동 연구에 뿌리를 두고 있다.
스키너(Skinner)와 같은 연구자들은 다양한 종류의 강화에 대한 동물의 행동을 연구했다.
이 연구 계보에서 비롯된 많은 작업이 오늘날 컴퓨터 과학에서 수행하는 강화학습의 토대를 형성하며, 이는 에이전트가 환경과 상호작용하고 보상에 반응하여 환경에 적응하는 것을 모델링한다.
제어 최적화 및 진화 알고리즘 현대 강화학습에 큰 영향을 미친 또 다른 계보는 제어 최적화(control optimization)와 진화 알고리즘(evolutionary algorithms)에 뿌리를 두고 있다.
칼 심스(Carl Sims)가 1994년에 제작한 비디오는 최적화 절차를 보여주는데, 심스는 이를 강화학습이라고 부르지 않고 진화(evolution)라고 불렀다.
이 방법은 가상 생명체의 형태와 행동을 최적화하는데 사용된 원리를 공유했다.
이 가상 생명체들은 이동, 수영, 달리기, 심지어 서로 싸우는 행동을 최적화했다.
이는 인간의 행동을 재현하는 것이 목표인 오늘날의 머신러닝과는 매우 다르며, 인간이 설계할 필요가 없는 행동을 생성하는 것이 목표였다.
수십 년 후, 유발 하라리(Yuval Harari)의 결과물처럼, 자동화된 최적화 및 제어를 위한 더 정교한 알고리즘을 통해 시뮬레이션된 휴머노이드 로봇이 걷고 달리는 방법을 스스로 터득하는 것을 볼 수 있다.

3. 딥 강화학습의 탄생과 중요성

이 두 학문 분야는 현대 딥 강화학습(deep reinforcement learning) 연구에 영향을 미친다.
딥 강화학습은 대규모 최적화와 고전적 강화학습에서 파생된 알고리즘적 아이디어 및 기초의 조합으로 볼 수 잇따.
고전적 강화학습 아이디어를 현대 컴퓨팅 및 최적화 도구로 확장하면 매우 강력한 출현 행동(emerging behaviors)을 얻을 수 있다.
알파고(AlphaGo) 사례가 대표적이다. 챔피언십 경기에서 알파고가 보인 ‘37번째 수(Move 37)’는 전문가들을 놀라게 했는데, 이는 인간 플레이어가 두지 않았을 법한 수였기 때문이다.
최근 생성 AI 결과는 사람이 그렸을 법한 그림처럼 보이기 때문에 인상적이다.
반면, 알파고 결과가 인상적인 이유는 아무도 생각해내지 못한 행동을 출현했기 때문이다.
자동화된 알고리즘이 사람들이 할 행동을 넘어서는 해결책을 발견했다는 점이 중요하다.
만약 우리가 단순히 인간의 행동을 복사한다면 인간과 연관된 유연한 지능을 얻을 수 없을 것이므로, AI 연구를 진지하게 다루려면 이는 매우 중요하다.
알고리즘이 사람이 취했을 해결책이 아니라 작업에 대한 최적의 해결책을 발견하도록 만드는 방법 찾아야 한다.
그래야 새로운 상황에 놓였을 때 지능적으로 반응할 수 있다.

Part 2.

1. 강의 소개 및 학습 로드맵

이 강의는 심층 강화학습(Deep Reinforcement Learning)의 광범위한 방법론을 체계적으로 다루며, 경험 기반 의사결정 문제를 해결하는 실용적인 알고리즘을 학습하는 것을 목표로 한다.

1.1 강의 개요 및 주요 학습 내용

강의는 다음과 같은 순서로 진행된다.

기초 확립: 지도 학습(Supervised Learning)에서 의사결정 방법론으로의 전환 과정을 다루며, 강화학습 문제(Reinforcement Learning problem)에 대한 정의와 이해를 확립한다.
모델 프리(Model-Free) RL 알고리즘: Q-러닝(Q-learning),정책 경사법(Policy Gradient), 그리고 액터-크리틱(Actor-Critic) 방법을 심층적으로 다룬다.
모델 기반(Model-Based) 알고리즘: 계획(Planning), 최적 제어(Optimal Copntrol), 순서 모델(Sequence Models), 이미치 처리 등 모델 기반 접근 방식을 학습한다.
고급 주제: 다음과 같은 다양한 최신 주제들을 다룬다.
1. 탐험 알고리즘(Exploration Algorithms)
2. 오프라인 강화학습(Offline Reinforcement Learning): 데이터와 강화학습 방법을 모두 사용할 수 있는 방법론
3. 역강화학습(Inverse Reinforcement Learning): 행동으로부터 목적 함수를 추론하는 방법
4. 강화학습 방법과 확률적 추론(Probabilistic Inference) 간의 관계에 대한 논의가 포함된다.
5. 메타 학습(Meta-learning), 전이 학습(Transfer Learning), 계층적 RL(Hierarchical RL)과 같은 추가적인 고급 주제 및 연구

2. 강화학습(RL)의 정의와 지도 학습과의 차이점

강화학습의 기초를 다지기 위해, 강화학습이 무엇인지 정의하고 기존의 지도 학습과 어떻게 근본적으로 다른지 비교해야 한다.

2.1 강화학습의 정의

강화학습은 두 가지 측면을 가진다.

수학적 형식론: 학습 기반 의사결정을 위한 수학적 형식론
경험 기반 접근: 경험으로부터 의사 결정 및 제어를 학습하는 접근 방식 이 두 가지는 분리되어 있다는 점을 인지하는 것이 중요하다. 형식론을 가져와 다양한 방법을 적용할 수 있기 때문에, 강화학습(문제)과 강화학습(해결책)을 혼동해서는 안된다.

2.2 지도학습(Supervised Learning)의 특징

지도학습은 다음과 같은 특징을 가진다.

데이터셋 구성: 입력($X$)과 출력($Y$)으로 구성된 데이터셋이 존재한다.
학습 목표: $X$로부터 Y를 예측하는 함수 $f(X)$를 학습하는 것이다.
함수 표현: 함수 $f$는 **심층 신경망(deep neural network) 등으로 표현될 수 있으며, 분류나 회귀를 통해 레이블 $Y$에 맞추어 훈련된다.

지도 학습의 기본 공식은 명확하지만, 강화학습과 비교하기 위해 다음과 같은 중요한 가정을 인지해야 한다.

독립적이고 동일하게 분포된 데이터(i.i.d.) 가정:
1. 모든 $X, Y$ 쌍은 서로 독립적이다. 즉, 하나의 $X$에 대한 레이블이 다른 $X$의 레이블에 영향을 미치지 않는다.
2. 모든 샘플에 대해 $X$로부터 레이블 $Y$를 생성하는 참 함수(true function)&가 동일하게 분포되어 있다.
레이블링 가정: 관찰된 모든 $X$에 대해 참 레이블 $Y$가 항상 동반되어 제공된다.
1. 이는 인간이 얻은 이미지 분류 레이블과 같이 자연스러운 경우도 있지만, 로봇이 물체를 잡는(grasping) 예시처럼 최적의 잡기 위치(ground truth optimal grasp locations)가 주어지는 것은 매우 비현실적일 수 있다.

2.3. 강화학습과 지도 학습의 근본적인 차이점

강화학습은 지도 학습의 i.i.d. 가정과 레이블링 가정을 따르지 않는다.

데이터 의존성: 강화학습은 데이터가 독립적이고 동일하게 분포되어 있다고 가정하지 않는다. 이전 출력(행동)이 미래 입력(상태)에 영향을 미치며, 시간적 순서를 가지며 과거가 미래에 영향을 미친다.
정답(Ground Truth)의 부재: 일반적으로 참 정답(ground truth answer)은 알려져 있지 않는다.
1. 단지 특정 과거가 얼마나 좋았는지(성공 또는 실패), 또는 보상 값(reward value)만 알 수 있다.
2. 따라서 수집된 데이터를 단순히 복사하는 것만으로는 성공에 도달할 수 없다.
원인 규명의 어려움(Credit Assignment): 시퀀스(순서)의 이벤트 중 어떤 선택이 나쁜 결과(실패)를 초래했는지 알기 어렵다.
이는 인간의 의사결정과 유사하며, 나쁜 결과가 발생했을 때, 실제 나쁜 결과를 초래한 결정에 높은 또는 낮은 보상이 직접적으로 레이블링 되지 않는 한 크레딧 할당(credit assignment) 문제가 발생한다.
보상은 나중에 발생할 수 있다.
학습 목표 강화학습은 레이블이 없는 데이터와 지연된 보상을 가지고 훈련하여, 이전에 관찰된 행동보다 더 나은 행동을 얻는 것을 목표로 한다.

3. 강화학습의 형식론 및 상호작용 과정

3.1. 지도 학습과의 형식론 비교

지도 학습에서는 입력 $X$, 출력 $Y$, 그리고 이들을 근사하는 함수 $f$와 그 파라미터 $\theta$ (예: 신경망의 가중치)가 존재한다.

3.2. 강화학습의 순환적 상호작용 절차

강화학습은 순환적인 온라인 학습 절차를 따르며, 에이전트가 환경과 상호작용한다.

에이전트의 행동: 에이전트는 매 시점 $t$에 행동 $A_t$를 선택한다.
환경 반응: 환경은 그 결과로 다음 상태 $S_(t+1)$와 보상 신호(reward signal)를 반환한다. 보상 신호는 그 상태가 얼마나 좋은지를 나타낼 뿐, 직전에 취한 행동이 좋았는지 나빴는지는 반드시 알려주지 않는다. 운이 좋았거나 이전 행동이 좋았을 수 있다.
에이전트의 입력과 출력 에이전트의 입력은 매 시점의 상태 S_t$ (지도 학습의 $X$에 해당)이다.
에이전트의 출력은 매 시점의 행동 $A_t$ (지도 학습의 $Y$에 해당)이다.
데이터 수집: 에이전트가 수집하는 데이터는 상태, 행동, 보상의 시퀀스로 구성되며, 보상은 스칼라 값이다.
데이터 수집 주체: 지도 학습과 달리, 강화학습에서는 **에이전트가 직접 행동을 선택하여 데이터를 수집해야 한다.

3.3. 강화학습의 목표: 정책 학습

에이전트의 목표는 **정책 $\pi_\theta$를 학습하는 것이다.

정책 정의: 정책 $\pi_\theta$는 상태 $s$를 행동 $a$로 매핑하는 함수이며, 이 역시 파라미터 $\theta$ (예: 신경망 가중치)를 가진다.
좋은 정책: 좋은 정책은누적 총 보상(cumulative total reward)을 최대화하는 정책이다. 이는 단기적인 보상뿐만 아니라 장기적인 보상까지 고려하는 전략적 추론을 포함하며, 당장은 보상이 적더라도 나중에 더 큰 보상을 얻기 위해 행동할 수 있다.

4. 강화학습 문제의 구체적인 예시

4.1. 일상 로봇 제어 예

head1	head two	three
행동	개의 근육 수축	모터에 가해지는 전류 또는 토크 명령
관측	시각 및 후각으로 인지하는 것	카메라나 엔코더와 같은 센서 판독값
보상	성공적으로 재주를 수행했을때 주어지는 간식	작업 성공의 척도

5. 강화학습 방법론의 응용 분야 및 성과

5.1. 물리적으로 복잡한 작업 학습

강화학습은 사람이 수행 방법을 정확히 설명하기 어렵지만 보상을 정의하기 쉬운 **물리적으로 복잡한 작업을 학습하는 데 매우 능숙하다.

로봇 손을 이용한 못 밖기: 보상은 못이 박히는 것이며, RL 알고리즘이 로봇 손의 움직임을 제어하여 못을 박는 방법을 스스로 학습한다.
사족 보행 로봇의 점프 및 균형 이족 보행 로봇이 다양한 장애물을 뛰어넘는 기술을 수동으로 코딩하는 것은 매우 어렵지만, RL을 통해 다양한 거리로 점프할 수 있는 구동 방식(actuations)을 학습할 수 있다.
심지어 뒷다리로 서서 균형을 잡는 것과 같이 수동으로 코딩하긱 어려운 작업도 RL을 통해 가능해졌다.
ETH 취리히의 최근 연구에서는 시뮬레이션 최적화와 결합하여 로봇이 장애물을 오르는 등 **민첩한 기술을 학습하는 데 RL이 사용되었다.

5.2. 예상치 못한 해결책 발견 및 적용

강화학습은 때때로 예상치 못한 해결책을 제시하는 데 강점을 보인다.

게임 플레이 Atari 게임을 플레이하는 키 학습 알고리즘은 벽돌 위로 공을 튕기면 계속해서 점수를 얻는 전략을 발견했다.
실제 세계에서의 대규모 적용 Alphabet의 Everyday Robots 프로젝트에서 로봇들이 쓰레기를 분류하는 방법을 학습했다.
이 로봇들은 교실 환경과 실제 사무실 건물에서 실시간으로 학습하며, 시각 기반 기술을 사용하여 실제 사무실 환경에서 물체를 집어 옮기는 능력을 습득했다.

5.3. 교통 흐름 제어(캐시 우 연구)

RL은 교통 제어 분야에도 적용되었다.

순환 환경에서의 교통 체증 단순한 원형 도로 환경에서도 인간 운전자를 모델링하면 교통 체증이 자발적으로 형성되어 차량이 뭉치는 현상이 발생한다.
RL 정책 적용 빨간색 차량에 최적화된 RL 정책을 적용했는데, 이 정책은 자신의 속도가 아닌 전체 원의 속도를 최적화하도록 설계되었다.
그 결과, 빨간색 차량은 의도적으로 속도를 늦추고 기다림으로써 전체 원에서 교통 체증이 형성되는 것을 방지했따.
8자형 교차로 8자형 교차로에서도 중앙에서 차량이 뭉쳐 지연이 발생한다. 자율 주행 차량이 전체 차량 속도를 최적화하도록 정책을 설정하면, 스스로 속도를 약간 낮춰 모든 차량이 교차로를 완벽한 타이밍에 통과하도록 교통 흐름을 조절할 수 있다.

5.3. 언어 모델 및 이미지 생성 최적화

RL은 최근 대규모 언어 모델(LLM)과 이미지 생성 모델의 성능 향상에도 핵심적인 역할을 하고 있따.

언어 모델 (LLM) 제어 ChatGPT와 같은 LLM은 인터넷 데이터로 훈련되어 정교한 문제를 해결할 수 있지만, 인터넷 데이터 기반의 텍스트 완성을 시도하기 때문에 사용자의 요청에 맞게 유도하기 어렵다.
RL은 인간의 점수(human scores)를 기반으로 모델을 훈련시켜, 인터넷 데이터에서 가장 가능성이 높은 완성이 아닌, 인간 독자가 바람직하다고 여기는 방식으로 질의에 응답하도록 만드는 데 사용된다.
이미지 생성 모델 최적화(Stable Diffusion) 초기 이미지 생성 모델(예: Stable Diffusion 1.4)이 “자전거를 타는 돌고래”와 같은 프롬프트에 대해 좋지 않은 이미지를 생성할 수 있다. 개선 과정
1. 생성된 이미지를 캡셔닝 모델*(LAVA)로 설명하게 한다.
2. 보상 함수를 LAVA가 생성한 설명과 원래 프롬프트 간의 유사성으로 설정한다.
3. 유사성이 낮으면 나쁜 보상을 받는다.
4. RL을 사용하여 이 보상을 최대화하도록 이미지 생성 모델을 최적화하면, 이미지가 프롬프트에 더 적합해진다.
5. 반복을 통해 돌고래와 자전거가 모두 나타나고, 최종적으로 자전거를 타는 돌고래의 완전한 그림이 생성된다.

Part 3

1. 딥러닝 기반 AI의 한계와 강화학습의 필요성

1.1. 데이터 기반 AI의 성과와 한계

최근 데이터 기반의 대규모 AI 시스템에서 인상적인 결과들이 나타나고 있다.
현재의 성공적인 방법들은 주로 인간이 만든 데이터를 모방하도록 훈련되며, 그 결과 인간이 만든 결과물처럼 보이는 것에서 인상적이다.
많은 경우 알고리즘이 일반적인 인간 데이터보다 더 잘 수행하기를 원한다. 이는 인간 데이터가 불완전하거나, 얻기 어렵거나, 최고 수준의 성능을 요구하기 때문이다.
기계가 인간에게 무엇을 해야 할지 지시받지 않고 스스로 발견하여 인상적인 해결책을 제시하는 것을 원한다.
기계가 스스로 해결책을 발견하는 것은, 필요한 훈련 데이터를 제공할 인간의 선견지명이 없는 상황에서도 더 나은 해결책을 발견했기 때문이다.
성공적인 데이터 기반 방법들은 밀도 추정 방식으로 작동한다.
이 방식은 인간이 생성하는 경향이 있는 데이터를 생성하지만, 좋은 인간 행동을 넘어서지 못한다.
대규모 언어 모델(LLM)은 인간 데이터 색인에는 매우 뛰어나지만, 방대한 인터넷 지식을 가지고 있더라도 구체적인 문제를 해결하기 위해 그 지식을 활용하는 데는 더 나은 성능을 보이지 않을 수 있다.
예를 들어, LLM에게 누군가를 의사에게 가보도록 설득하라고 했을 때, 인터넷 지식 저장고가 방대함에도 불구하고 사람보다 더 잘 설득하지 못할 가능성이 높다.
데이터 기반 AI 시스템은 방대한 양의 데이터로부터 현실 세계를 학습하지만, 그 데이터를 의미 있는 방식으로 능가하려고 시도하지 않는다.

1.2. 강화학습의 도입과 딥러닝의 역할

강화학습 시스템은 목표를 최적화하고 새로운 행동을 발현시킬 수 있어, 데이터 기반 AI의 주요 단점을 보완할 수 있다.
RL 방법을 대규모로 활용하기 위해서는 기존 성공적인 거대한 모델 및 데이터셋과 결합하는 방법을 찾아야 한다.
딥 강화학습(Deep Reinforcement Learning)에서 ‘Deep’이라는 요소가 바로 이 확장성을 위해 필요하다.
데이터 기반 AI는 데이터 사용에 관한 것이고, 강화학습은 최적화에 관한 것이다.
딥 강화학습은 대규모에서의 최적화를 의미하며, 최적화 없는 데이터는 새로운 문제를 새로운 방식으로 해결하는 것을 허용하지 않는다.
최적화가 없으면 인간과 유사한 해결책을 찾을 수는 있지만, 초인적인(superhuman) 해결책은 아닐 수 있다.

2. 리처드 서튼의 ‘쓰라린 교훈(The Bitter Lesson)’

2.1.

강화학습의 선구자이며, 이전에는 심리학의 연구 주제였던 강화학습을 컴퓨터 과학 분야에서 대중화시킨 인물이다.
서튼은 2019년에 이 논문을 발표했으며, 이는 데이터 기반 AI 혁명이 일어난 이유를 간결하고 명확하게 설명한다.
에세이에서 서튼은 “우리가 생각하는 방식(building)은 장기적으로 작동하지 않는다”는 것을 배워야 한다고 주장했다.
학습(Learning)과 탐색(Search)이라는 두 가지 방법이 임의로 확장될 수 있다는 것으로 보인다.
강력한 학습 기계를 만들려면, 데이터를 잘 사용하고 확장될 수 있도록 설계해야 하며, 인간이 문제를 해결하는 방식대로 시스템을 공학적으로 설계하는 데 너무 많은 노력을 기울일 필요는 없다.
과거에는 자동차의 바퀴, 헤드라이트 등을 공학적으로 설계하고 ‘자동차는 보통 네 개의 바퀴와 앞뒤에 두 개의 헤드라이트가 있다’고 프로그래밍했었다(약 10년 전 컴퓨터 비전 시스템 구축 방식).
현대에는 수많은 자동차 예시를 모아 컴퓨터가 스스로 패턴을 파악하게 한다.
서튼은 우리가 문제 해결 방시게 대해 생각하는 것을 엔지니어링하는 데 너무 집중하지 말고, 확장 가능한 학습 기계에 집중해야 한다고 말한다.
이 글은 기계 학습 커뮤니티 내에서 구성 요소를 얼마나 빌드인(build in)해야 하는지에 대한 오랜 논쟁 속에서 큰 영향을 미쳤다.

2.2. 학습과 탐색의 중요성

많은 독자들이 이 글을 읽고 규모(scale)에만 초점이 있다고 오해하여, 확장되는 알고리즘보다는 데이터와 GPU에만 집중해도 된다고 생각할 수 있다.
서튼의 글은 학습(learning)과 탐색(search)에 관한 것이지, GPU나 빅데이터에 관한 것이 아니다.
학습은 데이터에서 패턴을 추출하는 과정이다. 시계를 보고 데이터를 모아 학습 기계를 훈련시키고 그 안에 있는 패턴을 찾아낸다.
탐색은 계산을 사용하여 추론을 추출하는 과정이다.
서튼이 사용하는 ‘탐색(Search)’은 강화학습에서 흔히 사용되는 매우 기술적인 의미이며, 단순히 별 탐색(star search)을 의미하는 것이 아니다.
탐색은 추론을 추출하기 위해 사용하는 일종의 계산 또는 최적화 과정이다.
탐색은 더 많은 데이터를 얻는 것이 아니라, 가지고 있는 것을 사용하여 더 흥미롭고 의미있는 결론에 도달하는 것이다. 이는 일반적으로 반복적인 계산을 사용하여 합리적인 결정을 내리는 최적화 과정이다.
학습은 세상을 이해하게 하고, 탐색은 그 이해를 활용하여 흥미로운 발현적 행동(emergent behavior)을 이끌어낸다.
유연하고 합리적이며 최적인 의사결정을 위해서는 세상이 어떻게 작동하는지 이해(학습)하고, 그 이해를 활용하여 이전에 본 것보다 더 나은 해결책(탐색)을 찾는 둘 다 필요하다.
딥 강화학습이 시도하는 것이 바로 이 과정이다.

3. 학습과 최적의 시너지 및 지능의 본질

3.1.

최적화 없는 데이터는 새로운 문제를 새로운 방식으로 해결할 수 없게 하며, 데이터나 경험 없는 최적화는 현실 세계에 적용하기 어렵다.(상호 보완성)
이 둘을 결합하면 현실 세계의 문제를 더 최적으로 해결하기 시작할 수 있다.(예: 모션 방정식이 기록된 시뮬레이터에서)
이 관점은 로봇 제어나 비디오 게임 제어에만 국한되지 않고, 이전에 설명했듯이 다양한 다른 영역에서도 성공적으로 적용되었다.

3.2. 뇌와 머신러닝의 목적: 움직임과 결정

뇌가 필요한 근본적인 이유를 통해 기계 학습의 목적을 이해할 수 있다.
신경과학자 다니엘 월퍼트(Daniel Walper)는 뇌가 적응적이고 복잡한 움직임을 생성하기 위해 존재하며, 움직임이 세상을 변화시키는 유일한 방법이라고 말한다.
이 직관을 기계 학습에 적용하면, 기계 학습은 오직 하나, 즉 적응적이고 복잡한 결정을 생성하기 위해 필요하다는 결론에 도달한다.
뇌가 몸을 움직일 수 있을 때만 유용하듯이, 머신 러닝 시스템은 좋은 결정을 내릴때만 유용하다. 왜냐하면 그것이 시스템의 유일한 출력 결과이기 때문이다.
모든 머신 러닝 문제를 예측(prediction)의 문제가 아니라 의사 결정(decision-making)의 문제로 바라볼 수 있다.
예시는 아래와 같다.

로봇 제어: 관절을 어떻게 움직일지 결정한다.
자동차 운전: 차를 어떻게 조향할지 결정한다.
컴퓨터 비전: 이미지 레이블을 결정하는 것은 단순한 예측이지만, 이것이 하류(downstream)에 장기적 영향을 미친다.
- 1. 교차로의 차량 대수를 감지하여 교통량을 라우팅하는 데 사용된다.
- 1. 보안 카메라에서 사람을 감지하고 부적절할 경우 보안팀에 알리는 결정은 복잡하고 보델링하기 어려운 결과를 초래할 수 있다.

모든 머신 러닝 문제의 결과를 결정으로 볼 때, 모든 머신 러닝 문제는 본질적으로 강화학습 문제의 변형이라는 것이 명확해진다. 단지 일부 경우에 지도 학습 레이블 데이터라는 특권이 문제 해결에 도움을 줄 뿐이다.
이 관점(모든 것이 결정)은 학습(learning)과 탐색(search)이 로봇이나 게임을위한 특별한 요소가 아니라, 범용 AI 시스템의 일반적일 빌딩 블록임을 보여준다.

딥 강화학습은 범용적인 지능형 기계(General Intelligent Machines)를 구축하는 데 있어 중요한 부분을 차지하며, 이 분야를 연구하면 궁극적으로 지능의 본질에 대한 근본적인 질문에 답할 수 있을 것이다.

3.3 딥 강화학습 연구의 현재 동력

대규모 종단 간(end-to-end) 훈련 모델이 대규모 데이터셋과 트랜스포머(Transformers)와 같은 대규모 모델을 사용할 때 꽤 잘 작동한다.
RL 알고리즘을 딥 신경망과 결합하는 것이 실현 가능해졌으며, 대규모 종단 간 모델을 훈련시키는 데 RL 알고리즘을 구현하느 방법에 대해 많이 파악했다.
진정한 개방형 환경에서의 학습 기반 제어는 여전히 주요한 미해결 과제로 남아있다.
초기 결과들이 있지만, 이러한 시스템의 잠재력은 아직 많이 실현되지 않았다.
이 강의에서 해당 잠재력과 아이디어가 어떻게 우리를 더 가까이 데려갈 수 있을지 논의할 예정이다.
지금 이 주제를 연구하는 것은 매우 흥미로운 시기이다. 퍼즐 조각들이 맞춰지고 있지만, 아직 주요한 질문들이 남아있으며, 이는 연구자들의 미래 연구 주제가 될 수 있다.

4. 강화학습 분야의 더 넓은 그림

4.1. 강화학습의 추가적인 중요 문제들

이 강좌는 단순히 보상 최대화뿐만 아니라, 현실적이고 데이터 기반적인 설정에서 의사결정 및 제어, 그리고 이를 해결할 수 있는 방법을 다룬다.
기본적인 RL 외에도 다음의 고급 주제들을 다룰 예정이다.

역강화학습(Inverse Reinforcement Learning): 예시로부터 보상 함수 학습.
전이 학습(Transfer Learning) 및 메타 학습(Meta-Learning): 도메인 간 지식 전이
예측 학습 및 행동에 예측 사용

4.2. 보상 함수의 출처와 희소한 보상 문제

보상이 어디서 오는지에 대한 의문에 제기된다. 비디오 게임에서는 점수 등으로 명확하지만, 다른 설정에서는 그렇지 않다.
로봇에게 물컵을 집어 물을 따르도록 시키는 경우, 보상 함수를 설정하는 것 자체가 어렵다. 유리컵 속의 물을 인지하는 것도 복잡한 지각 문제이다.
캘리포니아 대학 버클리(UC Berkeley) 연구에 따르면, 인간 에이전트는 평생에 한두 번 경험하거나 아예 경험하지 못하는 매우 희소한 보상을 가지고 작동하는 데 익숙하다.
박사 학위 취득으로 받는 보상은 한 번 뿐이며, 실제 결과는 그 학위로 이후에 무엇을 하느냐에 따라 달려있따. 이는 수많은 박사 학위를 시도하며 시행착오로 배우는 것이 아님을 시사한다.

4.3. 희소 보상을 넘어서는 학습 방법

인간 뇌의 기저핵(basal ganglia)은 보상 신호를 담당하며, 이 구조는 복잡하고 정교한 역할을 수행한다.
치타가 성공적으로 가젤을 잡았을 때만 보상을 받는다면, 무작위로 돌아다니다가 우연히 가젤을 잡아먹고 나서야 가젤 사냥이 좋은 생각임을 깨닫는 방식으로는 굶어 죽을 것이다.
치타는 시행착오를 통한 보상만이 아니라, 다른 치타를 관찰하거나 부모에게서 배우는 등 다양한 다른 신호로부터 학습한다.
보상 신호 추출 외에도 더 유용한 형태의 지도 신호를 추출할 수 있다.

시연(Demonstrations)으로부터 학습: 직접 행동을 복사하거나, 역강화학습을 통해 행동으로부터 보상 추론
세상 관찰 및 예측: 무엇을 해야 할지 확신하지 못하더라도 다음에 무슨 일이 일어날지 예측하고 그 지식을 활용
비지도 학습(Unsupervised Learning) 및 비지도 특징 추출
다른 작업으로부터 지식 전이
메타 학습(Meta-learning): 과거 다른 작업을 해결한 경험으로부터 더 빠르게 적응하는 방법을 학습

5. 모방 학습 및 의도 추론

5.1. 모방 학습과 의도 추론의 차이

Nvidia의 약 80년 전 작업으로, 순수하게 모방에 기반한 방법으로 자율주행을 시연했다.
인간은 단순히 관찰된 행동을 복사하는 것이 아니라, 의도를 추론할 수 있으며, 이는 인간 모방의 특징이다.
실험자가 스마트하지 않은 행동을 할 때, 아동 피험자는 실험자를 모방하는 대신 의도를 추론하여 그 의도를 성취하기 위한 더 나은 일련의 행동을 취한다.
인간이 누군가를 모방할 때, 문자 그대로 상대방의 근육 활성화를 따라 하는 것이 아니라, 상대방이 무엇을 하려고 하는지에 대해 문언가를 추론하고 자신만의 방식으로 수행한다.
이는 동일한 동작을 수행하는 매우 구체적인 수준일 수도 있고, 완전히 다른 행동을 통해 동일한 원하는 결과를 도출하는 더 추상적인 수준일 수도 있다.

5.2. 역강화학습을 이용한 로봇 제어 예시

역강화학습 알고리즘은 로봇에게도 적용될 수 있다.
8년 전 연구로, 로봇이 인간 시연자의 의도를 추론하는 것을 보여준다.
로봇은 주황색 컵의 내용물을 노란색 컵에 붓는 것이 목표임을 이해하고, 이 의도를 추론한 후 다양한 환경에서 작업을 수행할 수 있었다.
예측(prediction)은 제어에서 매우 중요한 부분이며, 이는 모델 프리 강화학습과는 별개로 취급되지만, 인간과 동물이 세상에 대해 학습하는 방식에서 예측이 중요한 부분이라는 신경과학 및 심리학적 증거가 풍부하다.

6. 예측 모델 진화 및 응용

6.1. 초기 예측 모델과 진보

미래의 감각 정보를 예측하고 실제 세계 예측 모델을 구현할 수 있다.
초기(2013년)의 로봇 예측은 로봇이 환경의 물체들과 상호작용하며 데이터를 수집하고, 다른 모터 명령에 반응하여 무엇을 보게 될지 예측하는 실험이 진행되었다.
2017년의 예측 품질은 높지 않지만, 로봇이 하려는 일의 요점(gist)을 포착했으며, 이를 물체 제어에 사용할 수 있었다. 예를 들어, 특정 물체를 특정 위치로 옮기도록 명력하면, 로봇은 움직임을 상상한 다음 팔을 움직여 실재로 물체를 이동시켰다.
예측 모델은 새로운 작업을 해결하고 발현적 행동을 위한 강력한 도구가 될 수 있다 (예: 도구를 사용해야 함을 깨닫거나, 물병을 임시 도구로 사용하여 쓰레기를 치우는 것).
최근(2023) 몇 년 동안 일반 모델링의 발전과 함께 예측 모델이 크게 발전했다.
확산 기반 비디오 예측 모델을 사용하여 주행 비디오 클립을 합성할 수 있다. 앞의 세 프레임은 실제지만 나머지는 합성된 것이다.
모델은 현실적인 카메라 움직임을 생성하고, 차가 방향을 틀 때 새로운 물체를 도입하여, 다른 차들의 움직임도 비교적 정확하게 예측한다 (좌측 비디오가 실제, 우측 합성 영상).
2017년 대비 2022년의 로봇 비디오 예측에서는 팔 동작이 더 명확하고 물체의 움직임이 더 사실적으로 나타났다.

6.2. 사전 훈련 모델(Pre-trained Models) 활용

강화학습할 때 밑바닥부터 할 필요 없이, 대량의 인터넷 데이터로 사전 훈련된 모델을 제어에 사용할 수 있다.
RT2 모델은 언어 모델과 시각 언어 모델을 사용한다. 언어 모델로 훈련되고, 시각 언어 모델이 인터넷 이미지를 처리하여 질문 응답(이미지에서 무슨 일이 이렁나고 있는지)과 같은 작업을 수행한다.
이 모델은 칩을 집도록 지시받았을 때, 칩을 집는 데 필요한 숫자 값을 출력하도록 추가 미세 조정된다. 인터넷에서 학습한 지식을 이 작업 수행에 효과적으로 활용한다.
RT2의 지능 과제 예시:

바나나를 병 속으로 이동: 로봇 데이터에는 바나나 이동 예시는 있지만, ‘병 속으로’ 이동하는 것이 무엇인지 이해하기 위해 인터넷 데이터를 활용한다.
수학 문제 풀이: 바나나를 수학 문제의 답 위에 놓도록 지시받는다.
올바른 그릇에 딸기 넣기: 각 그릀의 과일을 인식하고 딸기가 있는 그릇이 올바른 그릇임을 파악해야 한다.
다른 물체 집기: 다른 모든 물체와 다른 물체(막대)를 집으라고 지시받는데, 이는 로봇 데이터만으로는 알 수 없고 인터넷 데이터를 활용해 차이가 무엇인지 파악해야 한다.
다국어 이해: 로봇 데이터는 한 언어로만 주석이 달려 있지만, 모델은 다른 언어로 된 지침도 이해할 수 있다. 이러한 예시는 학습 기반 의사결정 분야에서 연구할 수 있는 문제들이다.

7. 지능형 기계 구축을 위한 딥 강화학습의 역할

7.1. 지능형 기계 구축 접근 방식의 변화

딥 강화학습의 기본 빌딩 블록이 지능형 기계를 구축하는 방법에 대한 근본적인 질문에 답하는 데 매우 유용할 것이라고 주장한다.(이 주장은 논쟁의 여지가 있을 수 있다)
과거에는 지능형 기계를 만들려면 뇌를 이해해야 한다고 생각했다. 뇌의 각 부분을 이해하고 그 기능별로 컴퓨터 프로그램을 에뮬레이트해야 했다.
현대의 뇌에 대한 이해가 발전했더라도, 각 부분이 매우 복잡하여 모든 부분이 동작을 코딩하고 연결하는 것이 매우 어려우며, 우리에게 필요한 지능보다 더 많은 지능이 필요할 수 있는 매우 힘든 방식이다.

7.2. 학습이 지능의 기반이라는 가설

학습이 지능 기반이라는 가설은 이 문제를 해결하는 훨씬 쉬운 방법을 제공할 수 있다.

일부 행동(예: 걷기)은 뇌에 내장되어 있을 수 있다.
하지만 운전과 같이 우리가 배울 수 있는 것들도 있으며, 우리는 엄청나게 다양한 일을 배울 수 있다.
따라서 우리의 학습 메커니즘은 우리가 지능이라고 부르는 모든 것을 수행하기에 충분히 강력할 가능성이 높다.
심지어 내장된 부분(하드코딩의 일부)이 없을지라도 학습 메커니즘만으로도 결국 알아낼 수 있다고 가정할 수 있다. 더 나아가, 지능적 행동에 나타나는 모든 다른 영역을 이해하는 데 ㅔ사용될 수 있는 단일 학습 알고리즘이 있을 수 있다고 가정할 수 있다.
보고, 말하고, 듣는 방식이 어떤 수준에서는 동일한 메커니즘을 따른다는 것이다.
모듈마다 알고리즘을 갖는 대신, 적절한 맥ㄹ락에 놓이면 모든 모듈을 증가시키는(increment) 단일ㅇ 유연한 알고리즘이 있을 수 있다.
이 가설을 뒷받침하는 정황 증거가 있다. 혀에 전극 배열을 놓고 카메라에 연결하여 혀를 통해 시각 정보를 인식하도록 학습하거나, 페럿의 시신경을 청각 피질에 연결하면 청각 피질이 시각 정보를 처리하도록 적응한다.
이는 적응할 수 있는 일반성 또는 균질성이 뇌(적어도 신피질)에 존재하며, 이는 하나의 알고리즘이 있을 수 있음을 시사한다.
이 단일 알고리즘은 풍부한 감각 입력을 해석하고 복잡한 행동을 선택할 수 있어야 한다.
필요한 요소:
풍부한 감각 입력을 다루는 유일한 방법은 대규모, 고용량(Deep)이다.
행동을 취하는 수학적 공식은 강화학습(RL)이다. Deep은 대규모 복잡한 데이터로부터의 확장 가능한 학습을 제공하고, RL은 최적화, 즉 행동을 취하는 능력을 제공한다.

7.3. 뇌와 딥러닝 표현의 유사성 및 RL의 역할

딥 신경망에 의해 획득된 표현(representations)이 뇌에서 관찰되는 표현과 통계적 유사성을 갖는다는 증거가 있다.
이는 뇌가 딥 네트워크처럼 작동한다는 의미는 아니며, 충분히 큰 학습 기계가 데ㅣ터가 구성된 방식 그대로 데이터 패턴을 추출하기 때문에 유사하게 보일 수 있다.
시각 지각, 청각 특징, 심지어 촉각에 대해서도 표현적 유사성이 존재한다.

뇌 신호: 원숭이 뉴런 기록을 통해 원숭이가 촉각에 사용하는 특징의 신호를 얻는다.
딥러닝 실험: 흰 먼지가 묻은 장갑을 끼고 물체를 만진 후, 딥 신경망을 사용하여 장갑의 먼지 패턴에서 패턴을 발견한다. 강화학습이 인간의 의사결정 메커니즘의 기초라는 강력한 증거가 있다. 동물 연구에서 보상을 예상하는 지각은 보상 자체와 유사한 발화 패턴과 연관된다.
기저핵은 일종의 보상 시스템으로 보이며, TD(Temporal Difference) 학습과 유사한 적응 모델이 동물의 적응 실험 데이터에 잘 들어맞는 경우가 많다.
이러한 정황 증거들은 딥러닝 강화학습 도구가 지능 문제 해결에 좋은 도구가 될 수 있음을 시사한다.

8. 미해결 과제와 미래 연구 방향

8.1. 현재 Deep RL과 지도 학습 간의 격차

지능 구축 문제는 아직 해결되지 않았다.
딥러닝은 방대한 양의 데이터로부터 학습하는 훌륭한 방법이 존재한다.
RL을 위한 훌륭한 최적화 방법이 존재하며, 최근 RL은 확장성이 향상되어 실제 로봇 문제를 다룰 수 있게 되었다.
하지만 데이터를 사용하고 RL을 사용하는 놀라운 방법은 아직 없다. 일반 모델링 응용 분야인 거대 언어 모델은 여전히 주로 지도 학습을 사용한다. 따라서 여전히 필요한 알고리즘 빌딩 블록이 남아있다.
인간은 믿을 수 없을 만큼 빠르게 학습하지만, Deep RL 방법은 일반적으로 대량의 데이터가 필요하다. 인간은 과거 지식을 재사용하지만, RL에서의 전이 학습은 여전히 미해결 문제이다.
보상 함수가 무엇이어야 하는지, 예측의 역할이 무엇인지 항상 명확하지 않았으며, 모데레 기반 방법과 모델 프리 방법이 어떻게 결합되어야 하는지 등 많은 의문점들이 남아 있다.

8.2. 지능의 프레임워크로서의 Deep RL

딥러닝과 강화학습 도구가 강력한 인공지능 시스템 구축에 올바른 도구라면, 이러한 질문들을 연구함으로써 지능 문제에 진전을 이룰 수 있을 것이다. 궁극적으로 지능형 시스템을 **구현해야 할 모듈들의 모음**으로 보는 그림에서 벗어나야 한다.
대신, **주어진 모든 문제를 스스로 알아낼 수 있는 일반적인 학습 알고리즘**을 가진 매우 우아하고 간단한 프레임워크로 볼 수 있다.
이러한 아이디어는 최근에 만들어진 것이 아니며, 21세기, 심지어 머신 러닝 시대가 오기 전부터 존재했다.
"성인 마음을 시뮬레이션하는 프로그램을 만들려고 하기보다는, **어린아이의 마음을 시뮬레이션하는 프로그램**을 만들려고 노력해야하지 않을까? 만약 이것이 적절한 교육 과정을 거친다면, 우리는 성인의 두뇌를 얻게 될 것이다."