'분류 전체보기' 카테고리의 글 목록 (28 Page)

Programming

[BOJ]1297. TV 크기 2020.02.06
[RL]Lecture 4. Model-Free Prediction 2020.02.05
[BOJ]10026. 적록색약 2020.02.04
[ML]ch 3. Linear Models for Regression 2020.02.03
[RL]Lecture 3. Planning by Dynamic Programming 2020.01.29 1
[ML]ch 2. Probability Distributions 2020.01.27
[Programmers]Lv 4. 카드 게임 2020.01.23
[RL]Lecture 2. Markov Decision Processes 2020.01.22
[BOJ]1012. 유기농 배추 2020.01.21
[ML]ch 1. Introduction-part 2 2020.01.20

[BOJ]1297. TV 크기

2020. 2. 6. 12:00

728x90

문제:

김탑은 TV를 사러 인터넷 쇼핑몰에 들어갔다. 쇼핑을 하던 중에, TV의 크기는 그 TV의 대각선 길이로 나타낸다는 것을 알았다. 하지만, 김탑은 대각선의 길이가 같다고 해도, 실제 TV의 크기는 다를 수도 있다는 사실에 직접 TV를 보러갈걸 왜 인터넷 쇼핑을 대각선의 길이만 보고있는지 후회하고 있었다.

인터넷 쇼핑몰 관리자에게 이메일을 보내서 실제 높이와 실제 너비를 보내달라고 했지만, 관리자는 실제 높이와 실제 너비를 보내지 않고 그것의 비용을 보내왔다.

TV의 대각선 길이와, 높이 너비의 비율이 주어졌을 때, 실제 높이와 너비의 길이를 출력하는 프로그램을 작성하시오.

입력:

첫째 줄에 TV의 대각선 길이, TV의 높이 비율, TV의 너비 비율이 공백 한 칸을 사이에 두고 주어진다. 대각선 길이는 5보다 크거나 같고, 1,000보다 작거나 같은 자연수, 높이 비율은 1보다 크거나 같고, 99보다 작거나 같은 자연수 너비 비율은 2보다 크거나 같고, 100보다 작거나 같은 자연수이다. 너비 비율은 항상 높이 비율보다 크다.

출력:

첫째 줄에 TV의 높이와 TV의 너비를 공백 한 칸을 이용해서 구분지은 후 출력한다. 만약 실제 TV의 높이나 너비가 소수점이 나올 경우에는 그 수보다 작으면서 가장 큰 정수로 출력한다. (예)1.7->1

풀이방법:

높이와 너비의 비율이 주어졌으므로 이들의 비율 1에 해당하는 r을 구하면 된다. 이 r은 대각선의 길이로 구할 수 있게 된다. 너비를 x, 높이를 y라고 했을 때, x²+y²=기울기² 를 만족하고, x:y=a:b 의 비율을 만족시키는 r이 있다고 하자.

(r은 x=a*r, y=b*r 을 만족한다.)

그러면 다음을 만족한다.

a²r²+b²r²=기울기²

따라서 r로 묶어서 계산할 수 있고, 최종적으론 a*r, b*r을 출력하면 된다.

import math
 
d,x,y=map(int,input().split())
 
r=math.sqrt((d*d)/(x*x+y*y))
 
print(int(r*x),int(r*y))

문제링크:

https://www.acmicpc.net/problem/1297

1297번: TV 크기

www.acmicpc.net

728x90

저작자표시 비영리 동일조건

'Algorithm > Python' 카테고리의 다른 글

[BOJ]1431. 시리얼 번호 (1)	2020.02.13
[BOJ]6603. 로또 (0)	2020.02.11
[BOJ]10026. 적록색약 (0)	2020.02.04
[Programmers]Lv 4. 카드 게임 (0)	2020.01.23
[BOJ]1012. 유기농 배추 (0)	2020.01.21

[RL]Lecture 4. Model-Free Prediction

2020. 2. 5. 12:00

728x90

Youtube에 있는 David Silver의 Reinforcement Learning 강의를 보고 작성하였습니다.

Model Free Prediction

Model Free : MDP에 대한 정보가 없는 경우, 즉 environment에 대한 정보를 가지고 있지 않다.
Prediction : value function을 학습하는 것

즉 Model Free Prediction은 MDP에 대한 정보가 없을 때 value function을 학습해야 하는 문제이고, 다음 장에서 Model Free Control에 대해서 알아보도록 한다.

이번 강의에서 소개한 Model Free Prediction 방법으로 크게 Monte-Carlo Learning(MC), Temporal-Difference Learning(TD)가 있다.

Monte-Carlo Learning

몬테 카를로 방법(다음 부터 MC라 부른다.)은 episode들로 부터 직접적으로 학습한다. 즉 모두 종료가 되는 episode들의 return의 평균을 통해서 학습을 진행한다는 것이다. 그러므로 MC는 완전한 episode들로 부터 학습을 하며 이를 no bootstrapping(추측치로 업데이트 하기)이라고 부른다.

Goal : Prediction 문제이므로 policy는 π로 정해져 있고, 이를 통해 나온 episode들을 통해 vπ 를 학습하는 것
return은 Gt=Rt+1+γRt+2+ ... + γT−1RT 와 같이 정의 했으며 vπ(s) = Eπ [Gt | St = s] 로 정의했었다.

MC 방법은 state들을 방문한 것을 바탕으로 다시 크게 First와 Every로 나뉘게 된다.

First- Visit MC Policy Evaluation

terminate까지 도달하기 위해서 state들을 여러번 방문할 수 있는데, , 이때 해당 state에 처음 접한 후 얻은 return 값의 평균을 사용하여 구한다.

Every-Visit MC Policy Evaluation

First와는 달리 state들을 방문할 때마다 return을 계산하고 이를 평균을 내는 방식이다. 보통 first-visit을 사용한다고 한다.

Incremental mean

평균을 구하는 식은 다음과 같이 현재의 값을 뺀 평균의 식으로 바꿀 수 있게 된다. 이를 통해 incremental update를 할 수 있게 된다.

따라서 이를 이용해서 MC 방법에서 V를 계산하는데 사용할 수 있다.

N(S)는 episode를 수행한 횟수에 해당하며 에피소드를 수행하고 나서 v(s)를 바로바로 추정가능하게 된다.

non-stationary 문제의 경우에는 평균을 낼 때 이전의 횟수를 사용하는 것이 아니라 일정한 값인 a로 고정해서 계산을 한다.

Temporal-Difference Learning(TD)

TD방식도 episode들로 부터 직접적인 경험을 하면서 학습을 하는 알고리즘이며 model-free에서 사용한다. 하지만 MC와는 다르게 episode들이 완전히 끝나지 않아도 학습이 가능하며 DP에서 사용하던 bootstrapping 방법을 사용한다. 즉 MC방법과 DP 방법을 적절히 조합한 아이디어라고 할 수 있다. 그리고 추측치에서 다음 추측치를 추정함으로써 업데이트가 가능하다.

MC vs TD

MC와 TD에서 가장 다른 부분은 return Gt이다. MC에서는 종료가 된 episode들로 부터 학습을 하기 때문에 정확한 Gt값을 알 수 있다. 하지만 TD는 그렇지 않기 때문에 return Gt를 추정한 값을 사용해야 한다. 따라서 TD(0)이라고 가정했을 때(뒤에서 이 용어에 대해 자세히 설명한다.),Gt 에 해당하는 부분을 Rt+1+γV(St+1)로 바꿔서 사용하도록 한다.

빨간색 term을 TD target이라고 부르고, a 뒤에 있는 항을 TD error라고 부른다고 한다.

TD는 final outcome이 나오기 전에 학습을 할 수 있지만 MC는 결과가 나올 때까지 기다려야 한다. 하지만 TD는 바로바로 학습을 하지만 이 episode가 실제로 종료될 것이라는 보장이 없고, MC는 애초에 끝난 결과를 가지고 학습하므로 확실히 종료된다는 보장을 가지고 있게 된다.

Bias/Varaince Trade-off

v가 실제 Gt에 대해서 unbiased하다고 하면 TD target도 unbiased하다고 할 수 있다. 하지만 TD target은 추정치인 V(St+1)를 사용하기 때문에 bias가 생길 수 밖에 없다.

대신 TD target은 하나의 step에서 계산을 하기 때문에 작은 variance를 가지게 된다. 반면 MC는 episode가 어떤 state sequence로 이루어졌는가에 따라서 value function이 달라지기 때문에 variance가 높게 된다.

즉 종합해보면 MC는 높은 variance를 가지지만 bias가 아예 존재하지 않는다.(정확히 구해진 값들을 사용하기 때문에) 따라서 좋은 수렴 조건을 가지고 있으며, 초기값에 영향을 받지도 않는다.

TD는 낮은 variance를 가지고 있지만 bias가 생기게 된다. 보통 MC보다 더 효과적이고 TD(0)은 수렴을 하지만 항상 그렇다고 볼 순 없다. 또한 초기값에 영향을 받게 된다.

Batch MC and TD

MC, TD 방식 모두 episode를 무한하게 반복하면 실제 value에 수렴할 수 있다. 하지만 batch 방식으로 유한한 episode들을 가지고 학습을 하면 어떻게 될까?

위 예시를 통해서 살펴보도록 한다. 이 예시에서는 8개의 episode들이 있고, 첫번째 episode에서는 A가 reward 0을 받고, B로 가서 reward 0을 받게 된다. 2~7번째 episode들에서는 B에서 reward 1을 받고, 마지막엔 0을 받게 된다.

즉 위 내용을 종합해보면 A는 100% 확률로 B로 가게 될 것이고 이 때 return은 0이 될 것이다.

그러므로 MC에서는 A는 1번 episode에서만 나타나고 이 때 최종 보상이 0이기 때문이다. TD에서는 다른 episode들이 진행이 되면서 A의 value도 같이 업데이트가 될 것이다.

MC는 최종적으로 완료한 episode들의 보상을 사용해서 학습을 하므로 V(A) = 0이 되었다. TD(0) 방식은 max likelihood Markov 방식을 사용하여 수렴하는 알고리즘이기 때문에 V(A) = 0.75가 된다.

이를 보아 TD는 MDP 특성을 가지는 알고리즘이므로 MDP 환경에서 더 유용하고, MC는 그렇지 않기 때문에 MDP가 아닌 환경에서 더 유용하게 된다.

다음은 backup과 bootstrapping에 따른 RL의 분류이다.

TD(λ)

지금까지 설명한 TD들은 TD(0)에 해당하는 것들이었다. 이제 이를 확장해서 TD(λ)로 사용하도록 한다. TD는 guess로 guess를 예측하는 것인데, λ는 steps들에게 얼만큼의 가중치를 부여할지에 대한 값이다. 즉 수식으로 표현하면 다음과 같다.

n=1에 해당하는 것이 우리가 지금까지 보았던 TD(0)에 해당한다. n=2는 G⁽²⁾t와 같이 표현이 될 것이다. 그리고 n이 무한대까지 간다면 이는 종료가 될 때까지 진행한다는 것과 같으므로 MC와 같아지게 된다.

따라서 적당한 n을 잘 선택할 수 있으면 TD와 MC의 장점을 모두 취할 수 있게 된다.

n step에서 n을 고르는 방법은 크게 두 가지 방법이 있다.

Forward-view TD(λ)
- MC와 TD의 절충안이 n-step인 것처럼, 여러 개의 n-step을 선택하여 이의 평균을 취하면 각 n-step의 장점을 모두 가질 수 있게 된다. 이 때, 단순히 산술평균을 사용하는 것이 아니라 λ라는 weight를 이용해서 가중 평균을 취하도록하고 이를 Forward-view라고 한다.
Backward-view TD(λ)
- 이제는 다시 forward-view TD(λ)에서 time-step마다 update할 수 있는 방법을 알아본다. 여기서 eligibility trace라는 개념이 나오게 된다. 이는 과거에 방문했던 state 중에서 현재 얻게 되는 reward에 영향을 주는 state를 판단해, 현재 얻게 되는 reward를 해당 state에 나누는 것이다.
- 이 때, 영향을 준 것 같은 idx를 credit이라고 하고, 이 credit을 배정할 때 다음 두 개를 사용한다.
  - Frequency heuristic, Recency heuristic

728x90

저작자표시 비영리 동일조건

'Book > Reinforcement Learning' 카테고리의 다른 글

[RL] Lecture 6. Value Function Approximation (0)	2020.03.11
[RL]Lecture 5. Model-Free Control (0)	2020.02.12
[RL]Lecture 3. Planning by Dynamic Programming (1)	2020.01.29
[RL]Lecture 2. Markov Decision Processes (0)	2020.01.22
[RL] Lecture 1. Introduction to Reinforcement Learning (0)	2020.01.15

[BOJ]10026. 적록색약

2020. 2. 4. 12:00

728x90

문제:

적록색약은 빨간색과 초록색의 차이를 거의 느끼지 못한다. 따라서, 적록색약인 사람이 보는 그림은 아닌 사람이 보는 그림과는 좀 다를 수 있다.

크기가 NxN인 그리드의 각 칸에 R(빨강), G(초록), B(파랑) 중 하나를 색칠한 그림이 있다. 그림은 몇 개의 구역으로 나뉘어져 있는데, 구역은 같은 색으로 이루어져 있다. 또 같은 색상이 상하좌우로 인접해 있는 경우에 두 글자는 같은 구역에 속한다. (색상의 차이를 거의 느끼지 못하는 경우도 같은 색상이라 한다.)

예를 들어, 그림이 아래와 같은 경우에

RRRBB

GGBBB

BBBRR

BBRRR

RRRRR

적록색약이 아닌 사람이 봤을 때 구역의 수는 총 4개이다. (빨강 2, 파랑 1, 초록 1)하지만, 적록색약인 사람은 구역을 3개 볼 수 있다. (빨강, 초록 2, 파랑 1)

그림이 입력으로 주어졌을 때, 적록색약인 사람이 봤을 때와 아닌 사람이 봤을 때 구역의 수를 구하는 프로그램을 작성하시오.

입력:

첫째 줄에 N이 주어진다. (1<=N<=100)

둘째 줄부터 N개 줄에는 그림이 주어진다.

출력:

적록색약이 아닌 사람이 봤을 때의 구역의 개수와 적록색약인 사람이 봤을 때의 구역의 수를 공백으로 구분해서 출력한다.

풀이방법:

dfs를 사용해서 구역을 구분하는 문제인데, 적록색약인 사람과 그렇지 않은 사람을 구분하기 위해 각각 dfs 함수를 구현해 주면 된다. 그리고 또한 입력을 받을 때 G나 R을 R이나 G로 바꿔주어 적록색약인 사람들을 구분하면 된다. 이번 풀이에서는 G를 R로 바꾸었다.

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56

import sys
sys.setrecursionlimit(100000)
 
n=int(input())
visited=[[0 for _ in range(n)] for _ in range(n)]
cvisited=[[0 for _ in range(n)] for _ in range(n)]
picture=[]
cPicture=[]
 
for _ in range(n):
    line=list(input())
    picture.append(line)
    temp=[]
    for c in line:
        if c=="G":
            c="R"
        temp.append(c)
    cPicture.append(temp)
 
dx=[1,-1,0,0]
dy=[0,0,1,-1]
def dfs1(x,y,color):
    for i in range(4):
        nx=x+dx[i]
        ny=y+dy[i]
        if 0<=nx<n and 0<=ny<n and picture[nx][ny]==color:
            if visited[nx][ny]==0:
                visited[nx][ny]=1
                dfs1(nx,ny,color)
 
def dfs2(x,y,color):
    for i in range(4):
        nx=x+dx[i]
        ny=y+dy[i]
        if 0<=nx<n and 0<=ny<n and cPicture[nx][ny]==color:
            if cvisited[nx][ny]==0:
                cvisited[nx][ny]=1
                dfs2(nx,ny,color)                
count=0
count2=0
 
for i in range(n):
    for j in range(n):
        if visited[i][j]==0:
            visited[i][j]=1
            dfs1(i,j,picture[i][j])
            count+=1
 
for i in range(n):
    for j in range(n):
        if cvisited[i][j]==0:
            cvisited[i][j]=1
            dfs2(i,j,cPicture[i][j])
            count2+=1            
        
print(count,count2)
Colored by Color Scripter

cs

문제링크:

https://www.acmicpc.net/problem/10026

10026번: 적록색약

문제 적록색약은 빨간색과 초록색의 차이를 거의 느끼지 못한다. 따라서, 적록색약인 사람이 보는 그림은 아닌 사람이 보는 그림과는 좀 다를 수 있다. 크기가 N×N인 그리드의 각 칸에 R(빨강), G(초록), B(파랑) 중 하나를 색칠한 그림이 있다. 그림은 몇 개의 구역으로 나뉘어져 있는데, 구역은 같은 색으로 이루어져 있다. 또, 같은 색상이 상하좌우로 인접해 있는 경우에 두 글자는 같은 구역에 속한다. (색상의 차이를 거의 느끼지 못하는 경우도 같은

www.acmicpc.net

728x90

저작자표시 비영리 동일조건

'Algorithm > Python' 카테고리의 다른 글

[BOJ]6603. 로또 (0)	2020.02.11
[BOJ]1297. TV 크기 (0)	2020.02.06
[Programmers]Lv 4. 카드 게임 (0)	2020.01.23
[BOJ]1012. 유기농 배추 (0)	2020.01.21
[BOJ]10815. 숫자카드 (0)	2019.12.13

[ML]ch 3. Linear Models for Regression

2020. 2. 3. 12:00

728x90

아래 모든 내용들은 Christopher Bishop의 pattern recognition and machine learning에서 더 자세히 볼 수 있습니다.

3.1 선형 기저 함수 모델

가장 단순한 형태의 선형 회귀 모델은 입력 변수들의 선형 결합을 바탕으로 한 모델

여기서 x=(x₁,..,x_D)^T이고, 이 때의 식을 선형 회귀라고 부른다.

한계점을 극복하기 위해서 다음처럼 입력 변수에 대한 고정 비선형 함수들의 선형 결합을 사용할 수 있다.
- 여기서 함수 파이가 추가된 형태가 되었는데, 이 함수를 기저함수라고 부른다.
- w₀는 bias라고 부른다. 표기의 편리성을 위해 ϕ₀(x)=1 로 정의하면 더 간략한 식으로 기술하기도 한다.

비선형 기저 함수들을 사용했기 때문에 y(x,w)가 입력 벡터 x에 대한 비선형 함수가 되도록 할 수 있다.
- 그럼에도 선형 모델이라고 불리는 이유는 이 함수들이 w에 대해서 선형 함수이기 때문

1장에서 살펴 보았던 다항 회귀 문제에 대해서 다시 알아 보자.
- 입력 변수는 단일 변수 x고, 출력 값인 t도 1차원 실수 값이다.
- 기저 함수를 사용하며 거듭제곱 형태를 가진다.
  - 하지만 이 함수는 약간 문제가 있다.
    - 입력 변수에 대한 전역적인 함수이기 때문에 입력 공간의 한 영역에서 발생한 변화가 다른 영역들에까지 영향을 미친다는 것이다.
  - 이러한 경우 함수 근사를 할 때 문제가 발생하도록 한다.
  - 이를 해결하기 위해 입력 공간을 여러 영역들로 나누고 각 영역에 대해서 서로 다른 다항식을 피팅한다. 그리고 이를 스플라인 함수라고 부른다.

다양한 다른 함수들이 기저 함수로 사용될 수 있다.
- 가우시안 기저 함수라고 부르며 정규화 계수가 없는데 이는 wj가 존재하기 때문에 생략한 것이다.

시그모이드 형태의 기저 함수다.
- tanh 함수의 선형 결합으로 표현 가능하다.

이번 장에서는 어떤 기저 함수를 사용하는지와는 무관하다. 따라서 간략히 소개만 하고 넘어간다.

3.1.1 최대 가능도와 최소 제곱

이미 1장에서 최소 제곱법을 사용해서 커브 피팅을 시도했으며 가우시안 노이즈 모델을 가정했을 때 오류 함수를 최소화하는 것이 최대 가능도를 구하는 것에 해당한다는 것도 증명했다.

이를 조금 더 자세히 알아본다. 가우시안 노이즈가 포함된 타겟 t에 대한 함수를 표현해 보자.

여기서 입실론은 0을 평균으로 B를 정밀도로 가지는 가우시안 확률 변수다. 따라서 다음과 같이 적을 수 있다.

위의 식은 주어진 입력 데이터 x에 따른 t에 대한 확률 분포라고 생각하면 된다.
- 확률 분포는 가우시안 분포일 것이다.

가우시안 조건부 분포의 조건부 평균은 다음과 같다.

입력 데이터 집합 X={x1,...,xN}과 그에 해당하는 t=t1,...,tN을 고려해 보자.

각각의 데이터가 발현될 가능성은 모두 독립적이라고 가정한다.(i.i.d)
- 따라서 샘플 데이터를 얻는 확률은 다음과 같이 기술할 수 있다.
- x는 언제나 조건부 변수의 집합에 포함되어 있을 것이므로 x를 뺄 수 있다.
- 로그 함수를 도입하여 수식을 더 간단히 만든다.
- 이제 여기에 최대 가능도 방법을 적용하여 w와 B를 구할 수 있다.
  - w를 구하기 위해 E_D(w)를 최소화 하자.
  - w에 대해 미분하면 위와 같고 좌변을 0으로 두고 전개하면 다음과 같은 식을 얻을 수 있다
  - 이러한 방법을 normal equation이라고 부른다.
    - 파라미터의 추정 방식이 업데이트 방식이 아닌 일반 방정식으로 풀이되는 방식이다.
  - 여기서 파이는 design matrix라고 부르며 다음과 같이 생겼다.
  - 이를 Moor - Penrose pseudo inverse라고도 한다.

w₀에 대해 더 알아보도록 하자.

편향 매개변수를 명시화하면 다음과 같이 적을 수 있다.
- w₀에 대한 미분값을 0으로 놓고 w₀에 대해 풀면 다음을 구할 수 있다.
- w₀ 값의 의미를 알아 보자.
  - 훈련 집합의 타깃 변수들의 평균과 기저 함숫값 평균들의 가중 합 사이의 차이를 보상한다는 것을 알 수 있다.

로그 가능도 함수를 노이즈 정밀도 매개변수 B에 대해 최대화 하게 되면 다음을 얻게 된다.

3.1.3. 순차적 학습

지금까지 살펴본 MLE 기법은 전체 데이터를 한번에 사용해서 처리하는 배치 방식이다.

하지만 큰 데이터 집합에 대해서는 이러한 방식이 계산적으로 실행하기에는 복잡하다.

따라서 큰 데이터 집합에 대해서는 순차적 알고리즘을 사용하는 것이 유용할 수 있다.
- 이를 online 방식이라고도 부른다.
- 한 번에 하나의 데이터 포인트를 고려하며 모델의 매개변수들은 그때마다 업데이트된다.

여기서는 확률적 경사 하강법/슨치작 경사 하강법을 적용하여 구현하도록 한다.

여러 데이터 포인트들에 대한 오류 함수의 값이 데이터 포인트 각각의 오류 함수의 값을 합한 것과 같다면 매개변수 벡터 w를 다음과 같이 업데이트할 수 있다.
- 여기서 타우는 반복수를 의미하며, η는 학습률 파라미터이다.
- 위와 같은 알고리즘을 최소 제곱 평균 (LMS)라고 부른다.

3.1.4 정규화된 최소 제곱법

정규화는 오버피팅을 방지하기 위해 사용되는 방법이다.

에러 함수는 다음의 형태를 띠게 된다.

여기서 람다는 정칙화 계수로서 E_D(w) 와 E_W(w) 사이의 가중치를 조절하게 된다.
- 식을 정리하면 다음과 같다.
- 해당 형태의 정규화항은 가중치 감쇠(weight decay)라고 불린다.
  - 순차 학습에서 데이터에 의해 지지되지 않는 한 가중치의 값이 0을 향해 감소하기 때문에 이렇게 부르는 것이다.
  - 매개변수 축소 방법의 한 예시다.
- 에러 함수가 w의 이차 함수의 형태로 유지되므로 최소화하는 값을 닫힌 형태로 찾아낼 수가 있다.

최종적으로 식을 정리하면 다음과 같다.

일반적인 형태의 정규화항을 사용하기도 하는데 이 경우 정규화 오류 함수는 다음 형태를 띤다.

q=2인 경우 이차 정규화항에 해당하게 된다.

q=1인 경우를 일컬어 라쏘라 한다. 라쏘 정규화를 시행할 경우 람다의 값을 충분히 크게 설정하면

몇몇 개수가 w_j가 0이 된다. 이런 모델을 sparse(희박한) 모델이라고 한다.

아래 그림에 대해 유심히 살펴보도록 하자.
- 왼쪽은 q=2인 경우이고, 오른쪽은 q=1인 경우를 의미한다.
- 사용하는 파라미터는 w₀, w₁ 뿐인 아주 간단한 모델이다.
- 파란 원의 중심이 E(w)를 최소로 만드는 w 벡터 값을 표현한 것이다.
- 정칙화 요소가 없는 경우 이 값을 모델의 파라미터로 사용한다.
  - 정칙화 요소가 추가되면 노란색 영역에서만 w 값을 취할 수 있다.

3.1.5 다중 출력값

지금까지 출력값 t가 단일 차원의 실수값이었지만 이를 벡터로 확장하여 기술한다.

t 벡터의 크기가 K라고 할 때 각 값은 서로 영향을 주지 않는다.

Likelihood 함수를 정의해보자.

W에 대해 최대화를 할 수 있다.

식 자체로의 변화는 없고, 스칼라 변수가 벡터로 확장되었다는 정도이다.

3.2 Bias-Variance 분해

지금까지는 회귀 선형 모델을 논의할 때 기저 함수들의 형태와 종류가 둘 다 고정되어 있다고 가정하였다.
- 최소 제곱법을 사용해서 문제를 풀었지만 과적합 문제가 발생할 수 있다.
- 과적합을 해결하기 위해 기저 함수의 수를 제한하면 모델의 유연성에 제약을 가하게 된다.

정규항을 사용하면 과적합 문제를 조절하는 것이 가능하다.
- 정규화 계수 λ 값을 적절히 정해야 한다.

과적합 문제는 최대 가능도 방법을 사용할 경우에 발생하며 베이지안 방법론을 사용하면 해결가능하다.
- 따라서 베이지안 관점에서 모델 복잡도를 살펴보도록 한다.

우선 빈도주의적 관점의 모델 복잡도에 대해 알아보고 이를 편향-분산 트레이드 오프(bias-variance trade-off)라 한다.

1.5.5절에서 회귀 문제의 결정 이론에 대해 논의할 때 오류 함수를 보았다. 따라서 다음과 같은 식을 얻을 수 있다.
- 결정 이론에서 사용했던 제곱 오류 함수와 모델 매개변수의 최대 가능도 추정치에 해당하는 제곱합 오류 함수는 다르다.
- 두번째 항은 y(x)와는 직접적인 관련이 없으므로 이 영역은 데이터 노이즈를 의미하게 된다.
- 첫번째 항은 y(x)로 어떤 것을 선택하느냐에 따라 결정된다.
  - 제곱항이기 때문에 항상 0보다 크거나 같다. 그러므로 h(x)와 동일한 y(x)를 찾아야 한다.
  - 데이터가 충분히 많다면 충분히 근사된 y(x)를 쉽게 찾을 수 있다.
  - 하지만 우리에게는 유한한 숫자 N개의 데이터 포인트들만을 가지고 있다.

이제 몇 가지 가정을 해보자.
- 분포 p(t,x)를 통해 생성된 N개의 샘플로 구성된 데이터 집합 D를 얻을 수 있다.
- 또한 여러 개의 데이터 집합을 얻을 수 있으며 모든 샘플은 서로 독립적으로 생성된다고 가정할 수 있다. (i.i.d)
- 우리는 각 데이터 집합을 사용해 예측함수 y(x;D)를 만들 수 있다.
- 이를 통해 손실 함수와 결과를 얻을 수 있다.

3.37의 첫 번째 항의 피적분 함수는 위와 같은 형태를 띠게 된다. 데이터 집합 D에 대해 종속적이므로 구한 값을 평균을 내어 사용할 수 있다. 괄호 안에 E_D[y(x;D)]를 이용해 식을 전개 할 수 있다.

D에 대해 이 식의 기댓값을 구하고 마지막 항을 정리하면 다음과 같이 된다.

첫 번째 term을 bias라고 하고, 두 번째 term은 variance라고 한다.

최종적으로 3.37에 식을 대입하면 기대 오류를 다음과 같이 정의할 수 있다.

각각의 값들은 다음과 같다.

우리의 목표는 Expected loss E[L] 값을 최소화하는 것이다. 그리고 이 값은 위의 3가지 요소로 나누어 고려할 수 있다.

편향과 분산 사이에는 trade-off 관계가 있으며 적절히 조절하여 Expected loss가 작도록 해야 한다.
- 아주 유연한 모델은 낮은 bias와 높은 variance
- 엄격한 모델은 높은 bias와 낮은 variance를 가지게 된다.

위의 그림은 bias와 variance의 trade-off 관계를 나타낸다.
- L=100개의 데이터 집합들이 있으며, 각각의 집합은 N=25인 데이터 포인트로 구성되어 있다.
- 각각의 학습 결과는 왼쪽 그림의 붉은 색 선이 된다.
- 오른쪽 그림의 붉은 색 그래프는 왼쪽 샘플 집합 결과의 평균 값이며, 녹샌선은 우리가 예측 해야 할 sin2π 곡선이다.
- λ 값을 변화시켜 가면서 결과를 확인한다.

lnλ값이 큰 경우 높은 bias와 낮은 variance 값을 가진다.
- 따라서 각각의 샘플 집합들 사이의 분산이 작다.
- 실제 예측 범위가 제한적이라 결과가 옳지 않을 수 있다.

lnλ 값이 작은 경우 낮은 bias와 높은 variance 값을 가진다.
- 예측 값과는 매우 유사한 것을 알 수 있다.
- 하지만 분산도가 매우 크다.
- 샘플 수가 충분하지 못하면 이러한 현상이 발생하기 때문에 샘플 수를 충분히 확보한다.

위와 같은 bias-variance의 trade-off 관계를 수량적으로 확인해 볼 수 있다.

적분된 제곱 bias와 variance에 대한 값은 다음처럼 주어진다.

이 그래프를 보면 결국 분홍색 선을 골라야 하는 것을 알 수 있고 이 때 테스트 에러도 최소가 되는 것을 확인할 수 있다.

728x90

저작자표시 비영리 동일조건

'Book > Machine Learning' 카테고리의 다른 글

[ML]ch 4. Linear Models for Classification - part 2 (0)	2020.02.17
[ML]ch 4. Linear Models for Classification - part 1 (0)	2020.02.10
[ML]ch 2. Probability Distributions (0)	2020.01.27
[ML]ch 1. Introduction-part 2 (0)	2020.01.20
[ML]ch 1. Introduction-part 1 (0)	2020.01.13

[RL]Lecture 3. Planning by Dynamic Programming

2020. 1. 29. 12:00

728x90

Youtube에 있는 David Silver의 Reinforcement Learning 강의를 보고 작성하였습니다.

3. Planning by Dynamic Programming

Model Free : environment에 대한 정보를 가지고 있지 않을 경우
Model Based : environment에 대한 모델이 있는 경우
- 이러한 경우에 대해서 Planning, Dynamic Programming을 사용한다.

Introduction

What is Dynamic Programming?

알고리즘 문제 기법에서 사용하는 DP, 동적 계획법과 같은 뜻을 가지고 있다. 복잡한 문제에 사용하는 방법으로써 문제를 여러 subproblem으로 쪼갠 뒤에 이 문제를 해결하고 합쳐가면서 풀어가는 방식이다.
- 다음과 같이 두 가지 특성을 가지는 문제에 대해서 DP를 사용하는 것이 일반적이다.
  - Optimal substructure
    - Optimal한 해는 subproblems들로 분해될 수 있다는 것이다.
  - Overlapping subproblems
    - Subproblem 들이 많이 사용되어서 이를 저장해두었다가 사용할 수 있다.
- MDP는 위 두 가지 속성을 가지고 있으므로 DP를 사용할 수 있다.
  - Bellman equation은 재귀적으로 분해가 가능하고, value function은 해를 저장하고 재사용할 수 있도록 한다.
Planning by Dynamic Programming

DP는 MDP의 모든 것을 알고 있다고 가정한다. 즉 Planning 문제를 해결하는 것이다.

DP는 크게 두 가지 방법으로 나뉘게 된다.
- Prediction
  - value function을 학습하는 것
  - MDP, policy가 있을 때 그 policy를 따를 경우의 value function이다.
  - policy evaluation 문제
- Control
  - optimal 한 policy를 찾는 문제
  - MDP만 있고 optimal 한 policy를 찾아야 한다.
  - policy Iteration, value Iteration

Policy Evalutation

주어진 policy를 평가하는 문제, 이 policy를 따라 간다면 return을 얼마 받는가. 즉 value function을 찾는 문제

초기 value 값을 랜덤하게 초기화 한 후 Bellman Equation을 이용해서 다음 상태 s'를 이용해서 각각의 상태 s의 value 값을 반복적으로 업데이트 한다. 이 때 synchronous backup을 사용한다.

Example

위와 같이 계속해서 반복하다보면 정책이 수렴하는 것을 알 수 있다.

Policy Iteration

위와 같이 반복적인 업데이트를 통해서 모든 상태 s에 대해 value 값을 구할 수 있다.(Evaluate) value 값이 최대가 되는 방향으로 greedy하게 행동하면 초기에 만들었던 Random한 Policy를 개선된 Policy로 만들 수 있다.(Improve) 위와 같은 예시에서는 금방 최적의 Policy로 찾아가는 것을 알 수 있다.

따라서 일반적인 경우에는 Policy를 evaluation해서 value들을 구하고, 그 value들을 바탕으로 Policy를 improvement하는 방향으로 발전시키면 된다.

그런데 과연 greedy 하게 정책을 개선시키는 것이 성능을 항상 좋게 만들까?

다음과 같은 이유들로 항상 그렇다고 하며, 수렴을 하는 포인트는 optimal 하다고 한다.

Modified Policy Iteration

하지만 꼭 수렴할 때까지 계속해서 반복해서 진행해야 하는가? 에 대한 의문을 가질 수 있다. 실제로 무한히 반복해서 수렴할 때까지 진행을 하지 않고, k번을 반복해서 그 점을 사용해도 충분히 합리적으로 사용할 수 있다고 한다.

Value Iteration

Value Iteration은 Policy Iteration과는 다르게 Bellman Optimal Equation을 이용하는 것이다.

Deterministic Value Iteration
- subproblem의 solution을 알면 Bellman Optimal Equation을 이용해서 s에서의 solution을 알 수 있다.
- 이러한 반복을 계속해서 한다.
아래는 위의 Grid world의 Value Iteration을 적용한 것이다.

반복해서 진행하면 세번째 iteration에서 converge 하는 것을 알 수 있다.

Summary of DP Algorithms

Problem	Bellman Equation	Algorithm
Prediction	Bellman Expectation Equation	Iterative Policy Evaluation
Control	Bellman Expectation Equation + Greedy Policy Improvement	Policy Iteration
Control	Bellman Optimality Equation	Value Iteration

728x90

저작자표시 비영리 동일조건

'Book > Reinforcement Learning' 카테고리의 다른 글

[RL]Lecture 5. Model-Free Control (0)	2020.02.12
[RL]Lecture 4. Model-Free Prediction (0)	2020.02.05
[RL]Lecture 2. Markov Decision Processes (0)	2020.01.22
[RL] Lecture 1. Introduction to Reinforcement Learning (0)	2020.01.15
[RL]ch 0. Intro (0)	2020.01.15

[ML]ch 2. Probability Distributions

2020. 1. 27. 12:00

728x90

아래 모든 내용들은 Christopher Bishop의 pattern recognition and machine learning에서 더 자세히 볼 수 있습니다.

2.3.0 가우시안 분포

가우시안 분포는 보통 정규분포로 알려져 있으며 단일 변수 x에 대해 가우시안 분포는 다음과 같이 기술된다.
- 여기서 u는 평균 시그마^2은 분산을 의미하며, 입력 변수가 다차원인 경우에도 기술할 수 있다.
가우시안 분포는 단일 실변수에 대해서 엔트로피를 극대화하기 위해 사용된다.
또한 여러 확률 변수의 합에 대해 고려하는 경우에 사용되며, 이 때 중심 극한 정리라는 개념을 사용한다.
중심 극한 정리
- 표본 평균들이 이루는 분포는 샘플 크기가 큰 경우 모집단의 원래 분포와 상관없이 가우시안 분포를 따르게 된다.
- 즉 동일한 확률 분포를 가지는 N개의 독립 확률 변수들의 평균 값은 N의 크기가 충분히 크다면 가우시안 분포를 따른다는 것이다.
- 표본이 가우시안 분포를 따른다는 것이 아니라 표본의 평균이 가우시안 분포를 따르는 것이다.
- N이 커질수록 정규 분포의 모양을 만드는 것을 알 수 있다.

가우시안 분포의 기하학적인 형태를 살펴보자
- x에 대한 가우시안 분포의 함수적 종속성은 지수상에서 나타난다.
- 이는 이차식의 형태를 띤다.
- 여기서의 △ 값은 u로부터 x까지의 마할노비스 거리라고 한다. 이 마할노비스 거리에서 공분산이 항등 행렬이 된다면 유클리디안 거리가 된다.
지수 연산으로부터 비대칭적인 요소들이 사라질 것이기 때문에 공분산 행렬이 대칭행렬이 된다.
따라서 다음과 같은 식을 적용할 수 있다.
공분산 행렬에 대한 모든 고유 벡터는 단위 직교한다. (공분산 행렬이 대칭 행렬이므로)
- 따라서 위에 언급한 ui는 단위 직교 벡터를 의미한다.
이제 고유 벡터를 이용해서 공분산 행렬을 전개할 수 있으며 다음의 형태를 띠게 된다.
역행렬도 쉽게 구할 수 있다.
이제 이 식을 (2.44)에 대입할 수 있다.
여기서 y는 정규직교 벡터 ui들로 정의되는 새로운 좌표계라고 해석할 수 있다.
- 즉 가우시안 함수의 원점을 u로 옮기고 고유 벡터를 축으로 회전 변환되는 식을 의미한다
이러한 변환을 주축 변환이라고 한다.
- 모든 고윳값들이 양의 값을 가진다면 이 표면은 타원형을 띤다.
- 타원형의 중심은 u에 위치하며, 이 타원형의 축은 ui상에 자리하게 된다.
- 각각의 축 방향에 대한 척도 인자는 람다^1/2로 주어진다.

y로 정의되는 새로운 좌표 체계상에서의 가우시안 분포의 형태에 대해서 살펴보도록 한다.
x 좌표계에서 y 좌표계로 변환되는 과정에서 야코비안 행렬 J를 가지게 된다.
- 여기서 Uji는 행렬 U^T의 원소에 해당한다. U의 정규직교성을 바탕으로 야코비안 행렬의 행렬식 제곱이 다음과 같음을 알 수 있다.
- 공분산 행렬의 행렬식은 고유값의 곱으로 표현할 수 있다.
따라서 yj 좌표계에서 가우시안 분포는 다음의 형태를 가지게 된다
- 이는 D개의 독집적인 단병량 가우시안 분포들의 곱에 해당한다.
- 즉 고유 벡터를 이용해서 축을 변환시켜 얻은 식은 결국 차원간 서로 독립적인 정규 분포를 만들어낸다.
- 역시나 적분 값이 1을 가지는 것을 알 수 있다.
가우시안 분포의 모멘트값을 살펴봄으로써 평균과 공분산 행렬을 어떻게 해석할 수 있는지 알아보자.
x 축에 대해 평균값을 살펴보는데 z=x-u로 놓고 식을 전개한다.
- 이 식은 z에 의해 좌우 대칭인 함수가 만들어진다.
- z+u가 포함되어 있어서 z 항이 대칭성에 의해 사리게 된다.
- 다음과 같이 평균이 구해진다.
이제 2차 모멘트 값을 살펴보도록 한다.
- 여기서 (z+u)(z+u)^T를 전개할 수 있으며, 이 수식에서 uz^T, zu^T는 서로 대칭 관계이므로 제거된다.
- uu^T는 수식에서 상수의 역할이므로 적분 바깥 쪽으로 나오게 된다. 정규화 되어 있으므로 1의 값을 가진다.
- zz^T 항을 집중해서 보면 된다.
- 여기서 y_j= u_j^Tz이다.
- 따라서 식을 다음과 같이 전개 가능하다.
- 원 식에 대입하며 다음과 같은 결과를 얻는다.
공분산 값도 구할 수 있다.
- E[x]=u이므로 동일한 결과를 얻는다.

가우시안 모델은 널리 사용되는 모델이지만 몇 가지 제약들을 가지고 있다.
자유 매개변수의 개수
- D개의 차원을 가진 데이터에서 총 D(D+3)/2 개의 독립적인 파라미터를 가지게 된다.
  - u는 D개, 공분산은 D(D+1)/2 개를 가지게 된다.
- 따라서 D가 증가하게 되면 매개변수의 총 개수가 이차로 증가하게 된다.
  - 이러한 경우에는 역행렬을 계산하는 것이 매우 느려질 수 있다.
  - 이를 해결하는 방법 중 하나는 대각 행렬의 형태를 지닌 공분산 행렬만을 사용한다.
    - 이러면 총 2D개의 독립 매개변수만을 고려하면 된다.
    - 이에 대응하는 상수 밀도의 경로는 좌표축상에 따라 정렬된 타원의 형태를 띤다.
  - 다른 방법은 공분산을 단위행렬에 비례하도록 제한한다.
    - 이를 등방성 공분산이라고 부른다.
    - D+1개의 독립적인 매개변수가 있다.
    - 상수 밀도의 경로가 구의 형태를 띤다.
  - (a)는 일반적인 2차원 가우시안 분포, (b)는 공분산이 대각 행렬인 2차원 가우시안 분포, (c)는 공분산이 등방성 공분산인 2차원 가우시안 분포
  - 이러한 방법을 통해 자유도를 제한하고 역행렬 계산을 더 빠르게 한다.
  - 하지만 확률 밀도의 형태를 상당히 제약시키며, 그에 따라 모델에 데이터상의 흥미로운 상관관계를 표현하는 것을 방해할 수 있다.
분포가 본질적으로 단봉(unimodal) 분포
- 따라서 다봉 분포에 대해 적절한 근사치를 제공할 수 없음.
- 가우시안 분포는 너무 많은 매개변수를 가질 수 있다는 측면에서는 지나치게 유연할 수 있고, 적절하게 표현할 수 있는 분포들의 종류가 제한되어 있다는 측면이 있다.
- 이를 해결하기 위한 방법들
  - 잠재변수(latent, hidden, unobserved)를 통해 해결할 수 있다.
  - 가우시안 혼합 모델을 통해 해결할 수 있다.
- 계층 모델을 이용하여 이를 해결할 수 도 있다.
  - MRF(Markov Random Field)
    - 이미지 처리를 위한 확률 모델로 사용
    - 픽셀의 공간적 구성을 반영한 구조를 도입해 쉽게 렌더링할 수 있음.
  - Linear Dynamaic System
    - 시계열 데이터 모델링
    - 매우 큰 관측 모델과 잠재 변수의 사용
  - 8장에서 이를 다루도록 한다.

728x90

저작자표시 비영리 동일조건

'Book > Machine Learning' 카테고리의 다른 글

[ML]ch 4. Linear Models for Classification - part 1 (0)	2020.02.10
[ML]ch 3. Linear Models for Regression (0)	2020.02.03
[ML]ch 1. Introduction-part 2 (0)	2020.01.20
[ML]ch 1. Introduction-part 1 (0)	2020.01.13
[ML]chapter 0. Beginning (0)	2020.01.13

[Programmers]Lv 4. 카드 게임

2020. 1. 23. 12:00

728x90

문제:

카드게임이 있다. 게임에 사용하는 각 카드에는 양의 정수 하나가 적혀있고 같은 숫자가 적힌 카드는 여러 장 있을 수 있다. 게임방법은 우선 짝수개의 카드를 무작위로 섞은 뒤 같은 개수의 두 더미로 나누어 하나는 왼쪽에 다른 하나는 오른쪽에 둔다.

각 더미의 제일 위에 있는 카드끼리 서로 비교하며 게임을 한다. 게임 규칙은 다음과 같다. 지금부터 왼쪽 더미의 제일 위 카드를 왼쪽 카드로, 오른쪽 더미의 제일 위 카드를 오른쪽 카드로 부르겠다.

1. 언제든지 왼쪽 카드만 통에 버릴 수도 있고 왼쪽 카드와 오른쪽 카드를 둘 다 통에 버릴 수도 있다. 이때 얻는 점수는 없다.

2. 오른쪽 카드에 적힌 수가 왼쪽 카드에 적힌 수보다 작은 경우에는 오른쪽 카드만 통에 버릴 수도 있다. 오른쪽 카드만 버리는 경우에는 오른쪽 카드에 적힌 수만큼 점수를 얻는다.

3. (1)과 (2)의 규칙에 따라 게임을 진행하다가 어느 쪽 더미든 남은 카드가 없다면 게임이 끝나며 그때까지 얻은 점수의 합이 최종 점수가 된다.

왼쪽 더미의 카드에 적힌 정수가 담긴 배열 left와 오른쪽 더미의 카드에 적힌 정수가 담긴 배열 right가 매개변수로 주어질 때, 얻을 수 있는 최종 점수의 최대값을 return 하도록 solution 함수를 작성하시오.

풀이방법:

동적 계획법을 사용해서 푸는 문제이다. 오른쪽을 버릴 때에만 점수를 얻을 수 있으므로, 오른쪽을 많이 버릴 수 있으면 좋다. 그래서 우선 오른쪽을 먼저 버릴 수 있는지 확인을 하고, 왼쪽과 둘 다 버리는 경우를 생각해서 계산한다.

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23

def solution(left,right):
    dp = [[-1 for _ in range(len(right)+1)]for _ in range(len(left)+1)]
    dp[0][0]=0
    answer=0
    
    for i in range(len(left)):
        for j in range(len(right)):
            if dp[i][j]==-1:
                continue
            if left[i] > right[j] and dp[i][j+1] < dp[i][j]+right[j]:
                dp[i][j+1]=dp[i][j]+right[j]
            if dp[i+1][j+1] < dp[i][j]:
                dp[i+1][j+1]=dp[i][j]
            if dp[i+1][j] < dp[i][j]:
                dp[i+1][j] = dp[i][j]
                
    for i in range(len(left)):
        if dp[i][len(right)] > answer:
            answer = dp[i][len(right)]
        if dp[i][len(left)] > answer:
            answer = dp[i][len(left)]
            
    return answer
Colored by Color Scripter

cs

문제링크:

https://programmers.co.kr/learn/courses/30/lessons/42896

코딩테스트 연습 - 카드 게임 | 프로그래머스

카드게임이 있다. 게임에 사용하는 각 카드에는 양의 정수 하나가 적혀있고 같은 숫자가 적힌 카드는 여러 장 있을 수 있다. 게임방법은 우선 짝수개의 카드를 무작위로 섞은 뒤 같은 개수의 두 더미로 나누어 하나는 왼쪽에 다른 하나는 오른쪽에 둔다. 각 더미의 제일 위에 있는 카드끼리 서로 비교하며 게임을 한다. 게임 규칙은 다음과 같다. 지금부터 왼쪽 더미의 제일 위 카드를 왼쪽 카드로, 오른쪽 더미의 제일 위 카드를 오른쪽 카드로 부르겠다. 1. 언제든지

programmers.co.kr

728x90

저작자표시 비영리 동일조건

'Algorithm > Python' 카테고리의 다른 글

[BOJ]1297. TV 크기 (0)	2020.02.06
[BOJ]10026. 적록색약 (0)	2020.02.04
[BOJ]1012. 유기농 배추 (0)	2020.01.21
[BOJ]10815. 숫자카드 (0)	2019.12.13
[BOJ]2033. 반올림 (0)	2019.12.12

[RL]Lecture 2. Markov Decision Processes

2020. 1. 22. 12:00

728x90

*Youtube에 있는 David Silver의 Reinforcement Learning 강의를 보고 작성하였습니다.

Markov Decision Process을 지난 강의에서 배웠던 내용으로 설명하면, 강화학습을 위해 환경을 완전하게 알고 있는 것을 의미한다. 즉 full observable해야 한다. 이러한 이유로 RL의 거의 모든 문제는 MDP로 설계가 되어 있고, MDP하지 않다면 MDP하도록 조건을 더 추가시켜줘야 한다.

Markov Property

이전 강의에서 잠시 다뤘던 내용이다. "Markov하다" 라는 것은 다음 상태는 과거 상태에는 독립적이고 현재 상태에만 종속을 한다는 것이다. 즉 다음과 같다.

예시로 설명하면 다음과 같다. 현재 내가 장기(체스)를 두고 있다고 하자. 그러면 지금 현재 기물들이 어떻게 놓여져 있는지가 다음 수를 두는 것에 영향을 줄 뿐, 이전에 어떻게 움직였는지는 전혀 다음 수에 도움이 되지 않는다.

State Transition Matrix

Markov를 설명하기 위해 도움이 되는 정의 중 하나이다. state transition probability는 Markov한 state s에서 다음 상태 s'으로 이동할 확률을 뜻하고, Matrix는 이러한 확률을 행렬꼴로 모아둔 것이다.

Markov Process

앞으로 다룰 Markov 대한 성질들의 가장 기본이 되는 과정이다. memoryless random process라고 하는데, 이는 Markov의 특징을 말하는 것이다. Markov Process는 <S,P>로 정의되고, S는 state들의 집합, P는 state transition probability matrix이다. 다음은 아기가 잠에 드는 과정을 도식화한 것이다.

여기서 각 행동은 다 타원형으로 표시되어 있고, '잔다' 라는 상태만 네모로 표시되어 있는데 이는 terminate state, 종료 상태를 의미한다. 각 행동으로 이동하는 화살표에 확률이 써져 있는데, 아직은 모든 상태는 확률에 의해서만 바뀐다. 즉, '눕는다.' 라는 상태에서는 70% 확률로 논다. 라는 상태로 이동하고, 30%으로 확률로 잠에 들기 시작하는 상태로 이동하는 것이다.

상태를 이동하는 상황이 여러가지 있는데 이들을 episodes라고 부른다.

Markov Reward Process

Markov Process에 Reward function이 추가된 개념으로 <S,P,R,r>와 같으며 R은 reward function으로 R_s=E[R_t+1|S_t=s]이고, r 은 감쇠인자로써, 0과 1 사이의 값을 가진다. 이 단계에서 새로 정의되는 개념들이 있어 이를 정리하고 진행한다.

Return

return Gt는 t 시간이 지난 뒤에 얻은 총 보상을 의미한다.

Why discount? 감쇠인자를 사용하는 이유는 무엇일까?
- 수학적으로 편리하다. 감쇠 인자를 0과 1 사이의 값으로 설정을 했기 때문에 return 값이 무한히 커지는 것을 막을 수 있다. 즉 bounded하게 만들 수 있다.
- 사람이 선호하기 때문이다.
  - 만약 누군가 당신에게 지금 커피를 사줄지? 아님 10달 뒤에 커피를 사줄지 물어볼 수 있다.
    - 대부분 지금 사달라고 할 것이다.
- 불확실성을 표현하기 위해서
  - 위의 예시로 생각하보면 지금 사달라고 선택을 하는 이유가 10달 뒤에 진짜 커피를 사줄지는 불확실했기 때문일 것이다.

Value Function

value function은 현재 상태 s로 부터 시작했을 때 return의 기댓값을 의미한다.

지금까지 예시에서 감쇠인자 값을 0이라 가정했을 때, 다음과 같이 value function 값이 구해진다.

지금은 state들이 단순해서 충분히 손으로도 계산을 할 수 있지만 더 많은 state들이 복잡하게 연결된다면 손으로 하는 것은 어렵게 될 것이다. 따라서 이를 위해 Bellman Equation이라는 것을 사용한다.

Bellman Equation

value function을 다음과 같이 표현할 수 있다.

Bellman Equation으로 value function을 그림으로 표현하면 다음과 같다. 현재 상태의 value function은 현재 보상을 받은 뒤(Rs)에 다음 상태들의 value function 합(sigma Pss'v(s'))에 감쇠 인자를 곱한 값을 얻는다는 것이다.

따라서 이와 같이 value function으로만 구성된 식을 matrix form으로 변환한다면 역행렬을 통해서 한번에 구할 수 있게 된다.

하지만 이 연산은 O(n^3)에 해당하는 복잡도를 가지고 있다. 따라서 작은 MRP에서만 계산이 가능하고, 큰 경우는 DP, Monte-Carlo 방법등으로 구하게 된다.

Markov Decision Process

Markov Reward Process에서 action이 추가된 단계이다. <S,A,P,R,r>와 같이 정의 하며 A는 action들의 집합을 의미한다.

또한 action이 추가되었기 때문에 상태천이행렬 P와, reward function R에 a에 관한 식이 들어가게 되었다. 따라서 슬라이드에서 소개한 내용에 action을 추가하면 다음과 같다.

그리고 Action이 생김에 따라서 몇 가지 용어를 정의해야 한다.

Policy

정책 π 는 현재 주어진 상태에서 action a를 수행할 분포를 의미한다.

따라서 정책은 agent 행동을 정의한다고 할 수 있다. 그리고 이 정책을 이용해서 상태천이행렬 P와 reward function R을 다음과 같이 다시 정의할 수 있다.

Value Function

state-value function

state value function은 현재 상태 s가 주어졌고, 정책을 따른다고 했을 때 얻을 수 있는 return의 기댓값을 의미한다.

action-value function

action value function은 현재 상태가 s이고, action a를 한다. 그리고 정책을 따른다고 했을 때, 얻을 수 있는 return의 기댓값을 의미한다.

Bellman Expectation Equation

위에서 정의했던 state value function과 action value function을 Bellman equation을 사용하기 위해서 Immediate reward와 future reward 형태로 분해할 수 있게 된다.

하지만 위 식으로는 실제로 구현을 하는 것이 힘들기 때문에 직접 구현을 위해 조금 더 명백한 형태로 변형이 필요하게 됩니다.

위 그림에서 흰색 원은 state를 의미하고, 검은색 원은 action을 의미합니다. 위 그림을 해석해 보면 현재 상태 s에서 가능한 action들은 2개가 있는 것입니다.(실제로는 더 많은 검은색 점이 있을 수 있습니다.) 그러면 agent가 선택한 당시의 정책에 따라 action을 할 확률이 정해질 것이고, 그 때마다 action-value function을 구할 수 있게 됩니다.

따라서 위 그림으로 보아 우리는 현재 state s에서의 state value function을 구하기 위해서 각 action을 할 확률(정책)과 그 action에서 발생하는 value state function을 곱한 것들의 합으로 표현을 할 수 있게 됩니다.

즉 다음과 같이 식을 얻을 수 있습니다.

하지만 아직 이 형태로는 현재 state value function과 다음 state value function과의 관계를 알 수 없습니다. 그러므로 action value function에 대해서 식을 전개해보도록 하겠습니다.

state s에서 action a를 했을 때의 그 action에 대한 value는 두 가지로 나뉘게 됩니다. state s에서 action a를 했을 때의 reward와 그 다음 state의 value function입니다. 그런데 이 중 다음 state value function은 다음 시점의 value function이므로 감쇠 인자를 적용시켜줘야 합니다. 또한 상태가 변한 것이므로 상태 전이 확률도 적용시켜줘야 합니다. 따라서 다음과 같이 식을 구성할 수 있습니다.

따라서 위 두 내용을 모두 한 번에 합치면 다음과 같이 됩니다.

지금까지 state value function을 설명하기 위해 전개를 한 것처럼 이를 action value function을 설명하기 위해 전개를 진행하면 다음과 같이 됨을 알 수 있습니다.

이제 식을 state, action value function 하나씩으로만 표현을 할 수 있기 때문에 이전에 matrix form으로 변경해서 구했떤 것처럼 구할 수 있게 된다.

Bellman Optimal Equation

강화학습은 기본적으로 최대의 보상을 얻는 정책을 찾는 것을 목표로 하고 있기 때문에 얻을 수 있는 기댓값보다는 최대 보상을 얻을 수 있는 것이 더 중요합니다. 따라서 앞서 정의했던 value function들을 다음과 같이 정의할 수 있습니다.

위의 식으로 optimal한 value function을 구할 수 있다면 주어진 state에서 value가 가장 높은 action을 선택할 수 있고, 이를 통해서 optimal한 정책을 구할 수 있게 됩니다. optimal한 값을 항상 얻도록 만들어야 하므로 다음과 같이 정책을 수식을 적을 수 있습니다.

앞서 Expectation Equation에서 진행했던 것처럼 Optimal도 진행을 할 수 있고 다음과 같이 얻을 수 있다.

하지만 Bellman Optimality Equation은 max 연산때문에 non-linear하다. 그렇기 때문에 일반화된 해법을 제공할 수는 없고, 이를 위한 여러가지 다른 방법들을 제시한다.

Value Iteration
Policy Iteration
Q-learning
Sarsa

728x90

저작자표시 비영리 동일조건

'Book > Reinforcement Learning' 카테고리의 다른 글

[RL]Lecture 5. Model-Free Control (0)	2020.02.12
[RL]Lecture 4. Model-Free Prediction (0)	2020.02.05
[RL]Lecture 3. Planning by Dynamic Programming (1)	2020.01.29
[RL] Lecture 1. Introduction to Reinforcement Learning (0)	2020.01.15
[RL]ch 0. Intro (0)	2020.01.15

[BOJ]1012. 유기농 배추

2020. 1. 21. 12:00

728x90

문제:

차세대 영농인 한나는 강원도 고랭지에서 유기농 배추를 재배하기로 하였다. 농약은 쓰지 않고 배추를 재배하려면 배추를 해충으로부터 보호하는 것이 중요하기 때문에, 한나는 해충 방지에 효과적인 배추흰지렁이를 구입하기로 결심한다. 이 지렁이는 배추근처에 서식하며 해충을 잡아 먹음으로써 배추를 보호한다. 특히, 어떤 배추에 배추흰지렁이가 한 마리라도 살고 있으면 이 지렁이는 인접한 다른 배추로 이동할 수 있어, 그 배추들 역시 해충으로부터 보호받을 수 있다.

(한 배추의 상하좌우 네 방향에 다른 배추가 위치한 경우에 서로 인접해있다고 간주한다.)

한나가 배추를 재배하는 땅은 고르지 못해서 배추를 군데군데 심어놓았다. 배추들이 모여있는 곳에는 배추흰지렁이가 한 마리만 있으면 되므로 서로 인접해있는 배추들이 몇 군데에 퍼져있는지 조사하면 총 몇 마리의 지렁이가 필요한지 알 수 있다.

예를 들어 배추밭이 아래와 같이 구성되어 있으면 최소 5마리의 배추흰지렁이가 필요하다.

(0은 배추가 심어져 있지 않는 땅이고, 1은 배추가 심어져 있는 땅을 나타낸다.)

입력:

입력의 첫 줄에는 테스트 케이스의 개수 T가 주어진다. 그 다음 줄부터 각각의 테스트 케이스에 대해 첫째 줄에는 배추를 심은 배추밭의 가로길이 M(1<=M<=50)과 세로길이 N(1<=N<=50), 그리고 배추가 심어져 있는 위치의 개수 K(1<=K<=2500)이 주어진다. 그 다음 K줄에는 배추의 위치(0<=X<=M-1),Y(0<=Y<=N-1)가 주어진다.

출력:

각 테스트 케이스에 대해 필요한 최소의 배추흰지렁이 마리 수를 출력한다.

풀이방법:

dfs를 전형적인 문제이다. 탐색을 진행하다가 1인 점을 만나게 되면(그리고 이전에 방문을 하지 않았다면) dfs 함수에 들어가서 주위에 있는 1의 위치들을 모두 방문하는 방식으로 진행하면 된다. 주위의 1을 모두 방문한 뒤에 answer를 1증가 시키며 다시 탐색을 진행하여 1이지만 방문을 안한 점을 찾아 같은 작업을 반복해주면 된다.

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34

import sys
sys.setrecursionlimit(10000)
 
dx=[0,0,1,-1]
dy=[1,-1,0,0]
 
def dfs(x,y):
    for i in range(4):
        nx=x+dx[i]
        ny=y+dy[i]
        
        if 0 <= nx < M and 0 <= ny < N:
            if worm[nx][ny] and not visited[nx][ny]:
                visited[nx][ny] = True
                dfs(nx,ny)
                
T=int(input())
for _ in range(T):
    M,N,K=map(int,input().split())
    worm = [[0 for _ in range(N)]for _ in range(M)]
    visited = [[False for _ in range(N)]for _ in range(M)]
    answer = 0
    for _ in range(K):
        x,y=map(int,input().split())
        worm[x][y] = 1
 
    for i in range(M):
        for j in range(N):
            if worm[i][j] and not visited[i][j]:
                answer+=1
                visited[i][j]=True
                dfs(i,j)
 
    print(answer)
Colored by Color Scripter

cs

문제링크:

https://www.acmicpc.net/problem/1012

1012번: 유기농 배추

차세대 영농인 한나는 강원도 고랭지에서 유기농 배추를 재배하기로 하였다. 농약을 쓰지 않고 배추를 재배하려면 배추를 해충으로부터 보호하는 것이 중요하기 때문에, 한나는 해충 방지에 효과적인 배추흰지렁이를 구입하기로 결심한다. 이 지렁이는 배추근처에 서식하며 해충을 잡아 먹음으로써 배추를 보호한다. 특히, 어떤 배추에 배추흰지렁이가 한 마리라도 살고 있으면 이 지렁이는 인접한 다른 배추로 이동할 수 있어, 그 배추들 역시 해충으로부터 보호받을 수 있다. (

www.acmicpc.net

728x90

저작자표시 비영리 동일조건

'Algorithm > Python' 카테고리의 다른 글

[BOJ]10026. 적록색약 (0)	2020.02.04
[Programmers]Lv 4. 카드 게임 (0)	2020.01.23
[BOJ]10815. 숫자카드 (0)	2019.12.13
[BOJ]2033. 반올림 (0)	2019.12.12
[BOJ]10409. 서버 (0)	2019.12.09

[ML]ch 1. Introduction-part 2

2020. 1. 20. 12:00

728x90

아래 모든 내용들은 Christopher Bishop의 pattern recognition and machine learning에서 더 자세히 볼 수 있습니다.

1.4 차원의 저주

지금까지는 입력변수의 범위가 1차원 데이터였지만 현실에는 이러한 경우는 거의 없다.

이 데이터는 오일, 물, 가스가 혼합되어 운반되는 송유관에서 측정된 데이터다.
- 이 데이터는 총 12 차원의 입력 벡터로 구성되어 있다.
- 위 그림은 x6, x7의 차원을 표현한 산포도이다.
- 점의 색깔은 데이터의 클래스를 의미한다.
- x에 대해서 이 데이터가 어떤 클래스에 속할지를 판단해야 하는 문제이다.

가장 단순한 접근법은 입력 공간을 같은 크기의 여러 칸들로 나누는 것이다. x가 속한 셀 내에서 가장 많은 클래스를 확인한 뒤 그 클래스로 분류를 하는 방법이다.
- 이 방법은 입력 변수가 더 많은 경우를 고려할 때 셀의 개수가 지수승만큼 증가하게 된다.
- 판별 함수를 생각해보면 앞서 사용한 방식을 사용하면 구해야 할 차원 D^M까지 증가하게 된다.

고차원에서 발생할 수 있는 심각한 문제를 차원의 저주(curse of dimensionality)라고 부른다.
- 저차원 공간에서 얻은 아이디어가 고차원 공간에서 반드시 적용되는지는 않다.
- 고차원 입력값에 대해 사용할 수 있는 효과적인 패턴 인식 테크닉이 존재하긴 함.
  - 실제 세계의 고차원 데이터들의 경우에 유의미한 차원의 수는 제한적이다.
  - 실제 세계의 데이터는 보통 매끈한 특성을 가지고 있다.

1.5 결정 이론

결정 이론 : 불확실성이 존재하는 상황에서 의사 결정을 내려야 할 때 최적의 의사 결정을 내릴 수 있도록 하는 것
입력 벡터 x와 타깃 변수 벡터 t가 존재하는 상황에서 새로운 입력 벡터 x가 주어지면 타깃 변수 벡터 t를 예측하는 문제가 있다고 하자.
- p(x,t)는 불확실성을 요약해서 나타내 줄 것이며 이 것을 찾아내는 것은 추론(inference) 문제의 대표적인 예시이다.
이런 확률 정보를 바탕으로 최적의 결정을 하려고 하는데 이를 결정 단계라고 한다.

1.5.1. 오분류 비율의 최소화

잘못된 분류 결과의 숫자를 가능한 줄이는 것이 목표이다. 이를 위해 x를 가능한 클래스들 중 하나에 포함시키는 규칙이 필요하다.
- 이 규칙은 입력 공간을 결정 구역이라는 Rk들로 나누게 될 것이며 Rk에 존재하는 포인트들은 클래스 Ck에 포함될 것이다.
- 이때 각 구역의 경계면을 결정 경계, 결정 표면이라고 부른다.

잘못 분류할 결과를 확률 식으로 표현할 수 있다.
- 따라서 이를 최소화하는 방향으로 모델을 설계해야 한다.

1.5.2. 기대 손실 최소화

현실적으로 오분류의 수를 줄이는 것으로는 부족하다.
- 따라서 암의 진단 예제의 경우에서 오분류를 하는 경우를 생각해보자.
  - case1 : 실제로 암이 아닌데 암이라고 진단할 경우
    - 환자의 기분은 나쁠 수 있지만 추가 검사를 통해서 아니라는 것을 밝혀낼 수 있다.
  - case2 : 실제로 암인데 암이 아니라고 진단할 경우
    - 이 경우에는 제 때에 치료를 받지 못하게 되어 죽음이라는 결과를 얻을 수 있다.
- 즉 case1보다 case2가 심각한 경우이므로 case2에 더 강한 페널티를 부여하는 것이 필요하다.

이를 위해 cost function, loss function이라는 개념을 도입해서 이러한 문제들을 공식화할 수 있다.
- 하나의 샘플 x가 실제로는 특정 클래스 Ck에 속하지만 이 샘플의 클래스를 Ci로 선택할 때 들어가는 비용이라고 정의한다.
- 모든 경우에 대한 Loss를 정의한 것을 loss matrix라고 한다.

Loss 함수를 최소화하는 해가 최적의 해인데 Loss 함수에 대한 평균값을 최소화하는 방법을 사용한다.
- 각각의 x 값은 결정 구역 Rj들 중 하나에 독립적으로 포함된다. 그렇기 때문에 에러 값이 최소가 되는 Rj를 선택해야 한다.
- 결국 x에 대해서
  
  를 최소화하는 클래스를 찾으면 된다.
- 로 치환 가능하고, p(x)는 클래스마다 동일하다고 생각하고 생략한다.
- 새로운 xnew가 들어왔을 때, 이 식을 사용한다.

1.5.3 거부 옵션

사후 확률 또는 결합 확률이 1에 가까운 것이 아니라 클래스 별로 비슷할 경우 분류에 대한 에러가 커지게 된다.

이러한 범위에 존재하는 x에 대해 특정한 클래스로 할당을 하는 것이 힘들기 때문에 결정을 회피하게 되는데 이를 reject option이라고 한다.

즉 그림을 보면 특정 수준(threshold)를 넘지 못하면 클래스 분류를 하지 않는 것이다.
- 1/K<theta<1로 고려를 하며 theta를 조절해 거부되는 예시의 수를 조절할 수 있다.

1.5.4. 추론과 결정

지금까지 분류 문제를 두 개의 단계로 나누어서 알아보았다.
- 추론 단계 : 훈련 집단을 활용하여 p(Ck|x)에 대한 모델을 학습시키는 단계
- 결정 단계 : 학습된 사후 확률들을 이용해서 최적의 클래스 할당을 시행

결정 문제를 푸는 데에는 세 가지 다른 접근법이 있으며, 복잡도가 높은 순으로 설명한다.
생성 모델(generative model)
- 각 클래스에 대해서 조건부 확률 밀도와 사전 확률을 따로 구해 사후 확률을 추론함.
- 결합 분포를 모델링한 후 정규화를 통해 사후 확률을 구할 수 있음.
- 이렇게 입력값과 출력값의 분포를 모델링하는 방식을 생성 모델이라고 하며, 이 분포로부터 새로운 샘플을 생성할 수 있는 능력이 있다.

판별 모델(discriminative model)
- 사후 확률을 계산하는 추론 문제를 풀어낸 후에 결정 이론을 적용하여 각각의 입력 변수 x에 대한 클래스를 구한다. 사후 확률을 직접 모델링하는 이러한 방식을 판별 모델이라고 한다.

판별 함수(discriminative function)
- 각각의 입력값을 클래스에 사상하는 판별 함수를 찾는다. 베이즈 확률 모델에 의존하지 않고 판별식을 찾아내는 방식이다.

세 가지 방식의 장단점에 대해서 논의해보자.
- 생성 모델
  - 가장 복잡한 방식으로 x, Ck에 대해서 결합 분포를 찾아야 하는데 대부분의 사례에서 고차원이며 많은 훈련 집합을 필요로 한다.
  - 이 모델의 장점은 이 식을 이용해서 데이터의 주변 밀도도 구할 수 있다. 이를 바탕으로 발생 확률이 낮은 새 데이터(outlier)를 발견할 수 있다.
- 판별 모델
  - 사후 확률을 계산하는 방식이 생성 모델보다 간편하다.
  - 클래스별 조건부 분포는 사후 확률에 많은 영향을 주지 않는다.
- 판별 함수
  - 입력 공간을 결정 공간에 바로 매핑시키는 방식이다. 추론 단계와 결정 단계를 하나의 학습 문제로 합친 것이다.
  - 확률론을 다루지 않으므로 사후 확률을 알지 못하게 된다.

사후 확률을 구하는 것의 유의미한 이유는 다음과 같은 이유들 때문이다.

위험의 최소화
- Loss matrix가 시간에 따라 바뀔 수도 있다.
- 이는 사후 확률을 알고 있다면 쉽게 최소 위험 결정 기준을 구할 수 있다.

거부 옵션
- 사후 확률을 알고 있으면 거부 기준을 쉽게 구할 수 있다.

클래스 사전 확률에 대한 보상
- 클래스의 발현 비율이 다른 경우 이를 해결하기 위해 모델을 수정하게 된다.
- 수정된 데이터 집합을 사용하여 사후 확률에 대한 모델을 찾아내고 이를 통해 사전 집합을 구할 수 있다.

모델들의 결합
- 복잡한 문제를 좀 더 작은 문제로 나누어 해결하고 조합해서 사용된다.
- 간단한 모델로 나누고 이를 독립적으로 가정하고 식을 나열한다.
- 이를 조건부 독립이라고 하며 사후 분포에 대해서도 식을 전개할 수 있다.
- 하나의 어려운 결합 확률을 구하는 대신에 모델링이 쉬운 두 개의 사후 확률을 구해 이를 결합하는 것이다.

1.5.5 회귀에서의 손실 함수

지금까지 분류에 대해서 알아보았으니 회귀에 대해서도 손실 함수를 알아본다.

회귀 함수의 손실 함수는 위와 같은 식이며 분류와 같이 기대 손실 함수로 사용한다. 보통 L(t, y(x))를 {y(x)-t}^2으로 사용한다.

그래서 위와 같은 식을 얻게 되고 우리의 목표는 E [L]을 최소화하는 y(x)를 찾는 것이다. 이는 미분을 통해서 구할 수 있다.

이는 x가 주어졌을 때의 t의 조건부 평균으로써 회귀 함수라고 한다. 다음 그림을 참고하면 이해가 더 쉬울 것이다.

다른 방식으로도 도출할 수 있는데 최적의 해가 조건부 기댓값이라는 지식을 바탕으로 식을 전개할 수 있다.
- E [t|x]를 빼고 더한 것으로 아무런 영향을 주진 않는다. 수학적으로 정답인 평균값이다.
- y(x) 샘플 데이터로부터 만들어진 모델 함수로 우리가 예측한 근사 식이다.
- 전개식을 정리하면 위와 같아지게 된다. 크게 두 부분으로 나누어진다.
  - 첫 번째 term은 모델 y(x)와 관련된 요소로 조건부 평균을 통해 최소화하는 항이다.
  - 두 번째 term은 분산으로 샘플이 포함하고 있는 노이즈를 의미한다.

분류에서도 최적의 결정을 내리기 위한 방법들이 있었는데, 회귀에서도 다음과 같은 접근법들이 있다.
- 결합 밀도를 구하는 추론하는 방법, 이 식을 정규화하여 조건부 밀도를 구하고 최종적으로 조건부 평균을 구한다.
- 조건부 밀도를 구하는 추론 문제를 풀고 조건부 평균을 구한다.
- 훈련 데이터로부터 회귀 함수 y(x)를 구한다.

1.6 정보이론

이산 확률 변수 x를 고려해 보자. 이 변수가 특정 값을 가지고 있는 것을 확인했을 때 전해지는 정보량은 얼마만큼일까?
- 정보의 양은 '학습에 있어 필요한 놀람의 정도'로 해석하면 된다.
  - 따라서 항상 일어나는 일은 0이 될 것이다.
  - 그렇기 때문에 확률 분포 p(x)에 종속적이게 된다.

정보의 양을 h(x)라고 정의하면 정보는 결국 확률 함수의 조합으로 표현이 되게 될 것이다.

정보의 양을 나타내는 함수 h(x)는 확률 함수 p(x)의 음의 로그 값이다.
- 음의 부호는 정보량이 음의 값을 가지지 않도록 하기 위해 붙여졌다.
- 로그의 밑은 임의로 정하는데 보통 2를 선택하고 h(x)의 단위는 비트가 될 것이다.

이때 전송에 필요한 정보량의 평균치는 다음과 같이 구할 수 있다.

이 식은 매우 중요한데 이를 엔트로피(entropy)라고 정의한다.
- 엔트로피는 평균 정보량을 의미하며, p(x)인 분포에서 h(x) 함수의 기댓값을 의미하게 된다.
noiseless coding theorem
- 엔트로피는 랜덤 변수의 상태를 전송하는데 필요한 비트 수의 하한선
N개의 동일한 물체가 몇 개의 통 안에 담겨 있다고 가정해 보자.
- i번째 통 안에 ni개의 물체가 담기도록 한다.
- 전체 영역에 N개의 물체가 무작위로 놓여있다고 하고, 총 나타날 수 있는 가지 수는 N! 이 된다.
- 하지만 물체들이 어떤 순서로 놓여 있는지는 중요하지 않다. 개수만이 중요할 뿐이다. 따라서 총 가지 수는 다음과 같다.
- 이 것을 다중도(multiplicity)라고 부른다.
- 로그를 붙이고 적당한 상수를 넣어 식을 정리하자.
- 비율을 그대로 유진 상태에서 N->무한대를 취하고 **Stirling’s approximation** 을 적용하도록 한다.
- 이 것을 적용하면
- 통 안의 물체들의 순서를 미시 상태라 하며, ni/N으로 표현되는 통 각각이 가지고 있는 물체의 숫자 비율을 일컬어 거시 상태라 한다. 다중도 W를 거시 상태의 가중치라 일컫기도 한다.
- N -> 무한대이고, ni/N이 고정된 상수라고 하면,
연속 변수일 때에는 식이 복잡하므로 생략하도록 한다.

1.6.1. 연관 엔트로피와 상호 정보

형태를 모르는 확률 분포 p(x)가 있다고 해보자. 그리고 이 확률 분포를 근사한 q(x)가 있다고 하자. 그러면 q(x)는 근사한 것이므로 정보량이 차이가 있다.

p(x)가 아닌 q(x)를 사용했기 때문에 추가적으로 필요한 정보량의 기댓값을 정의한다.
위 정의를 Kullback-Leibler divergence, KL divergence
- 근사 분포인 q(x)를 사용했기 때문에 정보량은 - ln q(x)을 사용한다.
- 하지만 데이터는 p(x)이므로 기댓값은 실 분포를 대상으로 구하게 된다.
을 만족한다. (non-symmetric) 그리고 항상 0보다 큰 값을 가진다.
- 만약 p(x),q(x) 이면 KL = 0이다.
KL divergence는 다음과 같이 유도할 수 있다.
정보 이론은 중요하지만 복잡한 내용이 많으므로 위와 같이 간략히 소개하고 추후 더 자세히 소개하는 시간을 가지도록 한다.

728x90

저작자표시 비영리 동일조건

'Book > Machine Learning' 카테고리의 다른 글

[ML]ch 4. Linear Models for Classification - part 1 (0)	2020.02.10
[ML]ch 3. Linear Models for Regression (0)	2020.02.03
[ML]ch 2. Probability Distributions (0)	2020.01.27
[ML]ch 1. Introduction-part 1 (0)	2020.01.13
[ML]chapter 0. Beginning (0)	2020.01.13

PREV 1 ···25 26 27 28 29 30 31 ···58 NEXT

Programming

문제:

입력:

출력:

풀이방법:

문제링크:

'Algorithm > Python' 카테고리의 다른 글

Model Free Prediction

Monte-Carlo Learning

First- Visit MC Policy Evaluation

Every-Visit MC Policy Evaluation

Temporal-Difference Learning(TD)

TD(λ)

'Book > Reinforcement Learning' 카테고리의 다른 글

문제:

입력:

출력:

풀이방법:

문제링크:

'Algorithm > Python' 카테고리의 다른 글

3.1 선형 기저 함수 모델

3.1.1 최대 가능도와 최소 제곱

3.1.3. 순차적 학습

3.1.4 정규화된 최소 제곱법

3.1.5 다중 출력값

3.2 Bias-Variance 분해

'Book > Machine Learning' 카테고리의 다른 글

3. Planning by Dynamic Programming

Introduction

Policy Evalutation

Example

Policy Iteration

Value Iteration

Summary of DP Algorithms

'Book > Reinforcement Learning' 카테고리의 다른 글

2.3.0 가우시안 분포

'Book > Machine Learning' 카테고리의 다른 글

문제:

풀이방법:

문제링크:

'Algorithm > Python' 카테고리의 다른 글

Markov Property

State Transition Matrix

Markov Process

Markov Reward Process

Return

Value Function

Bellman Equation

Markov Decision Process

Policy

Value Function

Bellman Expectation Equation

Bellman Optimal Equation

'Book > Reinforcement Learning' 카테고리의 다른 글

문제:

입력:

출력:

풀이방법:

문제링크:

'Algorithm > Python' 카테고리의 다른 글

1.4 차원의 저주

1.5 결정 이론

1.5.1. 오분류 비율의 최소화

1.5.2. 기대 손실 최소화

1.5.3 거부 옵션

1.5.4. 추론과 결정

1.5.5 회귀에서의 손실 함수

1.6 정보이론

1.6.1. 연관 엔트로피와 상호 정보

'Book > Machine Learning' 카테고리의 다른 글

티스토리툴바