본문 바로가기

머신러닝/초등학생도 이해하는 딥러닝 수학

딥러닝 기초 확률론 [초등학생도 이해하는 확률론]

반응형

 안녕하세요 '코딩 오페라'블로그를 운영하고 있는 저는 'Master.M'입니다.

오늘부터 '초등학생도 이해하는 수학'라는 주제로 포스팅하도록 하겠습니다. 제목처럼 진짜 핵심 내용을 쉽게 설명하는 것을 목표로 하고 있으니 딥러닝에 입문하고 싶은 분들은 많은 관심 부탁드립니다. 오늘 알아볼 내용은 '딥러닝 기초 확률론'입니다.

 

확률변수와 확률 분포

  • 확률변수(random variable) : 표본공간(sample space, 어떤 시행에서 나타날 수 있는 모든 결과의 모임)에서 상태공간(state space, 해당 확률변수가 취할 수 있는 모든 실수 집합)으로 보내는 함수로 다양한 값을 랜덤하게 가질 수 있음

예시) 동전던지기

표본공간 : 동전의 [앞면, 뒷면]

만약 확률변수 'X'가 "동전을 2번 반복해서 던졌을 때 앞면이 나온 수" 라면

상태공간 : [0, 1, 2]

 

'확률변수'란 "시뮬레이션 환경에서 개발자가 원하는 수학적 정보"라고 생각하면 됩니다.

 

  • 확률 분포(probability distribution) : 개별 확률변수나 확률변수의 집합에 대응하는 확률들의 집합. 
  • 확률 함수(probability function) : 확률변수의 상태를 그 상태가 나타날 확률로 대응시켜주는 함수.
  • 이산확률변수(discrete random variable) : 셀 수 있는 확률변수 (ex) x = [1, 2, 3, 4, 5])
  • 연속확률변수(continuous random variable) : 셀 수 없는 확률변수 (ex) 1 < x < 5)
  • 확률질량함수(probability mass function) : 이산확률변수의 확률함수로 모든상태의 확률질량함수들의합은 1이며, 각 상태의 확률변수는 0에서 1사이의 확률을 갖음

확률질량함수

  • 균등분포(uniform distribution) : 각 상태에서 해당하는 확률이 동일한 확률 분포

균등분포

위와 같이 만약 k개의 서로 다른 상태를 가질 수 있고 균등분포를 따르는 이산확률변수 X의 확률질량함수는 위와 같습니다. 모든 상태의 확률이 균등하므로 전체확률 1에서 균등하게 상태수 k만큼 나눠주는 것입니다.

 

  • 베르누이분포(bernoulli distribution) : 결과가 2가지로만 이루어진 '베르누이시행'을 통한 확률분포

시험의 합격, 불합격, 스포츠 경기의 승, 패 등 우리 주변에는 2가지 상태로 이루어진 상황들이 많이 있습니다. 이러한 시행을 '베르누이시행(bernoulli trial)'이라 합니다. 예를들어 표본공간 = [성공, 실패]이고 상태공간=[0, 1]일 때, 이 표본공간을 상태공간으로 대응시키는 함수를 '베르누이확률변수' 라고 하고 이러한 확률분포를 베르누이분포라고 합니다. 

베르누이분포

  • 이항분포(binomial distribution) : 성공확률이 p인 베르누이시행을 n번 반복 시행할 때 성공 횟수를 나타내는 확률변수 X의 분포.

이항분포

예를 들어 동전의 앞, 뒷면중 앞면이 나오면 이기는 게임이 있다고 가정해보겠습니다. 게임을 n번 하는데 이중에서 내가 몇번 이길지에 대한 변수가 x입니다. 이러한 x는 내가 모두질 경우(x=0) 부터 다 이길 경우(x=n) 까지 x = 0, 1, ... , n으로 구성되어있습니다.  여기서 만약 x=3이라면 나는 경기 n번중 3번을 이기게 되는데, n번의 경기에서 어떤 경기들에서 이겨 도합 3번이 정해지는지를 관여하는 부분이 'nCx'부분입니다. 

 

여기서 순열, 조합에 대해 자세히 알아보자면 다음과 같습니다.

 

  • 다항분포(multinomial distribution) : k개의 서로 다른 상태를 가질 수 있는 하나의 이산확률 변수에 대한 확률 분포

다항분포는 한번의 시행에서 k개의 다른 실험 결과가 도출되는 실험을 n번 반복했을 때 각 범주에 속하는 횟수를 확률변수로 하는 분포를 가르킵니다. 

다항분포(multinomial distribution)

- p1, p2, ... , pk : 어떤 시행에서 k개의 다른 값들이 나타날 확률

- P = n번의 시행에서 i번째 값이 xi회 나타날 확률 

- n = x1 + x2 + ... + xk

 

  • 정규분포(normal distribution) : 가우스 분포(Gauss Distribution)이라고도 하며, '중심극한정리'를 따르는 자연상태에서 많이 발견되는 데이터들의 분포

- 중심극한정리 : 동일한 확률분포를 가진 독립확륜변수 n개의 평균의 분포는 n이 적당히 크다면 정규분포에 가까워진다는 정리

정규분포

정규분포는 mu와 sigma로 이루어져있습니다. N(mu, sigma^2)에서 mu는 평균을, sigma는 표준편차를 의미합니다. 

베이지안 확률론

전통적인 확률론은 빈도론(frequentist)의 관점에서 설명하고 있습니다. 예를들어 동전 뒤집기에서 앞면이 나올 확률이 30%라면 이는 10번 던지면 확률적으로 앞면이 3번 나온다는 것은 빈도론적 사고입니다.

이와 대조적으로 베이지안 접근법이 있는데, 이 경우 믿음의 크기(degree of belief)관점에서 설명을 하고 있습니다. 예를들어 어떤 환자 x가 병 y에 걸렸을 확률이 30%라는 것은 이 환자 x가 병 y에 걸렸을 믿음의 크기가 30%라는 것입니다. 애초에 환자 x가 여러명일 수가 없으므로 빈도론적 사고가 불가능 하기 때문에 베이지안적 사고를 한 것입니다.  

베이지안 확률

- P(H) : 사전확률(prior)

- P(E) : 증거(evidence)

- P(E|H) : 가능도, 우도(likelihood)

- P(H|E) : 사후확률(posterior)

 

'사전확률'은 사전에 이미 알고있는 확률입니다. 예를들어 위의 병 y에 대한 발병률이 1% 라면 사전확률 P(H) = 0.0001이 됩니다. 

'증거'는 데이터에 대한 추가적인 정보입니다. 예를 들자면 병 y에 대한 양성판정 여부를 들 수 있습니다.

'가능도'는 사전 정보 또는 믿음이 전제된 상태에서 실제 데이터를 관찰한 결과입니다. 병 y에 걸린사람중 양성판정을 받을 확률을 예로 들 수 있습니다. 

'사후확률'은 우리가 최종적으로 알고싶어하는 확률로 사전 정보들을 바탕으로 유추해 나갈 수 있습니다. 양성판정을 받은 사람중 실제로 병에 걸릴 확률을 예시로 들 수 있습니다. 

이러한 베이지안 방법을 사용하는 이유는 실제 데이터에서 사전확률과 가능도는 구하기가 비교적 쉽지만 사후확률은 구하기가 어렵기 때문입니다. 

 

Reference

https://coding-factory.tistory.com/606

 

[수학] 순열, 조합 공식 총정리

팩토리얼 ( ! ) 팩토리얼이란 서로 다른 n개를 나열하는 경우의 수를 의미합니다. 기호로는 n! 이렇게 쓰고 계산은 n부터 1씩 줄여나가면서 1이 될때까지의 모든 수를 곱합니다. 순열 ( nPr ) 순열이

coding-factory.tistory.com

https://angeloyeo.github.io/2020/01/09/Bayes_rule.html

 

베이즈 정리의 의미 - 공돌이의 수학정리노트

 

angeloyeo.github.io

 

반응형