회귀(Regression), 그 중에서도 선형 회귀 (Linear regression):

가장 간단한 모델이며 다음 세 특성 가짐

  • model of mean, variance of normally distributed measure
  • mean as additive combination of weighted variables
  • constant variance

왜 분산은 정규분포를 이용하나?

  1. 더해지는 형태의 회귀적 구조에서 계산 편리
  2. 자연에 흔함
  3. 보수적인 가정 (flat given mean and variance about the dist.)

lots of things more natural to measure on a logarithm scale

eg) strength of an earthquake

add fluctuations together -> dampen together and end up with the symmetric curve

does not give much information (자연에 흔하니까)

can’t figure out the process from the frequency distribution

덧) powerlog는 해당분포의 분산이 크다는 것을 제외하면 아무 정보를 주지 않음

평균과 분산을 알 때 가장 보수적인(가장 엔트로피가 큰) 추론

 

Quadratic approximation

  • Approximate posterior as Gaussian
  • Can estimate with two things:
    • Peak of posterior, map
    • standard deviations & correlations of parameters (covariance matrix)
    • mean and sd

Linear models

 

Prior predictive distribution

데이터를 보기 전에 사전분포가 어떤지 시뮬레이션 해보기

sample_mu <- rnorm(1e4, 178, 20)

sample_sigma <- runif(1e4, 0, 50)

prior_h <- rnorm(1e4, sample_mu, sample_sigma)

dens(prior_h)

sd에 불확실성이 있기때문에 정확한 정규분포가 아닌 t분포다

 

여기서 사전분포를 변형시켜보자

사전분포를

sample_mu <- rnorm(1e4, 178, 20)에서

sample_mu <- rnorm(1e4, 178, 100)로 변경 후

최장신기록보다 더 높고, 0cm보다 더 작은 키값들이 결과로 나오는 걸 관찰한 후 사전분포를 변형한다

즉, 상식 밖의 시뮬레이션 결과를 바탕으로 사전분포를 기각

 

Computing the posterior

grid approximation: compute posterior for many combinations of mu and sigma

grid appoximation은 좋은 방법이지만, 변수개수가 많아지면 처리 어렵

예: 후에 6단원에는 206개의 변수가 나오는 모델

여기서는 2개의 변수로 샘플링 진행

mu와 sigma 추출

Rk) mu는 대칭적이지만, sigma는 비대칭인 이유

sigma는 0보다 크다는 것을 안다.

sigma의 사후분포는 완전한 대칭이 아니라 skewed

right is longer than left tail: have more uncertainty on the up end

-> skew in variance parameters = scale parameters

 

Quadratic approximation

  • Approximate posterior as Gaussian
  • GLM에서는 안 좋은 경우도 있지만
  • Can estimate with two things:
    • Peak of posterior, map
    • sd, correlation of parameters (covariance matrix)
  • With flat priors, same as conventional MLE

just climb the hill: gradient ascent (or descent) algorithm으로 고차원인 경우에도 climb up to the peak할 수 있다.