#library(nlme)
#data(Orthodont) # 치아 성장 데이터 (클러스터: Subject)
#Orthodont$binary <- ifelse(Orthodont$distance > 25, 1, 0) # 이항 변환
#
## GEE 모델 적합 (Exchangeable 상관 구조)
#library(geepack)
#gee_fit <- geeglm(binary ~ age + Sex,
# id = Subject, # 클러스터 변수
# data = Orthodont,
# family = binomial,
# corstr = "exchangeable") # 동일 상관 가정
#summary(gee_fit) # 결과 출력
#
## GLMM 모델 적합 (랜덤 절편 모델)
#library(lme4)
#glmm_fit <- glmer(binary ~ age + Sex + (1|Subject), # 랜덤 절편
# data = Orthodont,
# family = binomial)
#summary(glmm_fit) # 결과 출력
들어가며
3장에서는 2장에서 다룬 Generalized Linear Model (GLM)에서 더 나아가, 데이터 내에 군집(Clustered) 구조가 존재하거나, 반복측정(Repeated measures) 데이터로 인해 독립성 가정이 깨지는 경우를 다루는 방법론인 GEE (Generalized Estimating Equation)와 GLMM (Generalized Linear Mixed Model)을 다루며, 그 전에 중요한 추정 방법론 중 하나인 M-estimation과 Robust(Sandwich) estimation에 대해서 다루겠습니다.
1. M-estimation
1.1. M-estimation 정의
통계 분석에서 통계 모델이 비모수(non-parametric)가 아니라 모수(parametric)인 경우, 우리는 model의 모수, 즉 parameter (
즉, M-estimation은 다음 과 같은 형태를 지닌 추정 방정식을 세우고, 이를 만족하는 모수의 값을 해로 삼습니다:
여기서
OLS는 다음과 같습니다.
여기서 OLS의 estimation equation이 다음과 같은 이유는,
1.2. M-estimation 특징
M-estimation의 가장 중요한 특징은 일반성과 확장성입니다. 즉, parameter estimation 문제를
의 해로서 바라보면, 여러 기존 추정법들을 하나의 큰 이론적 틀에서 이해할 수 있고, 이로부터 발생하는 성질들은 해당되는 방법론 모두에 적용됩니다. 이렇게 M-estimation을 강조하여 설명하는 이유는, M-estimation은 아래 두 가지 수렴 이론(Asymptotic theory)을 제공하기 때문입니다.
(1) 적절한 정규성 조건(regularity conditions) 하에서(종속변수의 정규 분포 가정이 아니며, 언급드린 적이 없지만 아주 general한 조건이라고 생각해주시면 됩니다.), 위 M-estimation의 estimating equation의 추정해
(2) 또한, 정규성을 갖는 모수의 점근분포가 중심극한정리(CLT)의 연장선상에 있다고 볼 수 있으며, 그 결과 위
즉, M-estimation으로부터 얻는 의의를 살펴보자면, 우리가 Regression Model의 parameters를 추정하는 과정에서 estimating equation이 위 M-estimation의 형태를 만족한다면, 어떠한 methods를 사용하든 이를 통해 추정한 parameter
1.3. M-estimation의 Asymptotic Normality 증명
M-estimation 추정량
가 됩니다. 이때 좌항
가 됩니다. 여기서 다음 두 Matrix들을 정의하겠습니다:
-
(2차 도함수 또는 score function의 미분의 기댓값) -
(score function의 분산의 기댓값)
이제 대수의 법칙(LLN)과 중심극한정리(CLT)를 각각 적용하면 다음 두 식을 얻을 수 있습니다.
각 정리를 간단하게 설명드리자면, 대수의 법칙(LLN, Law of Large Numbers)은 표본 크기
즉, 위 식에서는
입니다. 즉, 확률적으로 수렴하는 변수와 분포적으로 수렴하는 변수를 곱하면, 여전히 위 식과 같이 분포적으로 수렴한다는 것이 증명된 정리이고, 위 식에서는
입니다.(deteminant한 값은 분산 term에서 제곱된다는 것은 몇 번 보았었습니다.) 결국 M-estimation의 추정을 통해 얻은
1.4. Sandwich(Robust) Estimator
Sandwich(Robust) Estimator의 식은 써보면 다음과 같습니다:
2장에서 GLM case에 대해 log likelihood의 1차 도함수를 score function, 이의 negative 2차 도함수를 Fisher Information matrix라고 언급한 적이 있습니다. 이의 general한 버전이 위와 같으며, 여기에서는 이 score function
즉 철학적으로 해석해보면, Regression Model의 selection이 정확한 경우 Fisher Information 행렬 동일성에 의해
또한 이전에 스포한대로, 이전 장들에서 다루어 왔던 robust한 parameter variance estimator인 Heteroskedasticity-Consistent SE, Cluster-robust SE는 모두 이 Sandwich estimator의 special한 case입니다.(생김새부터 짐작할 수 있으셨을 겁니다.) LM version에서만 이를 증명한 뒤(GLM 버전도 같습니다.), GLM을 복습하고 GEE, GLMM에 대해서 설명드리겠습니다.
- Prove HC0 is Sandwich estimator. (LM version)
OLS의 score function은은 위에서 보았듯 다음과 같습니다:
이며, 추정치는
가 되고, 이 식은 1장에서 보았던 HC0의 식과 동일함을 확인할 수 있습니다.
- Prove Clustered-Robust SE is Sandwich estimator. (LM version)
이 또한 OLS와 같은 환경이므로(LM, cluster가
이에 따라 분산의 Sandwich estimator를 구하면
이고, 이는 Cluster-robust SE의 식과 동일합니다.
1.5. GLM 복습
Generalized Linear Model (GLM)의 모델 식은 다음과 같이 표현됩니다:
간략하게 복습하면 링크 함수(link function)
을 푸는 방식으로
이 해석 또한 M-estimation의 한 사례로 볼 수 있습니다. GLM에서 score 함수(추정방정식)는
그리고, 계속 보아왔던 것처럼 여기서
가 됩니다. 결국 GLM의 모형 기반 분산은 다음과 같습니다:
또한, 이때 경험적 분포를 고려하여 Sandwich로 추정한 분산은,
로, 이는 이전에 확인한 HC0의 형태와도 이어집니다.
다시 돌아와서.. (for clustered data)
일반적으로 선형 모델(Linear Model)과 일반화 선형 모델(Generalized Linear Model, GLM)은 독립 동일 분포(i.i.d.)를 가정합니다. 즉, 기존의 GLM은 관측치(observations, data points)들이 서로 독립이며(Independent)일 때 동일한 분산 구조에서 잘 작동합니다. 그러나 학교나 병원 등 군집(클러스터) 단위로 샘플이 묶여 있는, 비슷한 특성을 지닌 대상들을 클러스터(cluster)로 묶은 패널 데이터(panel data)나 동일한 실험 대상(피험자)에게서 반복 측정된 데이터(longitudinal data)의 경우, 같은 cluster(또는 group: 같은 피험자, 같은 단위 등)에 속한 data간에는 correlation이 존재합니다. 때문에 더이상 data들이 독립이 아니게 되며, GLM만으로는 이 상관구조를 모델 자체에서 고려할 수 없기에, GEE와 GLMM 와 같은, 더욱 general한 Regression Model이 개발되었습니다. 이제 아래에서 위 두 model에 대해서 살펴보겠습니다.
2. Generalized Estimating Equation (GEE)
2.1. GEE 정의
GEE (Generalized Estimating Equation)는 GLM이 독립성 가정을 전제로 하는 한계마저 뛰어넘어, 군집(Clustered) 자료나 반복측정 자료 등 상관구조가 존재하는 데이터에 적용될 수 있도록 확장한 방법론입니다. 가장 critical하게 다른 점을 보면, GLM은
LM이나 GLM은 서로 독립적인(i.i.d.) 표본을 가정하여 이를 기반으로 추정하는 반면, GEE에서는 상관 구조(correlation structure)
2.2. GEE 수학적 표현 및 추정
위에서 언급하였듯, GLM과 동일하게 GEE는 아래와 같은 marginal 모델입니다:
(1) Independent (기존 GLM)
(2) Exchangeable Correlation (동일 상관 구조)
(3) Autoregressive (AR-1)
(4) Unstructured Form
이러한 상관행렬
GEE’s Estimating Equation
이전에 GLM에서는 다음과 같이 score functions로 부터 estimating equation을 세웠습니다:
이제 이를 GLM 때와 다르게 각 cluster
가장 중요한 GEE에서 분산 term의 변형을 다시 한 번 강조하자면,
GEE parameter 추정(IRLS)
GEE의 parameter 추정 또한 GLM에서 비롯된 만큼, 이전에 다루었던 방식과 유사한 반복 알고리즘으로
현재 추정치
에서, 각 클러스터 에 대해 (편미분 행렬), , (working correlation , dispersion parameter 포함)을 계산합니다. 이때, working correlation 와 도 반복적으로 업데이트됩니다. 예컨대,gee
나geepack
패키지에서는 각 반복 단계에서 잔차(residual)를 기반으로 와 를 재추정하여 새로운 를 구합니다.-
아래 식을 만족하도록
를 업데이트합니다: 이전처럼 parameter의 변화량(distance between
and )가 특정 threshold 아래로 수렴할 때까지 이 과정을 반복합니다.
R에서는 geepack
이나 gee
라이브러리에서 내부적으로 이러한 절차를 수행합니다. 1에서 어떻게 잔차로부터
잔차는 아래와 같이 계산됩니다(Pearson):
(2) Exchangeable Correlation:
(3) Autoregressive (AR-1):
(4) Unstructured Form:
위 식들은 그저 잔차로부터 (co)variance를 추정하는 것일 뿐이고, 분산 term은 degree of freedom을 고려하기 때문에 그저 각각의 상관 행렬 속 미지수(parameter)의 개수에 따른 반영입니다.
2.3. GEE parameter’s Variance
GEE의 모수 추정치 (
이를 robust 또는 empirical 표준오차라고 하며, 실질적으로 상관구조 (
3. Generalized Linear Mixed Model (GLMM)
3.1. GLMM 정의
GLMM(Generalized Linear Mixed Model)은, 우리가 이미 익숙하게 다뤄온 GLM(Generalized Linear Model)을 GEE와는 다른 방식으로 (Mixed model) “군집(cluster) 또는 계층적 구조를 가지는 자료”에까지 확장하기 위한 방법론입니다. 즉, GLMM은 이러한 내재된 상관(또는 군집성)을 모델화하기 위해서 고정 효과 + 무작위 효과의 결합으로 모형을 설정합니다. 즉, GLMM은
- 고정 효과(fixed effects): 전체 모집단에 공통적으로 적용되는 회귀계수(예: 전체 평균 경향)에 해당,
- 무작위 효과(random effects): 피험자(또는 군집, 클러스터)별로 달라지는 편차(“개인별 random intercept” 혹은 “개인별 random slope” 등)를 도입
을 둘다 고려하는 모델이며, 즉 “Generalized Linear Model + Linear Mixed Model(Random Effects)”의 결합이라고 요약할 수 있습니다. GEE와 비교하여 이 GLMM은 각 cluster(또는 group)마다 직접적인 고려를 모델에 넣기 때문에(random effect) Subject-Specific 모델(또는 GEE)라고도 불리며, 이는 Population-Average GEE와 대비되는 특징입니다. 무작위 효과는 정규분포로 가정하는 것이 일반적이며, 경우에 따라서는 다른 분포(예: Gamma)로 가정하기도 하고, GLMM에서은 이러한 LMM을 GLM으로 확정한 것이기 때문에 종속변수의 분포를, Exponential Family로 확장합니다.
3.2. LMM 수학적 표현 및 추정
GLMM을 이해하기 위해서는 먼저 선형혼합모형(LMM; Linear Mixed Model)을 확실하게 이해할 필요가 있습니다. (이 LMM과 GLMM을 완벽하게 이전처럼 분석하려면 내용이 산만해지기 때문에 여기선 중요한 점을 위주로 짚고, 추가적인 공부가 필요하신 분들은 위키피디아에서 비롯되는 교재 및 논문 내용들을 집중적으로 살펴보시면 좋을 것 같습니다.) LMM은 종속변수
LMM 수학적 표현
가장 단순한 형태의 LMM(임의절편 모형, random intercept model)을 생각해 보겠습니다. (이때 LMM에서 모형을 나누는 기준은 random effect, 즉 group을 어느 정도로 복잡하게 고려하는 지에 따른 설계의 차이입니다. random effect의 분포, 차원 등을 다양하게 고려할 수 있겠지요.) 예를 들어,
이때
추가적으로, 무작위 효과
이는 “(피험자마다) 임의로 달라지는 절편(intercept)”이 정규분포를 따른다는 것을 의미합니다. 모든
결국, 어떤
이고,
이먀, 더 일반화 된 모델로 무작위 절편 + 무작위 기울기(random intercept + random slope)를 도입하여 독립변수
가 될 것입니다. 이처럼 무작위 효과를 하나 혹은 여러 개 갖는다는 것은, “클러스터마다 고유하게 발생하는 변동”을 모델에 포함하는 방식으로, LMM은 이러한 방식로 상관구조를 모델링 해낸다고 생각할 수 있습니다. 이를 벡터와 행렬 형태로 표현해보면, 각 클러스터(또는 피험자)
-
: 번째 클러스터에서의 차원 응답벡터 -
: 차원의 고정 효과 설계 행렬(fixed effect parameter 와 매칭) -
: 차원의 무작위 효과 설계 행렬(random effect parameter 와 매칭) -
이며 는 공분산 행렬 -
로 일반적으로 가정(독립 동일 분포)
여기서 설계 행렬이란, 1장의 LM에서부터 사용하였지만, data point(observation)당 미리 input으로 지정되는 행렬로, 정확한 의미는 “일련의 개체에 대한 설명 변수 값을 나열한 행렬로 각 행은 개별 개체를 나타내며, 열은 해당 개체에 대한 변수 및 특정 값에 해당한다”입니다. X는 계속 봐왔지만 Z는 이번에 처음 나온 설계 행렬인데, 이는 각 data point마다 해당되는 cluster에는 1, 해당되지 않는 나머지 cluster는 0의 값을 갖는, cluster를 선택하는 스위치 느낌으로, input으로 정해지는 행렬이라고 생각하시면 됩니다.
이 LMM의 (Co) variance matrix는 단순하게 분산 term을 씌우면 random한 (determinant하지 않은) 항만 남아 다음과 같이 계산 될 것입니다:
LMM’s parameter 추정(Maximum Likelihood, REML)
이 LMM에서
(1) With ML(MLE).
입니다. 이제
이를 전체
MLE(
(2) With REML.
이는 ML를 직접 바로 계산하는 대신, 고정 효과
이고, 이때
이를 통해 얻은 lme4
패키지 등에서 이 과정을 내부적으로 수행합니다.
3.3. GLMM의 수학적 표현 및 추정
이제 LMM에서 정규 오차항을 일반화하여, 종속변수가 이항, 포아송, 혹은 다른 지수분포족을 따를 수 있도록 확장하면, GLMM으로 이어집니다. GLMM은
의 구조입니다. 직관적으로도 GLMM은 LMM+GLM임을 볼 수 있고, 당연히
이때, 위 식의 likelihood는
로 쓸 수 있으며,
가 최종적으로 cluster
모든
입니다. 문제는
GLMM’s parameter 추정(Marginal Likelihood & Approximation)
다시 한 번 언급하자면 문제는
Laplace Approximation
주변에서 2차 근사를 수행하여 적분을 근사화하는 방법입니다. 한 번(1차) 또는 고차(AGQ, Adaptive Gauss-Hermite Quadrature) 버전으로 더 정확하게 시도할 수 있습니다.Gauss-Hermite Quadrature
적분을 수치적(Numerical)으로 가까운 근사값으로 계산합니다. 무작위 효과 차원이 높아질수록 계산량이 기하급수적으로 늘어날 수 있으므로, 실무에서는 차원이 작은 랜덤 효과 구조(예: 랜덤 인터셉트만)에서 자주 사용합니다.Penalized Quasi-Likelihood (PQL)
고전적으로 제안된 근사 기법으로, GLM의 IRLS 절차를 변형하여 무작위효과를 순차적으로 추정합니다. 데이터가 크거나, 근사 정밀도가 크게 중요하지 않은 상황에서 가볍게 쓰일 수 있습니다.
최종적으로, (1) 적분으로 정의된 marginal likelihood를 (2) 수치적 근사화를 통해 (3) 최적화(예: Newton-Raphson, EM 등)하여,
GLMM vs. GEE
이 data간 상관관계를 고려하기 위해 개발된 두 모델을 짧게 정리해보면, GEE는 “Population-Average” 접근으로 군집 내 상관을 working correlation 방식으로 모델링하며, 완전한 joint PDF를 명시하지 않고 Quasi-likelihood처럼 추정하는 기법이었고, GLMM은 “Subject-Specific” 접근으로 군집/클러스터 효과를 무작위 효과로 모델링하여 종속변수를 (조건부) Exponential Family distribution으로 가정하고, 이 likelihood를 marginal하게 적분함으로써 추정합니다.
3.4. GLMM parameter’s Variance
마지막으로, GLMM에서의 추정된 파라미터(고정 효과
여기서
random effect의 분산-공분산 행렬
4. R 코드 예제: GEE, GLMM
아래 R 코드를 복사하여 로컬 환경에서 돌려보세요.
마무리하며
이번 장에서는 M-estimation 개념부터 시작하여, GLM이 어떻게 “estimating equation”의 한 사례로 해석되는지, GEE가 GLM을 확장하여 상관구조를 모델링하고, robust 분산을 제공함으로써 군집/반복측정 데이터를 다루는 과정을, GLMM이 임의효과를 통해 계층적 구조를 명시적으로 모델링하는 방식을 자세히 살펴보았습니다. 그리고 샌드위치 추정량(robust variance) 형태가 M-estimation의 일반 이론에서 비롯된다는 점도 수식과 함께 설명했습니다.
정리하자면, M-estimation은 MLE, OLS, GEE, GLMM 모두를 포괄하는 추정 이론적 틀로서, 샌드위치 분산은 그 점근 정규성(Asymptotic Normality)의 결과물이며, GEE는 marginal mean에 주목하고 robust한 표준오차를 산출해주는 반면, GLMM은 임의효과를 통해 개체별(군집별) 차이를 직접 모델링합니다. 실제 데이터 분석에서는 연구 목적(개체별 효과 추정 vs 전체 평균 효과 추정), 데이터 특성(정확한 상관 구조 가정 vs 모형 가정의 유연성) 등을 종합하여 GEE와 GLMM 중 적절한 접근을 택하거나 비교하는 것이 중요합니다. 사실 Regression Model에는 이번 블로그 “Exploring Regression Models for Regression Analysis”에서 다룬 모델들을 제외하고도 아주 다양한 철학과 수식을 가진 모델들이 있습니다. 다만 여기서는 의학 분석에서 자주 사용되는 모델을 다루었으며, 이를 어느 정도 이해하셨다면 이외의 모델을 이해하는 데에 부족함이 없을 것이라고 생각합니다.
Reuse
Citation
@online{seungjun2025,
author = {Seungjun, Lee},
title = {Exploring {Regression} {Models} for {Regression} {Analysis}
(3): {GEE,} {GLMM,} {M-statistics,} {Robust} (Sandwich) Estimation},
date = {2025-02-28},
url = {https://blog.zarathu.com/posts/2025-02-28-reg3/},
langid = {en}
}