Sample Size Estimation in MRMC

RJafroc Package를 통해 Multi-Reader Multi-Case(이하 MRMC) 연구에서 표본 크기를 추정하는 방법에 대해 알아보자.

R
statistics
rpackage
RJafroc
Author
Published

February 14, 2025

Introduction

1. Why is Sample Size Estimation Important?

의료 영상 분석에서 새로운 영상 장비의 도입이 기존 방법보다 우수한지 평가하는 것은 매우 중요한 과정이다. 이를 위해 흔히 사용되는 연구 디자인이 MRMC 연구이며, 이는 여러 명의 판독자가 여러 증례를 평가하는 방식으로 진행된다. 이러한 MRMC 연구에서의 가장 큰 고민 중 하나는 “몇 명의 판독자와 몇 개의 증례가 필요한가?” 하는 문제이다.
즉, 연구의 신뢰성을 확보하면서도 불필요한 비용과 시간을 줄이기 위해 표본 크기를 적절하게 설정하는 것이 매우 중요하다.

2. MRMC 연구에서 표본 크기 추정의 핵심 개념

MRMC 연구에서는 판독자증례를 두 가지 주요 요소로 고려해야 한다.
일반적으로 판독자가 많아질수록 데이터의 변동성이 줄어들고 연구의 신뢰성이 높아지지만, 판독자의 시간과 연구 비용을 고려해야 한다. 마찬가지로 증례 수가 많을수록 통계적 검정력이 향상되지만, 데이터 수집 및 분석 비용이 증가하게 된다.

또한, MRMC 연구에서는 다음과 같은 요소들이 표본 크기 결정에 영향을 미친다.

  1. 효과 크기(Effect Size, \(d\))
    • 비교하고자 하는 두 판독 조건 간의 차이
    • 연구 설계에서 “임상적으로 의미 있는 차이”를 미리 정의하는 것이 중요
  2. 검정력(Statistical Power, \(1 - \beta\))
    • 실제로 차이가 있을 때 이를 검출할 확률
    • 일반적으로 80% 이상을 목표로 설정
  3. 유의수준(Significance Level, \(\alpha\))
    • Type I 오류의 허용 범위
    • 보통 5%로 설정
  4. 분산 성분(Variance Components)
    • 판독자 간 변동성, 증례 간 변동성, 판독자와 증례 간 상호작용 등의 변동 요인을 반영

3. MRMC 연구에서의 성능 평가

의료 영상 분석에서는 병변의 유무를 파악하는 것이 중요하다.
그 성능을 평가하는 대표적인 방법으로는 ROC(Receiver Operating Characteristic) 분석이 있는데, 이는 병변의 단순 유무를 파악하는 데 사용된다.
그러나 영상 판독 연구에서는 단순히 병변의 유무뿐만 아니라 병변의 위치(Localization)까지 고려하는 것이 중요하다.
이때 FROC(Free-Response ROC) 분석이 사용된다.

FROC 분석을 활용한 MRMC 연구에서는 판독자가 병변의 위치까지도 설정하도록 하여,
병변 탐지(Detection)뿐만 아니라 위치 정확도(Localization Accuracy)도 평가된다.
권장되는 평가 지표로는 가중 AFROC(Weighted AFROC, wAFROC) 가 있으며,
모든 병변은 동일한 가중치를 갖는 것이 일반적이다(특정 임상적인 이유가 있다면 병변마다 다른 가중치를 부여할 수 있음).


Statistical Framework for Sample Size Estimation

1. Hypothesis Testing in MRMC Studies

MRMC 연구에서 새로운 영상 기술(또는 판독 조건)이 기존 방법보다 우수한지 검증하려면 통계적 검정을 수행해야 한다.
이를 위해 귀무가설(\(H_0\))과 대립가설(\(H_1\))을 설정하고, 효과 크기(Effect Size)를 기반으로 표본 크기를 결정한다.

  • 귀무가설(\(H_0\)): 두 판독 조건(예: 기존 방법 vs. 새로운 방법)의 성능 차이가 없다.
    • 즉, \[\theta_1 = \theta_2\] (ROC-AUC 또는 wAFROC-AUC 값이 동일)
  • 대립가설(\(H_1\)): 두 판독 조건의 성능 차이가 있다.
    • 즉, \[\theta_1 \neq \theta_2\]

2. Observed vs. Anticipated Effect-Size

표본 크기를 결정하려면 두 판독 조건 간의 차이를 수량화한 효과 크기(Effect Size, \(d\))를 추정해야 한다.
이때 관측된 효과 크기(Observed Effect-Size)와 예상 효과 크기(Anticipated Effect-Size)를 구분해야 한다.

관측된 효과 크기(\(d_{\text{obs}}\)):
- 파일럿 연구(Pilot Study)에서 얻은 효과 크기의 추정값
- 작은 표본 크기로 인해 오차가 포함될 가능성이 있음
예상 효과 크기(\(d_{\text{ant}}\)):
- 본 연구(Pivotal Study)의 표본 크기를 결정하기 위해 설정하는 값
- 신뢰구간(Confidence Interval, CI)을 고려하여 설정해야 함

예상 효과 크기를 설정할 때 다음과 같은 접근법이 가능하다.

  1. 신뢰구간의 하한을 사용 (보수적 접근법)
    • Type II 오류를 줄여 검정력을 확보 가능
    • 그러나 불필요하게 많은 판독자 및 증례가 필요할 수 있음
  2. 신뢰구간의 중앙값을 사용 (균형적 접근법)
    • 너무 보수적이지 않으면서도 무리한 연구 설계를 방지 가능
  3. 관측된 효과 크기 그대로 사용 (위험 부담 있음)
    • 파일럿 연구 표본이 작으면 변동성이 크므로 추천되지 않음

3. Variance Components and Their Impact on Power

MRMC 연구에서 표본 크기를 결정할 때, 효과 크기(Effect Size)뿐만 아니라 분산 성분(Variance Components)이 통계적 검정력(Statistical Power)에 미치는 영향을 고려해야 한다.
분산 성분은 판독자 간 변동성(Reader Variability), 증례 간 변동성(Case Variability), 판독자-처치 간 변동성(Treatment-Reader Interaction Variability) 등을 반영하며, 연구 설계에서 중요한 요소이다.

3.1. 통계적 검정력(Statistical Power)과 분산 성분의 관계

MRMC 연구에서 검정력은 효과 크기(\(d\))와 분산 성분의 함수로 결정된다. 통계적 검정력은 비중심 모수(Non-centrality Parameter, \(\lambda\)) 에 의해 결정되며, 다음과 같은 조건에서 검정력이 증가한다.

검정력은 다음과 같은 확률로 정의된다.

\[ \text{Power} = P\left(F > F_{\alpha, \text{ndf}, \text{ddf}} \mid \lambda \right) \]

여기서,
- \(F\) : 검정 통계량 (F-statistic)
- \(F_{\alpha, \text{ndf}, \text{ddf}}\) : 유의수준 \(\alpha\)에서의 F-분포 임계값 (분자 자유도 \(\text{ndf}\), 분모 자유도 \(\text{ddf}\))
- \(\lambda\) : 비중심 모수(Non-centrality Parameter)

비중심 모수 \(\lambda\) 는 다음과 같이 정의된다.

\[ \lambda = \frac{J K d^2}{\sigma^2_{\text{total}}} \]

여기서,
- \(J\) : 판독자 수(Readers)
- \(K\) : 증례 수(Cases)
- \(d\) : 효과 크기(Effect Size)
- \(\sigma^2_{\text{total}}\) : 총 분산 성분 (전체 변동성)

3.2. 분산 성분이 검정력에 미치는 영향

(1) 분자가 클 경우 → 검정력 증가

  1. 예상 효과 크기(Anticipated Effect-Size, \(d_{\text{ant}}\))가 클 경우
    • 효과 크기가 클수록 귀무가설(\(H_0\))을 기각할 가능성이 높아진다.
  2. 판독자 수(\(J\)) 또는 증례 수(\(K\))가 클 경우
    • 판독자(\(J\)) 또는 증례(\(K\))가 많을수록 추정값의 변동성이 감소하여 통계적 검정력이 증가한다.
    • 이는 큰 표본 크기가 귀무가설 기각 확률을 증가시키는 일반적인 원리와 동일하다.

(2) 분모가 작을 경우 → 검정력 증가

통계적 검정력의 분모는 다음과 같이 구성된다.

\[ \sigma^2_{\epsilon} + \sigma^2_{\tau RC} + K\sigma^2_{\tau R} + J\sigma^2_{\tau C} \]

이때, 각 분산 성분이 작아질수록 검정력이 증가한다.

  1. 잔차 변동성(\(\sigma^2_{\epsilon} + \sigma^2_{\tau RC}\)) 감소 → 검정력 증가

    • 이 두 항은 Jackknife Pseudovalues의 잔차 변동성을 나타낸다.
    • 잔차 변동성이 작을수록 비중심 모수(Non-centrality Parameter, \(\lambda\))가 증가하여 검정력이 증가한다.
  2. 처치-판독자 변동성(\(\sigma^2_{\tau R}\)) 감소 → 검정력 증가
    ※ 처치 : 비교하고자하는 판독 조건을 의미;의료 영상 분석의 예시에서는 기존 방식과 AI 보조 영상 판독가 될 수 있음

    • 판독자 자체의 변동성(\(\sigma^2_R\))은 모든 처치 조건에서 동일한 영향을 미치므로 검정력에 영향을 주지 않는다.
    • 처치-판독자(Treatment-Reader) 분산 성분(\(\sigma^2_{\tau R}\))은 노이즈로 작용하여 효과 크기 추정을 방해하고 검정력을 감소시킨다.
    • 따라서 이 값이 작을수록 표본 크기 추정의 정확도가 높아진다.
  3. 처치-증례 변동성(\(\sigma^2_{\tau C}\)) 감소 → 검정력 증가

    • 증례 자체의 변동성(\(\sigma^2_C\))은 모든 처치 조건에서 동일한 영향을 미치므로 검정력에 영향을 주지 않는다.
    • 그러나 처치-증례 변동성(\(\sigma^2_{\tau C}\))은 효과 크기 추정치에 노이즈를 추가하여 검정력을 감소시킨다.
    • 이 항은 판독자 수(\(J\))와 곱해지므로, 보통의 \(J \ll K\)인 연구에서는 그 영향이 크지 않다.

📌 **즉, MRMC 연구 설계에서 표본 크기를 결정할 때, 단순히 숫자를 늘리는 것이 아니라, 이러한 분산 성분을 고려해야 한다.


Sample Size Estimation for ROC Studies

MRMC 연구에서 ROC(Receiver Operating Characteristic) 분석을 기반으로 한 샘플 크기 추정은 연구 설계에서 필수적인 단계이다.
특히, 필요한 판독자 수(\(J\))와 증례 수(\(K\)) 조합별 검정력 변화를 분석하는 것이 중요하다.

1. Using Pilot Studies

파일럿 연구(Pilot Study)는 본 연구에서 필요한 효과 크기(\(d_{\text{obs}}\)) 및 분산 성분을 추정하는 역할을 한다. - 파일럿 연구에서 얻은 정보는 RJafroc 패키지의 SsSampleSizeKGiven() 함수를 활용해 표본 크기를 결정하는 데 사용된다.

2. Sample Size Estimation Using RJafroc

2.1. 함수 개요

# SsSampleSizeKGivenJ()
# SsSampleSizeKGivenJ(dataset, FOM, J, effectSize, method, analysisOption)
  • dataset : Pilot Data
  • FOM : 평가 지표 (“ROC-AUC” in ROC Studies)
  • J : 판독자 수
  • K : 증례 수
  • effectSize : 효과 크기 (파일럿 연구에서 추정)
  • method : 분석 방법 (“DBM” 또는 “OR”)
  • analysisOption : 분산 분석 Option (“RRRC”, “FRRC”, “RRFC”)

2.2. 실제 예제

일반적인 연구 설계에선 판독자수는 제한된 자원으로 인해 고정되거나, 대략적인 좁은 범위에서 결정되는 경우가 많다.

이에 특정 판독자 수에서 검정력을 만족하는 최소한의 증례 수를 찾는 것이 일반적이고, RJafroc의 SsSampleSizeKGivenJ 함수도 그러하다.

본 예시 코드에서는 판독자수가 6~13명 정도의 범위일때, 검정력이 80% 이상이 되는 최소한의 \(K\) 값을 찾는다.

library(RJafroc)

pilot_data <- dataset02  # 예제 데이터셋 사용


target_power <- 0.8 # 목표 검정력 
J_vals <- 6:13 # 판독자 수 범위 지정 
optimal_K_results <- data.frame(J = integer(), K = integer(), Power = numeric())  

# 목표 검정력을 만족하는 최소 K(증례수) 도출 
for (J in J_vals) {
  ret <- SsSampleSizeKGivenJ(
    dataset = pilot_data,
    FOM = "Wilcoxon",
    J = J,
    analysisOption = "RRRC",
    alpha = 0.05,
    desiredPower = target_power
  )
  optimal_K_results <- rbind(optimal_K_results, 
                             data.frame(J = J, K = ret$K, Power = signif(ret$powerRRRC, 3)))
}

rmarkdown::paged_table(optimal_K_results)
  • 위 코드를 실행하면 판독자가 많아짐에 따라 같은 효과 크기에서도 더 작은 증례수로 목표 검정력을 확보할 수 있음을 확인 가능하다.
  • SsSampleSizeKGivenJ() 함수를 이용하면 파일럿 연구에서 추정된 효과 크기와 목표 검정력을 바탕으로 MRMC 연구의 판독자수에 따른 적절한 증례 수를 합리적으로 결정할 수 있게 된다.

Sample Size Estimation for FROC Studies

FROC 연구에서는 ROC 연구에서 활용했던 effect size를 그대로 사용할 수 없다. 따라서 ROC 연구에서의 effect size를 변환해주는 과정이 필요하다.

1. FROC와 ROC 연구의 차이점

FROC 연구에서 효과 크기 변환이 필요한 이유를 이해하려면, ROC와 wAFROC의 차이를 먼저 살펴보아야 한다.

ROC 연구의 특징

  • 판독자가 병변이 있는지(Yes/No)만 결정 → 위치 정보는 고려되지 않음
  • 성능 평가 지표: ROC-AUC (0.5 ~ 1)
    • 무작위 성능 ≈ 0.5 (랜덤으로 판별할 경우)
    • 완벽한 성능 ≈ 1

FROC 연구의 특징

  • 판독자가 병변이 있는 위치까지 특정해야 함 → 탐지뿐만 아니라 위치 정확도(Localization Accuracy)도 고려됨
  • 성능 평가 지표: wAFROC-AUC (0 ~ 1)
    • 무작위 성능 ≈ 0 (무작위로 위치를 선택하면 병변을 정확히 찾을 확률이 0에 가까움)
    • 완벽한 성능 ≈ 1

ROC-AUC는 0.5 ~ 1 범위에서 변화하는 반면, wAFROC-AUC는 0 ~ 1 범위에서 변화한다.
따라서 판독 능력의 차이가 비슷하더라도, 수치적인 AUC 차이는 서로 다르게 나타날 수 있다.
따라서 ROC 연구에서 정의한 효과 크기를 FROC 연구에서 적용하려면 변환 과정이 필요하다.


2. 변환을 위한 RSM(Radiological Search Model) 적용

FROC 연구에서 ROC 효과 크기를 wAFROC 효과 크기로 변환하려면
Radiological Search Model (RSM)을 활용해야 한다.

RSM 모델의 핵심 개념

RSM 모델은 판독자의 탐색(Search)과 의사결정(Decision Making) 과정을 모델링하며,
이를 위해 3가지 주요 매개변수를 사용한다.

  • μ (mu): 병변과 비병변 간의 신호 대비 (Signal-to-Noise Ratio, SNR)
    • ROC에서 병변을 감지하는 능력(Detection Ability)을 나타냄
    • 값이 클수록 병변과 비병변을 더 잘 구별할 수 있음
  • λ (lambda): 비병변을 오탐(False Positive)할 가능성
    • 값이 클수록 판독자가 비병변(non-lesion)을 병변으로 잘못 판단할 확률이 증가
  • ν (nu): 실제 병변을 정확히 찾는 확률 (Localization Accuracy)
    • 값이 클수록 판독자가 병변을 정확한 위치에 마킹할 가능성이 증가

3. 변환 과정

변환 계수(Scaling Factor) 계산

변환 계수는 ROC 효과 크기(\(\Delta\)ROC-AUC)를 FROC 효과 크기(\(\Delta\)wAFROC-AUC)로 변환하기 위한 비율이며, 다음 절차를 통해 도출된다.


1. 파일럿 데이터에서 RSM 모델 적합(fitting) 및 AUC 계산

✔ 파일럿 데이터에서 RSM 모델을 적합(fit)하여 ROC-AUC 및 wAFROC-AUC 값을 도출한다.
✔ 이를 통해 현재의 \(\mu\), \(\lambda\), \(\nu\) 값을 얻는다.


2. \(\mu\)를 단계적으로 증가시키면서 ROC-AUC와 wAFROC-AUC 변화를 측정

모델의 탐지 능력이 향상된다고 가정하고 \(\mu\) 값을 일정한 간격(예: \(\Delta \mu = 0.01\))으로 증가시킨다.
\(\mu\)가 증가함에 따라 ROC-AUC와 wAFROC-AUC도 증가하게 된다.
✔ 그러나 \(\lambda\)\(\nu\)\(\mu\)와 상관성이 있기 때문에, \(\mu\)만 단순 증가시키면 변환이 정확하지 않다.
✔ 이를 해결하기 위해, 내재적 파라미터 변환을 적용하여 \(\lambda\)\(\nu\)도 함께 변화하도록 조정한다.


3. 내재적 파라미터 변환 (Util2Intrinsic() 사용)

\(\mu\) 값이 변화하면 \(\lambda\)\(\nu\)도 함께 조정되어야 하는데, 직접적으로 조정하기 어렵다.
✔ 따라서 물리적(Physical) 파라미터 (\(\mu, \lambda, \nu\))를 내재적(Intrinsic) 파라미터 (\(\lambda_i, \nu_i\))로 변환한다.

\[ \lambda_i = \lambda \times \mu \]

\[ \nu_i = -\log(1 - \nu) / \mu \]

✔ 변환 후, \(\mu\)를 증가시키면서도 \(\lambda\)\(\nu\)를 올바르게 유지할 수 있는 상태가 된다.


4. 각 단계에서 ROC-AUC 변화량 (\(\Delta\)ROC-AUC)과 wAFROC-AUC 변화량 (\(\Delta\)wAFROC-AUC) 비교

\(\mu\) 값을 증가시킨 후, 해당하는 새로운 ROC-AUC와 wAFROC-AUC를 계산한다.
✔ 그러나 이 상태에서는 여전히 기존 \(\lambda\)\(\nu\)를 사용하고 있으므로, 이를 새로운 \(\mu\) 값에 맞게 변환해야 한다.

내재적 → 물리적 변환 (Util2Physical() 사용)

✔ 증가된 \(\mu\) 값(\(\mu_{\text{new}}\))에 대해 내재적 파라미터를 다시 물리적 파라미터로 변환하여 \(\lambda\)\(\nu\)를 조정한다.

\[ \lambda = \frac{\lambda_i}{\mu_{\text{new}}} \]

\[ \nu = 1 - \exp(-\nu_i \times \mu_{\text{new}}) \]

✔ 즉, 새로운 \(\mu\) 값에서 RSM 모델을 다시 적합하여, 해당하는 ROC-AUC 및 wAFROC-AUC를 구한다.
✔ 이를 반복 수행하여 \(\Delta\)ROC-AUC과 \(\Delta\)wAFROC-AUC을 측정한다.


5. 선형 회귀를 통해 변환 계수(Scaling Factor) 결정

✔ 여러 번의 \(\mu\) 증가 단계에 대해 \(\Delta\)ROC-AUC(독립 변수)와 \(\Delta\)wAFROC-AUC(종속 변수) 사이의 관계를 분석한다.
✔ 이를 선형 회귀(linear regression)를 사용하여 분석하면 변환 계수(Scaling Factor)를 구할 수 있다.

✔ 선형 회귀 분석에서 \(\Delta\)ROC-AUC를 독립 변수, \(\Delta\)wAFROC-AUC를 종속 변수로 설정하면 기울기(Slope)가 변환 계수가 된다.

위 과정을 통해 ROC 연구에서의 효과 크기를 FROC 연구에서 사용할 수 있도록 변환할 수 있다.


4. 변환 후 표본 크기 추정

변환 계수를 적용하고 나면, ROC 연구와 동일한 방법으로 FROC 연구에서 필요한 표본 크기를 계산할 수 있다.

  1. ROC 연구에서 정의한 효과 크기(ΔROC-AUC)를 변환하여 wAFROC 효과 크기(ΔwAFROC-AUC)로 변환

  2. 변환된 wAFROC 효과 크기를 기반으로, SsSampleSizeKGivenJ() 함수를 이용하여 샘플 크기 계산


Conclusion

이번 글에서는 MRMC 연구에서 표본 크기 추정의 중요성과 그 방법론을 살펴보았다.

파일럿 데이터를 통해 추정한 효과 크기와 분산 성분을 바탕으로, RJafroc 패키지의 기능을 활용하여 적절한 증례 수를 산출하는 과정을 살펴보았으며,
ROC 연구에서 도출된 효과 크기를 FROC 연구에 맞게 변환하는 RSM 모델 기반의 접근법도 소개하였다.

결론적으로, MRMC 연구에서 체계적인 표본 크기 추정은 연구의 신뢰성을 높이고, 임상 환경에 맞는 효율적인 연구 설계를 가능하게 한다.

Reference

https://cran.r-project.org/web/packages/RJafroc/RJafroc.pdf
https://dpc10ster.github.io/RJafrocBook/

Reuse

Citation

BibTeX citation:
@online{chu2025,
  author = {CHU, Junsik},
  title = {Sample {Size} {Estimation} in {MRMC}},
  date = {2025-02-14},
  url = {https://blog.zarathu.com/posts/2025-02-14-Sample Size Estimation in MRMC/},
  langid = {en}
}
For attribution, please cite this work as:
CHU, Junsik. 2025. “Sample Size Estimation in MRMC.” February 14, 2025. https://blog.zarathu.com/posts/2025-02-14-Sample Size Estimation in MRMC/.