작년 Q4, 한 이커머스 팀의 실험 로그를 넘겨받았다. A/B 테스트 7건을 돌렸는데 전부 "유의미한 차이 없음"으로 종료. 평균 테스트 기간 3.5일, 평균 샘플 280명. 팀의 결론은 "우리 제품은 이미 충분히 최적화돼 있다"였다. 틀렸다. 테스트 설계 자체가 망가져 있었을 뿐이다.

95% 유의수준을 "아는 것"과 "지키는 것"

p-value 0.05 미만이면 유의미하다 — 마케팅 부트캠프 1주차에 배우는 내용이다. 문제는 이 숫자의 의미를 정확히 이해하는 사람이 거의 없다는 것.

95% 유의수준은 "이 결과가 우연일 확률이 5% 이하"라는 뜻이 아니다. 정확히는 "귀무가설이 참인 상황에서 이 정도 극단적인 결과가 관측될 확률이 5% 이하"다. 미묘한 차이로 보이지만, 실무에서 이 오해가 만드는 문제가 크다.

300명 샘플에서 나온 p-value 0.04와 10,000명 샘플에서 나온 0.04는 완전히 다른 이야기를 한다. 전자는 효과 크기(effect size) 추정이 심하게 흔들린다. 신뢰구간이 -2%에서 +15%까지 펼쳐져 있는데 점 추정치가 6%라고 "전환율 6% 개선"이라고 보고하는 건 위험하다. 이걸 근거로 랜딩 페이지를 교체하면, 데이터 기반 의사결정이 아니라 동전 던지기다.

실무 기준선은 명확하다. 95% 유의수준, 그룹당 최소 1,000명 노출, 최소 2주 운영. 이 세 조건 중 하나라도 빠지면 그 결과는 신뢰할 수 없다. 테스트 전에 MDE(Minimum Detectable Effect)를 설정하고 필요 샘플 수를 사전에 계산하는 것도 기본이다. 대부분의 A/B 테스트 플랫폼에 샘플 사이즈 계산기가 내장돼 있는데, 실제로 쓰는 팀을 본 적이 별로 없다.

버튼 색깔 말고 헤드라인을 테스트하라

테스트를 제대로 세팅했다고 치자. 그다음 문제는 뭘 테스트하느냐다.

올해 초 Calywire가 공개한 SaaS 홈페이지 헤드라인 A/B 테스트 기준표에 따르면, 베네핏 중심 헤드라인이 기능 설명형 대비 평균 60% 이상 높은 전환율을 기록했다. "통합 데이터 분석 플랫폼"이라고 쓴 것 vs "매출 예측 정확도 40% 향상" — 후자가 압도한다.

그런데 현실에서 가장 많이 돌아가는 실험은? CTA 버튼 색깔, 폼 필드 순서, 이미지 교체. 임팩트가 가장 낮은 변수에 실험 슬롯을 낭비하고 있다. ICE 프레임워크(Impact, Confidence, Ease)로 우선순위를 매기면 헤드라인과 가치 제안(value proposition)이 항상 상위에 온다. 변경 난이도는 낮은데 전환율에 미치는 영향은 가장 크다. 가성비로 따지면 헤드라인 테스트가 압도적 1순위다.

노벨티 효과라는 시한폭탄

B안이 이겼다. 전환율 12% 상승. 삼겹살 사 먹자 — 잠깐, 4주 뒤에 다시 확인하고 나서.

노벨티 효과(Novelty Effect)는 새로운 UI나 카피에 사용자가 일시적으로 반응하는 현상이다. 리뉴얼 직후 클릭률이 올랐다가 3주 후 원래 수준으로 돌아온 경험, 대부분 한 번쯤 있을 거다. 기존 사용자 비율이 높은 서비스일수록 이 효과가 세다.

방지법은 두 가지뿐이다. 첫째, 테스트를 최소 4주까지 연장해서 노벨티가 소멸한 후의 데이터도 수집한다. 둘째, 신규 유저와 기존 유저를 세그먼트로 쪼개서 각각의 전환율 변화를 비교한다. 기존 유저에서만 리프트가 나타나고 신규 유저에서는 차이가 없으면, 그건 개선이 아니라 노벨티다. 이 구분 없이 "전체 평균 전환율 상승"으로 보고하면 몇 주 뒤에 숫자가 원위치되면서 멘탈도 같이 원위치된다.

자기 팀 진단표

패턴 왜 문제인가 대안
3-5일 만에 종료 통계적 검정력 부족 최소 2주, 가능하면 4주
샘플 300명 이하 효과 크기 추정 불안정 그룹당 1,000명, 사전 샘플 계산
버튼 색깔만 테스트 낮은 임팩트 변수에 시간 낭비 헤드라인·가치 제안부터
전체 유저 한 덩어리 분석 노벨티 효과 감지 불가 신규/기존 세그먼트 분리
p-value만 확인 효과 크기·신뢰구간 무시 MDE 사전 설정 + 신뢰구간 보고

여기서 두 가지 이상 해당되면 과거 테스트 결과를 재검증해야 한다. "유의미하지 않음"으로 버린 실험에 진짜 기회가 묻혀 있을 수 있고, "유의미함"으로 적용한 변경이 노이즈였을 수도 있다. 어느 쪽이든 지금 운영 중인 페이지가 최적이라는 보장은 없다.