A/B 테스트

"오늘의AI위키"는 AI 기술로 일관성 있고 체계적인 최신 지식을 제공하는 혁신 플랫폼입니다.
"오늘의AI위키"의 AI를 통해 더욱 풍부하고 폭넓은 지식 경험을 누리세요.

1. 개요

A/B 테스트는 두 가지 이상의 대안을 비교하여 더 나은 성과를 내는 쪽을 판단하는 방법이다. 웹사이트, 애플리케이션, 광고 등 다양한 분야에서 사용자 인터페이스, 디자인, 콘텐츠 등을 테스트하는 데 활용되며, 통계적 가설 검정을 기반으로 한다. A/B 테스트는 역사적으로 광고, 마케팅 분야에서 발전해왔으며, 오늘날에는 주요 소프트웨어 회사에서 널리 사용된다. 웹사이트 및 애플리케이션, 전자 상거래, 온라인 광고, 이메일 마케팅, 제품 개발, 정책 결정, 정치 캠페인 등 다양한 분야에서 활용되며, 세분화(segmentation)와 타겟팅을 통해 더욱 효과적인 결과를 얻을 수 있다. A/B 테스트는 사용자의 선호도를 파악하는 데 유용하지만, 분산에 민감하고, 비즈니스에 부정적인 영향을 미칠 위험이 있다.

A/B 테스트
📚 더 읽어볼만한 페이지
  • 실험 - 무작위 대조 시험
  • 실험 - 겸자
    겸자는 조직을 잡거나 지혈하는 외과 수술 도구로, 다양한 종류가 개발되어 사용되고 있으며, 최근에는 손상 방지 기능을 갖춘 겸자들이 개발되어 외과 수술 발전에 기여하고 있다.
  • 시장 조사 - 세계에서 가장 살기 좋은 도시
  • 시장 조사 - 쿨헌팅
  • 소프트웨어 테스트 - 보안 취약점
    보안 취약점은 시스템의 설계, 구현, 운영, 관리상 결함이나 약점으로, 위협에 의해 악용되어 시스템 보안 정책을 위반할 수 있는 요소이며, ISO 27005, IETF RFC 4949, NIST SP 800-30, ENISA 등 다양한 기관에서 정의하고 있다.
  • 소프트웨어 테스트 - 스트레스 테스트

2. 정의

"A/B 테스트"는 좁은 의미에서 가설 검정을 뜻하는 속어로 사용된다. 하지만 넓은 의미의 A/B 테스트는 인터넷 마케팅에서 특정 정책의 효과를 판단하기 위해 두 가지 정책을 비교 검토하는 행위 전반을 의미한다. 이때, 기준 없이 단순히 A와 B를 만들어 비교하는 것이 아니라, 통제 그룹(기존 방식)테스트 그룹(새로운 방식)을 비교하여 새로운 방식의 효과를 검증하는 것이 핵심이다.

영문 위키백과의 A/B 테스트 해설A/B_testing영어에는 "AB testing is a term for a controlled experiment"라는 설명이 있다. 즉, A/B 테스트는 통제 그룹에 대해 테스트 그룹을 적용하여 비교하는 것이 본래의 목적이다. 통제 그룹이라는 "기준"이 없으면, 계절 변동 등 외부 요인의 영향을 제대로 판단할 수 없어 과학적인 분석이 어렵다. 테스트 대상 외의 영향을 최소화하려면 통제 그룹의 개념이 반드시 필요하다.

예를 들어, '소켄비차' 사례에서 "소켄비차(지금까지의 맛)"는 통제 그룹이고, "소켄비차 산뜻한 블렌드(새로운 맛)"는 테스트 그룹이다. A와 B, 두 종류의 새로운 소켄비차를 처음부터 만들어 어느 쪽이 좋은지 테스트한 것이 아니다.

2,000명의 고객 데이터베이스를 가진 한 회사가 웹사이트를 통해 판매를 촉진하기 위해 할인 코드가 포함된 이메일 캠페인을 진행한다고 가정해 보자. 회사는 서로 다른 행동 유도(구매를 유도하는 문구)와 프로모션 코드를 식별하는 두 가지 버전의 이메일을 만든다.

* 1,000명에게는 "이번 주 토요일에 종료됩니다! 코드 A1 사용"이라는 행동 유도가 포함된 이메일을 보낸다.
* 나머지 1,000명에게는 "곧 종료됩니다! 코드 B1 사용"이라는 행동 유도가 포함된 이메일을 보낸다.
* 이메일의 다른 모든 요소와 레이아웃은 동일하다.

그런 다음 회사는 프로모션 코드 사용을 분석하여 어떤 캠페인이 더 높은 성공률을 보이는지 확인한다. 코드 A1을 사용하는 이메일은 5%의 응답률을 보였고(이메일을 받은 1,000명 중 50명이 제품을 구매하기 위해 코드를 사용), 코드 B1을 사용하는 이메일은 3%의 응답률을 보였다(수신자 중 30명이 제품을 구매하기 위해 코드를 사용). 따라서 회사는 이 경우 첫 번째 행동 유도가 더 효과적이며 향후 판매에 사용할 것이라고 결정한다.

하지만, 만약 테스트의 목표가 어떤 이메일이 더 높은 클릭률을 생성하는지, 즉 이메일을 받은 후 실제로 웹사이트를 클릭하는 사람의 수를 확인하는 것이었다면 결과가 달라졌을 수 있다. 예를 들어, 코드 B1을 받은 고객이 더 많이 웹사이트에 접속했더라도 행동 유도에 프로모션 종료 날짜가 명시되지 않았기 때문에 많은 사람들이 즉시 구매해야 할 긴급함을 느끼지 못할 수 있다. 따라서 테스트의 목적이 단순히 어떤 이메일이 웹사이트로 더 많은 트래픽을 가져올지 확인하는 것이었다면 코드 B1이 포함된 이메일이 더 성공적이었을 수 있다.

A/B 테스트는 판매 건수, 클릭률 전환 혹은 가입/등록자 수와 같이 측정 가능한 정의된 결과를 가져야 한다.

3. 통계적 방법

2-표본 가설 검정은 실험에서 표본이 두 개의 대조군으로 나뉘는 경우 두 표본을 비교하는 데 적합하다. Z-검정은 정규성 및 알려진 표준 편차에 대한 엄격한 조건 하에서 평균을 비교하는 데 적합하다. 스튜던트 t-검정은 가정이 적을 때 완화된 조건 하에서 평균을 비교하는 데 적합하다. 웰치 t-검정은 가장 적은 가정을 하며, 따라서 평균을 최적화해야 하는 2-표본 가설 검정에서 가장 일반적으로 사용되는 검정이다. 최적화할 변수의 평균은 가장 일반적인 추정량 선택이지만, 다른 추정량도 정기적으로 사용된다.

클릭률과 같은 두 개의 이항 분포를 비교하려면 피셔의 정확 검정을 사용한다.

👆
좌우로 밀어서 보기
가정된 분포예시표준 검정대안 검정
가우스사용자당 평균 수익웰치 t-검정 (비쌍체 t-검정)스튜던트 t-검정
이항클릭률피셔의 정확 검정바나드 검정
푸아송유료 사용자당 거래 건수E-검정C-검정
다항구매된 각 제품의 수카이제곱 검정G-검정
알 수 없음만-위트니 U 검정깁스 샘플링

4. 역사

A/B 테스트의 기원은 1835년 동종 요법 약물의 효과를 평가하기 위한 최초의 무작위 이중 맹검 실험으로 거슬러 올라간다. 20세기 초, 광고 개척자 클로드 홉킨스는 프로모션 쿠폰을 사용하여 캠페인의 효과를 테스트했다. 그러나 이 과정은 통계적 유의성귀무 가설과 같은 개념을 포함하지 않았다.

1908년 윌리엄 실리 고셋은 Z-검정을 고쳐 스튜던트 t-검정을 만들었다.

2000년, 구글 엔지니어들은 검색 엔진 결과 페이지에 표시할 최적의 결과 개수를 결정하기 위해 최초의 A/B 테스트를 실행했다. 첫 번째 시험은 로딩 시간이 느린 결함으로 인해 실패했지만, 이후 A/B 테스트 연구는 더욱 발전했다. 2011년 구글은 7,000개 이상의 A/B 테스트를 실행했다.

5. 활용 분야

A/B 테스트는 다양한 분야에서 활용되어 효과를 극대화하고 더 나은 의사 결정을 돕는다. 주요 활용 분야는 다음과 같다.

👆
좌우로 밀어서 보기
분야설명
웹사이트 및 애플리케이션사용자 인터페이스, 디자인, 콘텐츠, 기능 등을 최적화하여 사용자 경험을 개선한다.
온라인 광고광고 문구, 이미지, 타겟팅 등을 테스트하여 광고 효율을 높인다.
이메일 마케팅이메일 제목, 내용, 발송 시간 등을 테스트하여 이메일 오픈율 및 클릭률을 높인다.
전자 상거래상품 페이지 디자인, 결제 프로세스, 프로모션 등을 테스트하여 구매 전환율을 높인다.
제품 개발신제품의 기능, 디자인, 가격 등을 테스트하여 시장 반응을 예측하고 제품을 개선한다.
정책 결정새로운 정책이나 제품 도입 전에 A/B 테스트를 통해 대중의 선호도를 파악하고, 더 나은 결정을 내릴 수 있다. 예를 들어, 일본 코카・콜라는 상쾌미차의 맛을 결정하는 데 A/B 테스트(소켄비차 국민 투표)를 활용했다.
정치 캠페인2008년 버락 오바마 대통령 선거 운동에서 온라인 캠페인 효과를 극대화하기 위해 A/B 테스트를 사용했다.

6. 세분화(segmentation)와 타겟팅

A/B 테스트는 일반적으로 모든 사용자에게 동일한 변형(예: 사용자 인터페이스 요소)을 적용하지만, 경우에 따라서는 특정 사용자 그룹(세그먼트)에 따라 다르게 반응할 수 있다. 즉, 전체적으로는 변형 A가 더 높은 응답률을 보이더라도, 특정 세그먼트에서는 변형 B가 더 높은 응답률을 보일 수 있다.

예를 들어, 성별에 따른 응답률을 분석하면 다음과 같다.

👆
좌우로 밀어서 보기
성별전체남성여성
전체 발송2,0001,0001,000
전체 응답803545
변형 A50/1,000 (5%)10/500 (2%)40/500 (8%)
변형 B30/1,000 (3%)25/500 (5%)5/500 (1%)

위 표에서 변형 A가 전체적으로는 응답률이 더 높지만, 남성에게는 변형 B가 더 높은 응답률을 보인다.

따라서, A/B 테스트 결과에 따라 세분화 전략을 적용하여, 앞으로 남성에게는 변형 B를, 여성에게는 변형 A를 보내는 방식으로 응답률을 높일 수 있다. 이 예시에서는 세분화 전략을 통해 응답률을 5%에서 6.5%로 30% 증가시킬 수 있다.

A/B 테스트에서 세분화된 결과가 예상되는 경우, 처음부터 성별과 같은 주요 속성에 따라 고객을 고르게 분포시키도록 설계해야 한다. 즉, (a) 남성과 여성을 대표 샘플로 포함하고, (b) 각 변형(변형 A, 변형 B)에 남성과 여성을 무작위로 할당해야 한다. 그렇지 않으면 실험이 편향되어 부정확한 결과가 나올 수 있다.

이러한 세분화 및 타겟팅 접근 방식은 고객의 단일 속성뿐만 아니라, 연령, 성별 등 다중 속성을 포함하여 테스트 결과에서 더 미묘한 패턴을 식별하도록 일반화할 수 있다.

7. 장단점

A/B 테스트는 사용자가 무엇을 선호하는지에 대한 명확한 아이디어를 얻는 데 사용하기 쉽고 해석하기 쉽다는 장점이 있다. 이는 한 옵션을 다른 옵션과 직접 비교하여 테스트하기 때문이다. 실제 사용자 행동을 기반으로 하므로, 이 데이터는 특히 두 가지 옵션 중 무엇이 더 효과적인지 결정하는 데 매우 유용하다.

A/B 테스트는 또한 매우 구체적인 디자인 질문에 대한 답을 제공할 수 있다. 한 가지 예로 구글의 하이퍼링크 색상에 대한 A/B 테스트를 들 수 있다. 수익을 최적화하기 위해, 구글은 사용자가 어떤 색상을 더 많이 클릭하는지 알아보기 위해 수십 가지의 서로 다른 하이퍼링크 색상을 테스트했다.

A/B 테스트는 분산에 민감하며, 표본 크기를 크게 하여 표준 오차를 줄이고 통계적으로 유의미한 결과를 얻어야 한다는 단점이 있다. 활성 사용자가 많은 온라인 소셜 미디어 플랫폼과 같은 애플리케이션에서는 대규모 표본 크기를 얻는 것이 쉽지만, 그렇지 않은 경우에는 실험 등록 기간을 늘려 대규모 표본 크기를 얻어야 한다. 그러나 Microsoft에서 제안한 CUPED(Controlled-experiment Using Pre-Experiment Data, 사전 실험 데이터를 사용한 제어 실험) 기법을 사용하면 실험 시작 전의 분산을 고려하여 통계적으로 유의미한 결과를 얻기 위해 더 적은 표본이 필요하다.

A/B 테스트는 실험의 특성상, 테스트 결과가 원치 않는 결과를 초래하는 경우, 즉 비즈니스 지표에 부정적인 영향이나 영향이 없는 경우 시간과 자원을 낭비할 위험이 있다.

2018년 12월, 에어비앤비, 아마존, 부킹닷컴, 페이스북, 구글, 링크드인, 리프트, 마이크로소프트, 넷플릭스, 트위터, 우버, 스탠퍼드 대학교 등 13개 기관의 대규모 A/B 테스트 경험이 있는 대표들이 SIGKDD Explorations 논문에서 주요 과제를 요약했다. 이 과제는 분석, 엔지니어링 및 문화, 전통적인 A/B 테스트에서의 이탈, 데이터 품질의 네 가지 영역으로 그룹화할 수 있다.