맨위로가기 타임라인 바로가기

A/B 테스트

"오늘의AI위키"는 AI 기술로 일관성 있고 체계적인 최신 지식을 제공하는 혁신 플랫폼입니다.
"오늘의AI위키"의 AI를 통해 더욱 풍부하고 폭넓은 지식 경험을 누리세요.
타임라인 바로가기

1. 개요

A/B 테스트는 두 가지 이상의 대안을 비교하여 더 나은 성과를 내는 쪽을 판단하는 방법이다. 웹사이트, 애플리케이션, 광고 등 다양한 분야에서 사용자 인터페이스, 디자인, 콘텐츠 등을 테스트하는 데 활용되며, 통계적 가설 검정을 기반으로 한다. A/B 테스트는 역사적으로 광고, 마케팅 분야에서 발전해왔으며, 오늘날에는 주요 소프트웨어 회사에서 널리 사용된다. 웹사이트 및 애플리케이션, 전자 상거래, 온라인 광고, 이메일 마케팅, 제품 개발, 정책 결정, 정치 캠페인 등 다양한 분야에서 활용되며, 세분화(segmentation)와 타겟팅을 통해 더욱 효과적인 결과를 얻을 수 있다. A/B 테스트는 사용자의 선호도를 파악하는 데 유용하지만, 분산에 민감하고, 비즈니스에 부정적인 영향을 미칠 위험이 있다.

더 읽어볼만한 페이지

  • 실험 - 무작위 대조 시험
  • 실험 - 겸자
    겸자는 조직을 잡거나 지혈하는 외과 수술 도구로, 다양한 종류가 개발되어 사용되고 있으며, 최근에는 손상 방지 기능을 갖춘 겸자들이 개발되어 외과 수술 발전에 기여하고 있다.
  • 시장 조사 - 세계에서 가장 살기 좋은 도시
    세계에서 가장 살기 좋은 도시는 평가 기관별 기준에 따라 순위가 다르지만, 안정성, 의료, 문화, 환경, 교육, 인프라 등 다양한 요소를 고려하며, 유럽과 오세아니아의 도시들이 상위권을 차지하고, 한국 도시들의 삶의 질 향상을 위해서는 녹지 공간 확보, 대중교통 시스템 개선, 시민 참여 확대 등이 필요하다.
  • 시장 조사 - 쿨헌팅
    쿨헌팅은 기업이 젊은 세대의 트렌드를 파악하도록 돕는 마케팅 활동으로, 청소년 문화 예측 보고서 판매, 컨설팅, 표적 집단 면접, 쿨 나르크 활용, 온라인 시장 조사 등의 방법으로 정보를 수집한다.
  • 소프트웨어 테스트 - 보안 취약점
    보안 취약점은 시스템의 설계, 구현, 운영, 관리상 결함이나 약점으로, 위협에 의해 악용되어 시스템 보안 정책을 위반할 수 있는 요소이며, ISO 27005, IETF RFC 4949, NIST SP 800-30, ENISA 등 다양한 기관에서 정의하고 있다.
  • 소프트웨어 테스트 - 스트레스 테스트
    스트레스 테스트는 시스템이나 기관이 극한 상황에서도 정상적으로 작동하는지 평가하는 방법이다.
A/B 테스트

2. 정의

"A/B 테스트"는 좁은 의미에서 가설 검정을 뜻하는 속어로 사용된다.[30] 하지만 넓은 의미의 A/B 테스트는 인터넷 마케팅에서 특정 정책의 효과를 판단하기 위해 두 가지 정책을 비교 검토하는 행위 전반을 의미한다. 이때, 기준 없이 단순히 A와 B를 만들어 비교하는 것이 아니라, 통제 그룹(기존 방식)테스트 그룹(새로운 방식)을 비교하여 새로운 방식의 효과를 검증하는 것이 핵심이다.

영문 위키백과의 A/B 테스트 해설A/B_testing|AB 테스트영어에는 "AB testing is a term for a controlled experiment"라는 설명이 있다. 즉, A/B 테스트는 통제 그룹에 대해 테스트 그룹을 적용하여 비교하는 것이 본래의 목적이다. 통제 그룹이라는 "기준"이 없으면, 계절 변동 등 외부 요인의 영향을 제대로 판단할 수 없어 과학적인 분석이 어렵다. 테스트 대상 외의 영향을 최소화하려면 통제 그룹의 개념이 반드시 필요하다.[31]

예를 들어, '소켄비차' 사례에서 "소켄비차(지금까지의 맛)"는 통제 그룹이고, "소켄비차 산뜻한 블렌드(새로운 맛)"는 테스트 그룹이다. A와 B, 두 종류의 새로운 소켄비차를 처음부터 만들어 어느 쪽이 좋은지 테스트한 것이 아니다.

2,000명의 고객 데이터베이스를 가진 한 회사가 웹사이트를 통해 판매를 촉진하기 위해 할인 코드가 포함된 이메일 캠페인을 진행한다고 가정해 보자. 회사는 서로 다른 행동 유도(구매를 유도하는 문구)와 프로모션 코드를 식별하는 두 가지 버전의 이메일을 만든다.


  • 1,000명에게는 "이번 주 토요일에 종료됩니다! 코드 A1 사용"이라는 행동 유도가 포함된 이메일을 보낸다.
  • 나머지 1,000명에게는 "곧 종료됩니다! 코드 B1 사용"이라는 행동 유도가 포함된 이메일을 보낸다.
  • 이메일의 다른 모든 요소와 레이아웃은 동일하다.


그런 다음 회사는 프로모션 코드 사용을 분석하여 어떤 캠페인이 더 높은 성공률을 보이는지 확인한다. 코드 A1을 사용하는 이메일은 5%의 응답률을 보였고(이메일을 받은 1,000명 중 50명이 제품을 구매하기 위해 코드를 사용), 코드 B1을 사용하는 이메일은 3%의 응답률을 보였다(수신자 중 30명이 제품을 구매하기 위해 코드를 사용). 따라서 회사는 이 경우 첫 번째 행동 유도가 더 효과적이며 향후 판매에 사용할 것이라고 결정한다.

하지만, 만약 테스트의 목표가 어떤 이메일이 더 높은 클릭률을 생성하는지, 즉 이메일을 받은 후 실제로 웹사이트를 클릭하는 사람의 수를 확인하는 것이었다면 결과가 달라졌을 수 있다. 예를 들어, 코드 B1을 받은 고객이 더 많이 웹사이트에 접속했더라도 행동 유도에 프로모션 종료 날짜가 명시되지 않았기 때문에 많은 사람들이 즉시 구매해야 할 긴급함을 느끼지 못할 수 있다. 따라서 테스트의 목적이 단순히 어떤 이메일이 웹사이트로 더 많은 트래픽을 가져올지 확인하는 것이었다면 코드 B1이 포함된 이메일이 더 성공적이었을 수 있다.

A/B 테스트는 판매 건수, 클릭률 전환 혹은 가입/등록자 수와 같이 측정 가능한 정의된 결과를 가져야 한다.[45]

3. 통계적 방법

2-표본 가설 검정은 실험에서 표본이 두 개의 대조군으로 나뉘는 경우 두 표본을 비교하는 데 적합하다. Z-검정은 정규성 및 알려진 표준 편차에 대한 엄격한 조건 하에서 평균을 비교하는 데 적합하다. 스튜던트 t-검정은 가정이 적을 때 완화된 조건 하에서 평균을 비교하는 데 적합하다. 웰치 t-검정은 가장 적은 가정을 하며, 따라서 평균을 최적화해야 하는 2-표본 가설 검정에서 가장 일반적으로 사용되는 검정이다. 최적화할 변수의 평균은 가장 일반적인 추정량 선택이지만, 다른 추정량도 정기적으로 사용된다.

클릭률과 같은 두 개의 이항 분포를 비교하려면 피셔의 정확 검정을 사용한다.

가정된 분포예시표준 검정대안 검정
가우스사용자당 평균 수익웰치 t-검정 (비쌍체 t-검정)스튜던트 t-검정
이항클릭률피셔의 정확 검정바나드 검정
푸아송유료 사용자당 거래 건수E-검정[9]C-검정
다항구매된 각 제품의 수카이제곱 검정G-검정
알 수 없음만-위트니 U 검정깁스 샘플링


4. 역사

A/B 테스트의 기원은 1835년 동종 요법 약물의 효과를 평가하기 위한 최초의 무작위 이중 맹검 실험으로 거슬러 올라간다.[16] 20세기 초, 광고 개척자 클로드 홉킨스는 프로모션 쿠폰을 사용하여 캠페인의 효과를 테스트했다.[17] 그러나 이 과정은 통계적 유의성귀무 가설과 같은 개념을 포함하지 않았다.[18]

1908년 윌리엄 실리 고셋은 Z-검정을 고쳐 스튜던트 t-검정을 만들었다.[19][20]

2000년, 구글 엔지니어들은 검색 엔진 결과 페이지에 표시할 최적의 결과 개수를 결정하기 위해 최초의 A/B 테스트를 실행했다.[5] 첫 번째 시험은 로딩 시간이 느린 결함으로 인해 실패했지만, 이후 A/B 테스트 연구는 더욱 발전했다. 2011년 구글은 7,000개 이상의 A/B 테스트를 실행했다.[5]

5. 활용 분야

A/B 테스트는 다양한 분야에서 활용되어 효과를 극대화하고 더 나은 의사 결정을 돕는다. 주요 활용 분야는 다음과 같다.

분야설명
웹사이트 및 애플리케이션사용자 인터페이스, 디자인, 콘텐츠, 기능 등을 최적화하여 사용자 경험을 개선한다.
온라인 광고광고 문구, 이미지, 타겟팅 등을 테스트하여 광고 효율을 높인다.
이메일 마케팅이메일 제목, 내용, 발송 시간 등을 테스트하여 이메일 오픈율 및 클릭률을 높인다.
전자 상거래상품 페이지 디자인, 결제 프로세스, 프로모션 등을 테스트하여 구매 전환율을 높인다.
제품 개발신제품의 기능, 디자인, 가격 등을 테스트하여 시장 반응을 예측하고 제품을 개선한다.
정책 결정새로운 정책이나 제품 도입 전에 A/B 테스트를 통해 대중의 선호도를 파악하고, 더 나은 결정을 내릴 수 있다. 예를 들어, 일본 코카・콜라는 상쾌미차의 맛을 결정하는 데 A/B 테스트(소켄비차 국민 투표[34])를 활용했다.
정치 캠페인2008년 버락 오바마 대통령 선거 운동에서 온라인 캠페인 효과를 극대화하기 위해 A/B 테스트를 사용했다.[28]


6. 세분화(segmentation)와 타겟팅

A/B 테스트는 일반적으로 모든 사용자에게 동일한 변형(예: 사용자 인터페이스 요소)을 적용하지만, 경우에 따라서는 특정 사용자 그룹(세그먼트)에 따라 다르게 반응할 수 있다.[46] 즉, 전체적으로는 변형 A가 더 높은 응답률을 보이더라도, 특정 세그먼트에서는 변형 B가 더 높은 응답률을 보일 수 있다.

예를 들어, 성별에 따른 응답률을 분석하면 다음과 같다.

성별전체남성여성
전체 발송2,0001,0001,000
전체 응답803545
변형 A50/1,000 (5%)10/500 (2%)40/500 (8%)
변형 B30/1,000 (3%)25/500 (5%)5/500 (1%)



위 표에서 변형 A가 전체적으로는 응답률이 더 높지만, 남성에게는 변형 B가 더 높은 응답률을 보인다.

따라서, A/B 테스트 결과에 따라 세분화 전략을 적용하여, 앞으로 남성에게는 변형 B를, 여성에게는 변형 A를 보내는 방식으로 응답률을 높일 수 있다. 이 예시에서는 세분화 전략을 통해 응답률을 5%에서 6.5%로 30% 증가시킬 수 있다.

A/B 테스트에서 세분화된 결과가 예상되는 경우, 처음부터 성별과 같은 주요 속성에 따라 고객을 고르게 분포시키도록 설계해야 한다. 즉, (a) 남성과 여성을 대표 샘플로 포함하고, (b) 각 변형(변형 A, 변형 B)에 남성과 여성을 무작위로 할당해야 한다. 그렇지 않으면 실험이 편향되어 부정확한 결과가 나올 수 있다.[47]

이러한 세분화 및 타겟팅 접근 방식은 고객의 단일 속성뿐만 아니라, 연령, 성별 등 다중 속성을 포함하여 테스트 결과에서 더 미묘한 패턴을 식별하도록 일반화할 수 있다.

7. 장단점

A/B 테스트는 사용자가 무엇을 선호하는지에 대한 명확한 아이디어를 얻는 데 사용하기 쉽고 해석하기 쉽다는 장점이 있다. 이는 한 옵션을 다른 옵션과 직접 비교하여 테스트하기 때문이다. 실제 사용자 행동을 기반으로 하므로, 이 데이터는 특히 두 가지 옵션 중 무엇이 더 효과적인지 결정하는 데 매우 유용하다.

A/B 테스트는 또한 매우 구체적인 디자인 질문에 대한 답을 제공할 수 있다. 한 가지 예로 구글의 하이퍼링크 색상에 대한 A/B 테스트를 들 수 있다. 수익을 최적화하기 위해, 구글은 사용자가 어떤 색상을 더 많이 클릭하는지 알아보기 위해 수십 가지의 서로 다른 하이퍼링크 색상을 테스트했다.[12]

A/B 테스트는 분산에 민감하며, 표본 크기를 크게 하여 표준 오차를 줄이고 통계적으로 유의미한 결과를 얻어야 한다는 단점이 있다. 활성 사용자가 많은 온라인 소셜 미디어 플랫폼과 같은 애플리케이션에서는 대규모 표본 크기를 얻는 것이 쉽지만, 그렇지 않은 경우에는 실험 등록 기간을 늘려 대규모 표본 크기를 얻어야 한다. 그러나 Microsoft에서 제안한 CUPED(Controlled-experiment Using Pre-Experiment Data, 사전 실험 데이터를 사용한 제어 실험) 기법을 사용하면 실험 시작 전의 분산을 고려하여 통계적으로 유의미한 결과를 얻기 위해 더 적은 표본이 필요하다.[13][14]

A/B 테스트는 실험의 특성상, 테스트 결과가 원치 않는 결과를 초래하는 경우, 즉 비즈니스 지표에 부정적인 영향이나 영향이 없는 경우 시간과 자원을 낭비할 위험이 있다.

2018년 12월, 에어비앤비, 아마존, 부킹닷컴, 페이스북, 구글, 링크드인, 리프트, 마이크로소프트, 넷플릭스, 트위터, 우버, 스탠퍼드 대학교 등 13개 기관의 대규모 A/B 테스트 경험이 있는 대표들이 SIGKDD Explorations 논문에서 주요 과제를 요약했다.[15] 이 과제는 분석, 엔지니어링 및 문화, 전통적인 A/B 테스트에서의 이탈, 데이터 품질의 네 가지 영역으로 그룹화할 수 있다.

참조

[1] 논문 Improving Library User Experience with A/B Testing: Principles and Process 2014-08
[2] 서적 Trustworthy Online Controlled Experiments: A Practical Guide to A/B Testing https://experimentgu[...] Cambridge University Press 2021-10-22
[3] 간행물 Online Controlled Experiments and A/B Tests https://exp-platform[...] Springer 2023-04-21
[4] 간행물 The Surprising Power of Online Experiments https://hbr.org/2017[...] 2020-01-27
[5] 웹사이트 The ABCs of A/B Testing http://www.pardot.co[...] 2016-02-21
[6] 서적 Encyclopedia of Machine Learning and Data Mining
[7] 웹사이트 The Math Behind A/B Testing https://developer.am[...] 2015-04-12
[8] 논문 Controlled experiments on the web: survey and practical guide 2009-02
[9] 논문 A more powerful test for comparing two Poisson means
[10] 웹사이트 Advanced A/B Testing Tactics That You Should Know | Testing & Usability http://online-behavi[...] 2014-03-18
[11] 웹사이트 Eight Ways You've Misconfigured Your A/B Test http://drjasondavis.[...] 2014-03-18
[12] 웹사이트 Google is experimenting with turning search results from blue to black https://www.theverge[...] 2024-09-25
[13] 간행물 Improving the Sensitivity of Online Controlled Experiments by Utilizing Pre-Experiment Data 2013-02
[14] 웹사이트 CUPED Explained https://www.statsig.[...] 2024-09-11
[15] 논문 Top Challenges from the first Practical Online Controlled Experiments Summit https://exp-platform[...] 2021-10-24
[16] 논문 Inventing the randomized double-blind trial: the Nuremberg salt test of 1835 2006-12
[17] 웹사이트 What is A/B Testing https://www.converti[...] 2020-01-28
[18] 웹사이트 Claude Hopkins Turned Advertising Into A Science https://www.investor[...] 2018-12-20
[19] 웹사이트 How beer influenced statistics http://blog.gembaaca[...] 2014-07-22
[20] 논문 Guinness, Gosset, Fisher, and Small Samples 1987
[21] 웹사이트 The A/B Test: Inside the Technology That's Changing the Rules of Business https://www.wired.co[...] 2014-03-18
[22] 간행물 Test Everything: Notes on the A/B Revolution | Wired Enterprise https://www.wired.co[...] 2014-03-18
[23] 웹사이트 A/B testing: the secret engine of creation and refinement for the 21st century http://boingboing.ne[...] Boing Boing 2014-03-18
[24] 웹사이트 A/B Testing: The ABCs of Paid Social Media https://anyword.com/[...] 2022-04-08
[25] 서적 Proceedings of the 21st ACM SIGKDD International Conference on Knowledge Discovery and Data Mining 2015-08-10
[26] 웹사이트 Split Testing Guide for Online Stores http://www.webics.co[...] webics.com.au 2012-08-28
[27] 간행물 On the Complexity of A/B Testing http://proceedings.m[...] 2020-02-27
[28] 서적 A / B Testing: The Most Powerful Way to Turn Clicks Into Customers https://books.google[...] John Wiley & Sons 2020-10-15
[29] 간행물 Modern HTTP Routing https://www.usenix.o[...] 2021-09-01
[30] 서적 統計学が最強の学問である ダイヤモンド社
[31] 웹사이트 動画リワード広告の A/B テスト方法 https://developers-j[...] Google Developers 2017-12-22
[32] 서적 リスティング広告 成功の法則 ソーテック社
[33] 문서 検索連動型広告を成功に導くSEM戦略 インプレスジャパン
[34] 웹사이트 2つの爽健美茶!新製品戦略もA/Bスプリットの時代?(マーケティング/マーケティング事例) http://allabout.co.j[...] 2015-08-12
[35] 서적 Encyclopedia of Machine Learning and Data Mining http://www.exp-platf[...] Springer
[36] 웹인용 The ABCs of A/B Testing - Pardot http://www.pardot.co[...] 2016-02-21
[37] 웹인용 Split Testing Guide for Online Stores http://www.webics.co[...] webics.com.au 2012-08-27
[38] 웹인용 The A/B Test: Inside the Technology That's Changing the Rules of Business | Wired Business https://www.wired.co[...] Wired.com 2000-02-27
[39] 웹인용 Test Everything: Notes on the A/B Revolution | Wired Enterprise https://www.wired.co[...] Wired.com 2014-03-18
[40] 웹인용 A/B testing: the secret engine of creation and refinement for the 21st century http://boingboing.ne[...] Boing Boing 2014-03-18
[41] 저널 A more powerful test for comparing two Poisson means
[42] 웹인용 Brief history and background for the one sample t-test http://blog.gembaaca[...]
[43] 저널 Guinness, Gosset, Fisher, and Small Samples http://projecteuclid[...] 1987
[44] 웹인용 The Math Behind A/B Testing https://developer.am[...] Developer.amazon.com 2015-04-12
[45] 저널 Controlled experiments on the web: survey and practical guide http://ai.stanford.e[...] Springer
[46] 웹인용 Advanced A/B Testing Tactics That You Should Know | Testing & Usability http://online-behavi[...] Online-behavior.com 2014-03-18
[47] 웹인용 Eight Ways You’ve Misconfigured Your A/B Test http://drjasondavis.[...] Dr. Jason Davis 2014-03-18
[48] 웹인용 The Complete Guide To Conversion Rate Optimization https://www.omniconv[...] Omniconvert 2017-01-05
[49] 웹인용 A/B Split Testing | Multivariate Testing | Case Studies https://vwo.com/reso[...] Visual Website Optimizer 2015-09-08

관련 사건 타임라인

( 최근 20개의 뉴스만 표기 됩니다. )



본 사이트는 AI가 위키백과와 뉴스 기사,정부 간행물,학술 논문등을 바탕으로 정보를 가공하여 제공하는 백과사전형 서비스입니다.
모든 문서는 AI에 의해 자동 생성되며, CC BY-SA 4.0 라이선스에 따라 이용할 수 있습니다.
하지만, 위키백과나 뉴스 기사 자체에 오류, 부정확한 정보, 또는 가짜 뉴스가 포함될 수 있으며, AI는 이러한 내용을 완벽하게 걸러내지 못할 수 있습니다.
따라서 제공되는 정보에 일부 오류나 편향이 있을 수 있으므로, 중요한 정보는 반드시 다른 출처를 통해 교차 검증하시기 바랍니다.

문의하기 : help@durumis.com