A/B 테스트
"오늘의AI위키"의 AI를 통해 더욱 풍부하고 폭넓은 지식 경험을 누리세요.
1. 개요
A/B 테스트는 두 가지 이상의 대안을 비교하여 더 나은 성과를 내는 쪽을 판단하는 방법이다. 웹사이트, 애플리케이션, 광고 등 다양한 분야에서 사용자 인터페이스, 디자인, 콘텐츠 등을 테스트하는 데 활용되며, 통계적 가설 검정을 기반으로 한다. A/B 테스트는 역사적으로 광고, 마케팅 분야에서 발전해왔으며, 오늘날에는 주요 소프트웨어 회사에서 널리 사용된다. 웹사이트 및 애플리케이션, 전자 상거래, 온라인 광고, 이메일 마케팅, 제품 개발, 정책 결정, 정치 캠페인 등 다양한 분야에서 활용되며, 세분화(segmentation)와 타겟팅을 통해 더욱 효과적인 결과를 얻을 수 있다. A/B 테스트는 사용자의 선호도를 파악하는 데 유용하지만, 분산에 민감하고, 비즈니스에 부정적인 영향을 미칠 위험이 있다.
더 읽어볼만한 페이지
- 실험 - 무작위 대조 시험
- 실험 - 겸자
겸자는 조직을 잡거나 지혈하는 외과 수술 도구로, 다양한 종류가 개발되어 사용되고 있으며, 최근에는 손상 방지 기능을 갖춘 겸자들이 개발되어 외과 수술 발전에 기여하고 있다. - 시장 조사 - 세계에서 가장 살기 좋은 도시
세계에서 가장 살기 좋은 도시는 평가 기관별 기준에 따라 순위가 다르지만, 안정성, 의료, 문화, 환경, 교육, 인프라 등 다양한 요소를 고려하며, 유럽과 오세아니아의 도시들이 상위권을 차지하고, 한국 도시들의 삶의 질 향상을 위해서는 녹지 공간 확보, 대중교통 시스템 개선, 시민 참여 확대 등이 필요하다. - 시장 조사 - 쿨헌팅
쿨헌팅은 기업이 젊은 세대의 트렌드를 파악하도록 돕는 마케팅 활동으로, 청소년 문화 예측 보고서 판매, 컨설팅, 표적 집단 면접, 쿨 나르크 활용, 온라인 시장 조사 등의 방법으로 정보를 수집한다. - 소프트웨어 테스트 - 보안 취약점
보안 취약점은 시스템의 설계, 구현, 운영, 관리상 결함이나 약점으로, 위협에 의해 악용되어 시스템 보안 정책을 위반할 수 있는 요소이며, ISO 27005, IETF RFC 4949, NIST SP 800-30, ENISA 등 다양한 기관에서 정의하고 있다. - 소프트웨어 테스트 - 스트레스 테스트
스트레스 테스트는 시스템이나 기관이 극한 상황에서도 정상적으로 작동하는지 평가하는 방법이다.
A/B 테스트 |
---|
2. 정의
"A/B 테스트"는 좁은 의미에서 가설 검정을 뜻하는 속어로 사용된다.[30] 하지만 넓은 의미의 A/B 테스트는 인터넷 마케팅에서 특정 정책의 효과를 판단하기 위해 두 가지 정책을 비교 검토하는 행위 전반을 의미한다. 이때, 기준 없이 단순히 A와 B를 만들어 비교하는 것이 아니라, 통제 그룹(기존 방식)과 테스트 그룹(새로운 방식)을 비교하여 새로운 방식의 효과를 검증하는 것이 핵심이다.
영문 위키백과의 A/B 테스트 해설A/B_testing|AB 테스트영어에는 "AB testing is a term for a controlled experiment"라는 설명이 있다. 즉, A/B 테스트는 통제 그룹에 대해 테스트 그룹을 적용하여 비교하는 것이 본래의 목적이다. 통제 그룹이라는 "기준"이 없으면, 계절 변동 등 외부 요인의 영향을 제대로 판단할 수 없어 과학적인 분석이 어렵다. 테스트 대상 외의 영향을 최소화하려면 통제 그룹의 개념이 반드시 필요하다.[31]
예를 들어, '소켄비차' 사례에서 "소켄비차(지금까지의 맛)"는 통제 그룹이고, "소켄비차 산뜻한 블렌드(새로운 맛)"는 테스트 그룹이다. A와 B, 두 종류의 새로운 소켄비차를 처음부터 만들어 어느 쪽이 좋은지 테스트한 것이 아니다.
2,000명의 고객 데이터베이스를 가진 한 회사가 웹사이트를 통해 판매를 촉진하기 위해 할인 코드가 포함된 이메일 캠페인을 진행한다고 가정해 보자. 회사는 서로 다른 행동 유도(구매를 유도하는 문구)와 프로모션 코드를 식별하는 두 가지 버전의 이메일을 만든다.
- 1,000명에게는 "이번 주 토요일에 종료됩니다! 코드 A1 사용"이라는 행동 유도가 포함된 이메일을 보낸다.
- 나머지 1,000명에게는 "곧 종료됩니다! 코드 B1 사용"이라는 행동 유도가 포함된 이메일을 보낸다.
- 이메일의 다른 모든 요소와 레이아웃은 동일하다.
그런 다음 회사는 프로모션 코드 사용을 분석하여 어떤 캠페인이 더 높은 성공률을 보이는지 확인한다. 코드 A1을 사용하는 이메일은 5%의 응답률을 보였고(이메일을 받은 1,000명 중 50명이 제품을 구매하기 위해 코드를 사용), 코드 B1을 사용하는 이메일은 3%의 응답률을 보였다(수신자 중 30명이 제품을 구매하기 위해 코드를 사용). 따라서 회사는 이 경우 첫 번째 행동 유도가 더 효과적이며 향후 판매에 사용할 것이라고 결정한다.
하지만, 만약 테스트의 목표가 어떤 이메일이 더 높은 클릭률을 생성하는지, 즉 이메일을 받은 후 실제로 웹사이트를 클릭하는 사람의 수를 확인하는 것이었다면 결과가 달라졌을 수 있다. 예를 들어, 코드 B1을 받은 고객이 더 많이 웹사이트에 접속했더라도 행동 유도에 프로모션 종료 날짜가 명시되지 않았기 때문에 많은 사람들이 즉시 구매해야 할 긴급함을 느끼지 못할 수 있다. 따라서 테스트의 목적이 단순히 어떤 이메일이 웹사이트로 더 많은 트래픽을 가져올지 확인하는 것이었다면 코드 B1이 포함된 이메일이 더 성공적이었을 수 있다.
A/B 테스트는 판매 건수, 클릭률 전환 혹은 가입/등록자 수와 같이 측정 가능한 정의된 결과를 가져야 한다.[45]
3. 통계적 방법
2-표본 가설 검정은 실험에서 표본이 두 개의 대조군으로 나뉘는 경우 두 표본을 비교하는 데 적합하다. Z-검정은 정규성 및 알려진 표준 편차에 대한 엄격한 조건 하에서 평균을 비교하는 데 적합하다. 스튜던트 t-검정은 가정이 적을 때 완화된 조건 하에서 평균을 비교하는 데 적합하다. 웰치 t-검정은 가장 적은 가정을 하며, 따라서 평균을 최적화해야 하는 2-표본 가설 검정에서 가장 일반적으로 사용되는 검정이다. 최적화할 변수의 평균은 가장 일반적인 추정량 선택이지만, 다른 추정량도 정기적으로 사용된다.
클릭률과 같은 두 개의 이항 분포를 비교하려면 피셔의 정확 검정을 사용한다.
가정된 분포 | 예시 | 표준 검정 | 대안 검정 |
---|---|---|---|
가우스 | 사용자당 평균 수익 | 웰치 t-검정 (비쌍체 t-검정) | 스튜던트 t-검정 |
이항 | 클릭률 | 피셔의 정확 검정 | 바나드 검정 |
푸아송 | 유료 사용자당 거래 건수 | E-검정[9] | C-검정 |
다항 | 구매된 각 제품의 수 | 카이제곱 검정 | G-검정 |
알 수 없음 | 만-위트니 U 검정 | 깁스 샘플링 |
4. 역사
A/B 테스트의 기원은 1835년 동종 요법 약물의 효과를 평가하기 위한 최초의 무작위 이중 맹검 실험으로 거슬러 올라간다.[16] 20세기 초, 광고 개척자 클로드 홉킨스는 프로모션 쿠폰을 사용하여 캠페인의 효과를 테스트했다.[17] 그러나 이 과정은 통계적 유의성 및 귀무 가설과 같은 개념을 포함하지 않았다.[18]
1908년 윌리엄 실리 고셋은 Z-검정을 고쳐 스튜던트 t-검정을 만들었다.[19][20]
2000년, 구글 엔지니어들은 검색 엔진 결과 페이지에 표시할 최적의 결과 개수를 결정하기 위해 최초의 A/B 테스트를 실행했다.[5] 첫 번째 시험은 로딩 시간이 느린 결함으로 인해 실패했지만, 이후 A/B 테스트 연구는 더욱 발전했다. 2011년 구글은 7,000개 이상의 A/B 테스트를 실행했다.[5]
5. 활용 분야
A/B 테스트는 다양한 분야에서 활용되어 효과를 극대화하고 더 나은 의사 결정을 돕는다. 주요 활용 분야는 다음과 같다.
분야 | 설명 |
---|---|
웹사이트 및 애플리케이션 | 사용자 인터페이스, 디자인, 콘텐츠, 기능 등을 최적화하여 사용자 경험을 개선한다. |
온라인 광고 | 광고 문구, 이미지, 타겟팅 등을 테스트하여 광고 효율을 높인다. |
이메일 마케팅 | 이메일 제목, 내용, 발송 시간 등을 테스트하여 이메일 오픈율 및 클릭률을 높인다. |
전자 상거래 | 상품 페이지 디자인, 결제 프로세스, 프로모션 등을 테스트하여 구매 전환율을 높인다. |
제품 개발 | 신제품의 기능, 디자인, 가격 등을 테스트하여 시장 반응을 예측하고 제품을 개선한다. |
정책 결정 | 새로운 정책이나 제품 도입 전에 A/B 테스트를 통해 대중의 선호도를 파악하고, 더 나은 결정을 내릴 수 있다. 예를 들어, 일본 코카・콜라는 상쾌미차의 맛을 결정하는 데 A/B 테스트(소켄비차 국민 투표[34])를 활용했다. |
정치 캠페인 | 2008년 버락 오바마 대통령 선거 운동에서 온라인 캠페인 효과를 극대화하기 위해 A/B 테스트를 사용했다.[28] |
6. 세분화(segmentation)와 타겟팅
A/B 테스트는 일반적으로 모든 사용자에게 동일한 변형(예: 사용자 인터페이스 요소)을 적용하지만, 경우에 따라서는 특정 사용자 그룹(세그먼트)에 따라 다르게 반응할 수 있다.[46] 즉, 전체적으로는 변형 A가 더 높은 응답률을 보이더라도, 특정 세그먼트에서는 변형 B가 더 높은 응답률을 보일 수 있다.
예를 들어, 성별에 따른 응답률을 분석하면 다음과 같다.
성별 | 전체 | 남성 | 여성 |
---|---|---|---|
전체 발송 | 2,000 | 1,000 | 1,000 |
전체 응답 | 80 | 35 | 45 |
변형 A | 50/1,000 (5%) | 10/500 (2%) | 40/500 (8%) |
변형 B | 30/1,000 (3%) | 25/500 (5%) | 5/500 (1%) |
위 표에서 변형 A가 전체적으로는 응답률이 더 높지만, 남성에게는 변형 B가 더 높은 응답률을 보인다.
따라서, A/B 테스트 결과에 따라 세분화 전략을 적용하여, 앞으로 남성에게는 변형 B를, 여성에게는 변형 A를 보내는 방식으로 응답률을 높일 수 있다. 이 예시에서는 세분화 전략을 통해 응답률을 5%에서 6.5%로 30% 증가시킬 수 있다.
A/B 테스트에서 세분화된 결과가 예상되는 경우, 처음부터 성별과 같은 주요 속성에 따라 고객을 고르게 분포시키도록 설계해야 한다. 즉, (a) 남성과 여성을 대표 샘플로 포함하고, (b) 각 변형(변형 A, 변형 B)에 남성과 여성을 무작위로 할당해야 한다. 그렇지 않으면 실험이 편향되어 부정확한 결과가 나올 수 있다.[47]
이러한 세분화 및 타겟팅 접근 방식은 고객의 단일 속성뿐만 아니라, 연령, 성별 등 다중 속성을 포함하여 테스트 결과에서 더 미묘한 패턴을 식별하도록 일반화할 수 있다.
7. 장단점
A/B 테스트는 사용자가 무엇을 선호하는지에 대한 명확한 아이디어를 얻는 데 사용하기 쉽고 해석하기 쉽다는 장점이 있다. 이는 한 옵션을 다른 옵션과 직접 비교하여 테스트하기 때문이다. 실제 사용자 행동을 기반으로 하므로, 이 데이터는 특히 두 가지 옵션 중 무엇이 더 효과적인지 결정하는 데 매우 유용하다.
A/B 테스트는 또한 매우 구체적인 디자인 질문에 대한 답을 제공할 수 있다. 한 가지 예로 구글의 하이퍼링크 색상에 대한 A/B 테스트를 들 수 있다. 수익을 최적화하기 위해, 구글은 사용자가 어떤 색상을 더 많이 클릭하는지 알아보기 위해 수십 가지의 서로 다른 하이퍼링크 색상을 테스트했다.[12]
A/B 테스트는 분산에 민감하며, 표본 크기를 크게 하여 표준 오차를 줄이고 통계적으로 유의미한 결과를 얻어야 한다는 단점이 있다. 활성 사용자가 많은 온라인 소셜 미디어 플랫폼과 같은 애플리케이션에서는 대규모 표본 크기를 얻는 것이 쉽지만, 그렇지 않은 경우에는 실험 등록 기간을 늘려 대규모 표본 크기를 얻어야 한다. 그러나 Microsoft에서 제안한 CUPED(Controlled-experiment Using Pre-Experiment Data, 사전 실험 데이터를 사용한 제어 실험) 기법을 사용하면 실험 시작 전의 분산을 고려하여 통계적으로 유의미한 결과를 얻기 위해 더 적은 표본이 필요하다.[13][14]
A/B 테스트는 실험의 특성상, 테스트 결과가 원치 않는 결과를 초래하는 경우, 즉 비즈니스 지표에 부정적인 영향이나 영향이 없는 경우 시간과 자원을 낭비할 위험이 있다.
2018년 12월, 에어비앤비, 아마존, 부킹닷컴, 페이스북, 구글, 링크드인, 리프트, 마이크로소프트, 넷플릭스, 트위터, 우버, 스탠퍼드 대학교 등 13개 기관의 대규모 A/B 테스트 경험이 있는 대표들이 SIGKDD Explorations 논문에서 주요 과제를 요약했다.[15] 이 과제는 분석, 엔지니어링 및 문화, 전통적인 A/B 테스트에서의 이탈, 데이터 품질의 네 가지 영역으로 그룹화할 수 있다.
참조
[1]
논문
Improving Library User Experience with A/B Testing: Principles and Process
2014-08
[2]
서적
Trustworthy Online Controlled Experiments: A Practical Guide to A/B Testing
https://experimentgu[...]
Cambridge University Press
2021-10-22
[3]
간행물
Online Controlled Experiments and A/B Tests
https://exp-platform[...]
Springer
2023-04-21
[4]
간행물
The Surprising Power of Online Experiments
https://hbr.org/2017[...]
2020-01-27
[5]
웹사이트
The ABCs of A/B Testing
http://www.pardot.co[...]
2016-02-21
[6]
서적
Encyclopedia of Machine Learning and Data Mining
[7]
웹사이트
The Math Behind A/B Testing
https://developer.am[...]
2015-04-12
[8]
논문
Controlled experiments on the web: survey and practical guide
2009-02
[9]
논문
A more powerful test for comparing two Poisson means
[10]
웹사이트
Advanced A/B Testing Tactics That You Should Know | Testing & Usability
http://online-behavi[...]
2014-03-18
[11]
웹사이트
Eight Ways You've Misconfigured Your A/B Test
http://drjasondavis.[...]
2014-03-18
[12]
웹사이트
Google is experimenting with turning search results from blue to black
https://www.theverge[...]
2024-09-25
[13]
간행물
Improving the Sensitivity of Online Controlled Experiments by Utilizing Pre-Experiment Data
2013-02
[14]
웹사이트
CUPED Explained
https://www.statsig.[...]
2024-09-11
[15]
논문
Top Challenges from the first Practical Online Controlled Experiments Summit
https://exp-platform[...]
2021-10-24
[16]
논문
Inventing the randomized double-blind trial: the Nuremberg salt test of 1835
2006-12
[17]
웹사이트
What is A/B Testing
https://www.converti[...]
2020-01-28
[18]
웹사이트
Claude Hopkins Turned Advertising Into A Science
https://www.investor[...]
2018-12-20
[19]
웹사이트
How beer influenced statistics
http://blog.gembaaca[...]
2014-07-22
[20]
논문
Guinness, Gosset, Fisher, and Small Samples
1987
[21]
웹사이트
The A/B Test: Inside the Technology That's Changing the Rules of Business
https://www.wired.co[...]
2014-03-18
[22]
간행물
Test Everything: Notes on the A/B Revolution | Wired Enterprise
https://www.wired.co[...]
2014-03-18
[23]
웹사이트
A/B testing: the secret engine of creation and refinement for the 21st century
http://boingboing.ne[...]
Boing Boing
2014-03-18
[24]
웹사이트
A/B Testing: The ABCs of Paid Social Media
https://anyword.com/[...]
2022-04-08
[25]
서적
Proceedings of the 21st ACM SIGKDD International Conference on Knowledge Discovery and Data Mining
2015-08-10
[26]
웹사이트
Split Testing Guide for Online Stores
http://www.webics.co[...]
webics.com.au
2012-08-28
[27]
간행물
On the Complexity of A/B Testing
http://proceedings.m[...]
2020-02-27
[28]
서적
A / B Testing: The Most Powerful Way to Turn Clicks Into Customers
https://books.google[...]
John Wiley & Sons
2020-10-15
[29]
간행물
Modern HTTP Routing
https://www.usenix.o[...]
2021-09-01
[30]
서적
統計学が最強の学問である
ダイヤモンド社
[31]
웹사이트
動画リワード広告の A/B テスト方法
https://developers-j[...]
Google Developers
2017-12-22
[32]
서적
リスティング広告 成功の法則
ソーテック社
[33]
문서
検索連動型広告を成功に導くSEM戦略
インプレスジャパン
[34]
웹사이트
2つの爽健美茶!新製品戦略もA/Bスプリットの時代?(マーケティング/マーケティング事例)
http://allabout.co.j[...]
2015-08-12
[35]
서적
Encyclopedia of Machine Learning and Data Mining
http://www.exp-platf[...]
Springer
[36]
웹인용
The ABCs of A/B Testing - Pardot
http://www.pardot.co[...]
2016-02-21
[37]
웹인용
Split Testing Guide for Online Stores
http://www.webics.co[...]
webics.com.au
2012-08-27
[38]
웹인용
The A/B Test: Inside the Technology That's Changing the Rules of Business | Wired Business
https://www.wired.co[...]
Wired.com
2000-02-27
[39]
웹인용
Test Everything: Notes on the A/B Revolution | Wired Enterprise
https://www.wired.co[...]
Wired.com
2014-03-18
[40]
웹인용
A/B testing: the secret engine of creation and refinement for the 21st century
http://boingboing.ne[...]
Boing Boing
2014-03-18
[41]
저널
A more powerful test for comparing two Poisson means
[42]
웹인용
Brief history and background for the one sample t-test
http://blog.gembaaca[...]
[43]
저널
Guinness, Gosset, Fisher, and Small Samples
http://projecteuclid[...]
1987
[44]
웹인용
The Math Behind A/B Testing
https://developer.am[...]
Developer.amazon.com
2015-04-12
[45]
저널
Controlled experiments on the web: survey and practical guide
http://ai.stanford.e[...]
Springer
[46]
웹인용
Advanced A/B Testing Tactics That You Should Know | Testing & Usability
http://online-behavi[...]
Online-behavior.com
2014-03-18
[47]
웹인용
Eight Ways You’ve Misconfigured Your A/B Test
http://drjasondavis.[...]
Dr. Jason Davis
2014-03-18
[48]
웹인용
The Complete Guide To Conversion Rate Optimization
https://www.omniconv[...]
Omniconvert
2017-01-05
[49]
웹인용
A/B Split Testing | Multivariate Testing | Case Studies
https://vwo.com/reso[...]
Visual Website Optimizer
2015-09-08
관련 사건 타임라인
( 최근 20개의 뉴스만 표기 됩니다. )
[인터뷰] 고객 행동이 정답입니다…핵클의 성장 방법론 – 바이라인네트워크
애피어, 전환율 높은 광고 생성…AdCreative.ai 통합 적용 – 바이라인네트워크
당신과 세상 사이, 픽셀로 이뤄진 다리를 놓는다 [.txt]
[마케팅BN] ‘숏폼만? 롱폼도 핵심 전략으로’ 유니티 인사이트 – 바이라인네트워크
에어브릿지, ‘플레이 글로벌’서 글로벌 마케팅 성공 전략 공유 – 바이라인네트워크
[마케팅BN] 모바일게임은 재미있으면 돈을 버는가? – 바이라인네트워크
액션핏 CPO가 모바일 게임의 성공 요인으로 재미보다는 시장성 검증, MVP 개발, 린 개발 방법론, 생성형 AI 활용을 강조하며, 3주 만에 퍼즐 게임을 개발한 사례를 소개한다.
애피어, ‘전 제품군 생성AI 통합’ 몇 초만에 마케팅 전략 최적화 – 바이라인네트워크
‘1억 다운로드’에도 배고픈 캐주얼게임의 성장 전략 – 바이라인네트워크
마티니 아이오, 브레이즈 첫 한국 컨퍼런스서 성공사례 공유 – 바이라인네트워크
[마케팅BN] ‘양보다 질…깊숙한 관심사까지 타깃해야’ 애피어의 제안 – 바이라인네트워크
유니티 슈퍼소닉, ‘확 달라진 A/B 테스트’ 등 주요 업데이트 – 바이라인네트워크
“기술로 된다? 마케팅의 본질은 사람” 리인벤팅 방법론이란 – 바이라인네트워크
인라이플 ‘모비온 3.0’, 더 쉬운 캠페인 운용 위한 ‘셀프 서빙’ 강화 – 바이라인네트워크
수초면 광고카피 제작에 톤 조절까지…애피어, 생성AI 통합 솔루션 구현 – 바이라인네트워크
유니티, 모바일게임 타깃 고객 도달 돕는다 – 바이라인네트워크
[프로젝트 커.크.] 팝업으로 소비자 마음 알아채기 – 바이라인네트워크
[프로젝트 커.크.] 쇼핑몰 스티비 이메일 마케팅, 블로그만큼 쉽다 – 바이라인네트워크
이커머스 기업 '쿠팡'은 왜 개발자대회를 열었을까? – 바이라인네트워크
이종철 기자의 소망: 페이스북 좋아요 사라지면 안 돼 – 바이라인네트워크
본 사이트는 AI가 위키백과와 뉴스 기사,정부 간행물,학술 논문등을 바탕으로 정보를 가공하여 제공하는 백과사전형 서비스입니다.
모든 문서는 AI에 의해 자동 생성되며, CC BY-SA 4.0 라이선스에 따라 이용할 수 있습니다.
하지만, 위키백과나 뉴스 기사 자체에 오류, 부정확한 정보, 또는 가짜 뉴스가 포함될 수 있으며, AI는 이러한 내용을 완벽하게 걸러내지 못할 수 있습니다.
따라서 제공되는 정보에 일부 오류나 편향이 있을 수 있으므로, 중요한 정보는 반드시 다른 출처를 통해 교차 검증하시기 바랍니다.
문의하기 : help@durumis.com