import pandas as pd
import seaborn as sns
import numpy as np
import datetime as dt
import matplotlib.pyplot as plt
import os


print(os.getcwd())
path = "F:\[Personal]\Data Analytics Portfolio\A-B Testing"
os.chdir(path)
print(os.getcwd())

C:\Users\Tyler
F:\[Personal]\Data Analytics Portfolio\A-B Testing


ab = pd.read_csv(r'F:\[Personal]\Data Analytics Portfolio\A-B Testing\Website Results.txt', sep = ',', header = 0)


ab.head()


ab.shape

(1451, 4)


# encode converted column to be binary, 1 = converted
ab['converted'] = ab['converted'].replace({'False':0, 'True':1})

# calculate baseline conversion rate
conversion_rate = (ab[ab['variant'] == 'A']['converted'].sum()/ ab[ab['variant'] == 'A']['converted'].count())*100
print(conversion_rate)

2.7739251040221915


print(ab[ab['variant'] == 'A']['converted'].count())
print(ab[ab['variant'] == 'B']['converted'].count())

721
730


def get_sample_size(z_alpha, z_beta, p1, p2):
    n = ((z_alpha/2 + z_beta)**2 * (p1*(1-p1) + p2*(1-p2))) / ((p1-p2)**2)
    return n

sample_size = get_sample_size(1.96, 0.84, conversion_rate, conversion_rate * 1.1)
print(abs(sample_size))

481.27515799999895


# calculate p-value, bear in mind we know control and test sizes from above. We also know control conversion rate above. We will calculate test conversion rate and strip the multiplication from control conv.
# restating calculations for convenience

control_conv = ab[ab['variant'] == 'A']['converted'].sum()/ ab[ab['variant'] == 'A']['converted'].count()
test_conv = ab[ab['variant'] == 'B']['converted'].sum()/ ab[ab['variant'] == 'A']['converted'].count()
control_size = ab[ab['variant'] == 'A']['converted'].count()
test_size = ab[ab['variant'] == 'B']['converted'].count()

def get_pvalue(control_conv, test_conv, control_size, test_size):
    lift = - abs(test_conv - control_conv)
    scale_one = control_conv * (1 - control_conv) * (1 / control_size)
    scale_two = test_conv * (1 - test_conv) * (1/ test_size)
    scale_val = (scale_one + scale_two)**0.5
    p_value = 2 * stats.norm.cdf(lift, loc = 0, scale = scale_val)
    
    return p_value

# calculate p-value
p_value = get_pvalue(control_conv, test_conv, control_size, test_size)
print(p_value)

0.020834227997970103


from scipy import stats

def get_ci(test_conv, control_conv, test_size, control_size, ci):
        sd = ((test_conv * (1 - test_conv) / test_size + (control_conv * (1 - control_conv)) / control_size))**0.5
        lift = test_conv - control_conv
          
        val = stats.norm.isf((1 - ci) / 2)
        lwr_bnd = lift - val * sd
        upr_bnd = lift + val * sd
              
        return ((lwr_bnd, upr_bnd))
              
# calculate cis with ci = 0.95
ci = get_ci(test_conv, control_conv, test_size, control_size, 0.95)
print(ci)

(0.003581288462809147, 0.0435754383055681)


print(control_conv)
print(test_conv)

0.027739251040221916
0.05131761442441054


mean_con = ab[ab['variant'] == 'A']['revenue'].mean()
print(mean_con)

9.102149791955616


mean_test = ab[ab['variant'] == 'B']['revenue'].mean()
print(mean_test)

337518048237.48334


import matplotlib.pyplot as plt
import seaborn as sns

# extract data for control and test groups
var = ab[ab.variant == 'B']
con = ab[ab.variant == 'A']

# create a histogram for the revenue distribution
sns.histplot(var['revenue'], color='green', alpha=0.8, bins=10, label='Test')
sns.histplot(con['revenue'], color='blue', alpha=0.8, bins=10, label='Control')
plt.legend(loc='upper right')
plt.xlabel('Revenue')
plt.ylabel('Count')
plt.title('Distribution of Revenue by Group')
plt.show()

# create a boxplot for the revenue distribution
sns.boxplot(x='variant', y='revenue', data=ab)
plt.xlabel('Group')
plt.ylabel('Revenue')
plt.title('Distribution of Revenue by Group')
plt.show()

A/B Testing¶

Introductory Remarks & Comments¶

Data Exploration and Preparation¶

Generating "Ideal" Sample Size¶

Interpreting & Analyzing A/B Test Results¶

Visualizing our Results¶

	variant	converted
0	A	False
1	A	False
2	A	False
3	A	False
4	A	False