اختبار أ / ب: كيفية حساب حجم العينة قبل بدء الاختبار

لنفترض أنك تجري اختبار أ / ب لمدة أسبوع الآن ، وكل يوم يسألك أصحاب المصلحة في عملك ، "إلى متى نخطط لإجراء الاختبار؟ هل لدينا أهمية حتى الآن؟ ". هذه ليست حالة غير عادية. في الواقع ، يواجه جميع مديري المنتجات هذه المشكلة. باستثناء أنه في كثير من الأحيان ليس لدينا أي فكرة عن المدة التي ينبغي أن نجري فيها الاختبار ، لذلك ننظر إلى النتائج على أمل أن نصل إلى أهمية. تتفاقم المشكلة إذا كنت تجري اختبارًا ولكنك لا تتوقع أي زيادة - قد يكون هذا إما لأسباب جمالية أو زيادة في الإيرادات. إلى متى يجب تشغيله؟ صعب أليس كذلك؟

من الأفضل ألا نبدأ اختبارًا أبدًا دون معرفة عدد العينات التي سنجمعها. لماذا ا؟ خلاف ذلك ، سوف تنظر في البيانات وسوف ينتهي بك الأمر إلى "نظرة سريعة على البيانات" ، والتي توقف الاختبار بمجرد تحقيق الأهمية. هنا مثال - لنفترض أن لديك عملة وفرضيتك هي أنها عادلة. كيف تثبت ذلك؟ بسيط - ارمها 100 مرة. ولكن ماذا لو رميتها 10 مرات ورأيت ذيول 10 مرات. يبدو من المهم إحصائيًا إيقاف الاختبار في هذه المرحلة من الزمن ورفض فرضية Null - وهي أن العملة عادلة. ماذا حصل؟ لقد أوقفت الاختبار قبل قليل. لم تكن لديك فكرة لتبدأ بالوقت الذي كان عليك فيه إجراء الاختبار. المشكلة الأخرى التي قد تواجهها إذا لم تحسب حجم العينة هي أنك لن تكون قادرًا على القول بثقة عن المدة التي ستقوم بها لإجراء الاختبار.

فكيف نقترب من هذا؟

اتبع القاعدة الأولى لإدارة المنتج - احتمل الغموض ولكن تجنب عدم اليقين.

هذه هي الطريقة التي يمكننا بها الاقتراب من حساب حجم العينة: لنفترض أننا نجري اختبار أ / ب حيث: معدل التحويل الحالي لحدث مثل٪ من المستخدمين الذين يسجلون للحصول على البريد الإلكتروني هو 10٪ ونتوقع زيادة بنسبة 10٪ في التحويل إذا فاز العلاج. ثم،

تحويل خط الأساس: P1 = 20٪

زيادة في التحويل: 10٪ (هذا ما قدرت أنه التأثير المتوقع للتغيير). كجزء من فريق النمو ، نهدف عادةً إلى زيادة بنسبة 20٪ ولكن حتى 10٪ قد تكون كبيرة اعتمادًا على مدى نضوج منتجك. كلما ارتفع الارتفاع ، كلما وصلت إلى أهمية أسرع.

التحويل المتوقع لمجموعة العلاج: P2 = 20٪ * (1 + 10٪) = 22٪

مستوى الأهمية: هذه فرصة إيجابية موجبة ، أي عند مستوى أهمية 5 ٪ ، ما هي فرصة رفض الفرضية الصفرية عندما كانت في الواقع (والتي لن تعرفها أبدًا) كانت صحيحة. بالطبع ، نريد تقليل هذا الخطأ حتى نختار 5٪. إذا كان لديك حركة مرور أقل ، فقد ترغب في زيادة ذلك إلى 10٪ أو حتى 20٪.

إيجابية خاطئة: خطأ من النوع الأول - رفض الفرضية الصفرية عندما تكون صحيحة

القوة الإحصائية: هذا هو احتمال أن تحصل على سلبية كاذبة. عفوا! الطاقة (= 1 - خطأ من النوع الثاني) هي احتمال تجنب خطأ من النوع الثاني أو بعبارة أخرى القوة هي احتمال أن يكشف الاختبار عن انحراف عن الفرضية الصفرية ، في حالة وجود مثل هذا الانحراف. عادة نقوم بتعيينه على 80٪.

سلبي خطأ: خطأ من النوع الثاني - فشل في رفض الفرضية الصفرية عندما تكون خاطئة

الآن لدينا كل ما يمكننا فعله في الواقع وحساب حجم العينة المطلوبة. يمكننا إما استخدام الآلة الحاسبة عبر الإنترنت أو أداة الطاقة G أو R. اعتمادًا على الأداة التي تستخدمها ، قد ترى أرقامًا مختلفة قليلاً ولكن لا بأس.

دعونا نرى كل واحد منهم واحدا تلو الآخر:

أ) آلة حاسبة على الإنترنت مثل هذه هنا

ب) استخدم أداة G * Power: قم بتنزيل الأداة من هنا. انتقل إلى مجموعة الاختبارات Z ، الاختبارات الإحصائية باسم "النسب: الفرق بين نسبتين مستقلتين" وأضف P1 ، P2 ، Alpha (الأهمية الإحصائية) ، القوة = 0.8.

الناتج المتوقع:

ج) R: الوظيفة التي سنستخدمها هي power.prop.test (صفحة الدليل).

power.prop.test (n = NULL، p1 = NULL، p2 = NULL، sig.level = 0.05، power = NULL، البديل = c ("two.sided"، "one.sided")، صارم = FALSE)

انتقل إلى أي مترجم R عبر الإنترنت مثل هذا هنا واكتب الأمر التالي مع تعيين n إلى NULL.

اختبار power.prop.test (n = NULL، p1 = 0.2، p2 = 0.22، power = 0.8، البديل = 'two.sided'، sig.level = 0.05)

هذا هو الناتج الذي ستحصل عليه في R

مقارنة بين نموذجين لحساب قوة النسب 
             n = 6509.467 p1 = 0.2 p2 = 0.22 مستوى سيج = 0.05 طاقة = 0.8 بديل = اثنان.
ملاحظة: n رقم في * كل * مجموعة

هذا يعني أننا سنحتاج إلى حوالي 6510 عينة في كل مجموعة. مما يعني أننا بحاجة إلى 13020 حركة مرور.

لنفترض الآن أنك تعرف تاريخيًا أن عدد زيارات موقعك على الويب هو 2000 زائر ، فأنت تعلم أنه يجب عليك تشغيل اختبار الفرضيات الخاص بك لمدة 6.51 يومًا أو 7 أيام.

نقطة المكافأة: من الجيد دائمًا تغطية جميع أيام الأسبوع نظرًا لأن معظم الشركات لديها "أسبوعية" في نمط الطلب الخاص بها.

الآن في المرة القادمة التي توشك فيها على إجراء اختبار أ / ب ، قم بإجراء حساب مسبق لحجم العينة المطلوب حتى تتمكن من تعيين التوقعات الصحيحة مع أصحاب المصلحة في عملك.

فقط في حالة العثور على حجم العينة أكبر بكثير ولا تعتقد أنك ستحصل على أهمية بالنظر إلى حركة المرور الموجودة على موقع الويب الخاص بك ، لا تقلق ، في مشاركة أخرى ، سأشارك بعض الحيل الرائعة حول كيفية تشغيل A / B اختبار عندما لا يكون لديك ما يكفي من حركة المرور. حتى ذلك الحين ، اختبار A / B سعيد.