Zum Hauptinhalt springen

Meine 4 Learnings über A-/B-Tests

Willkommen zum ersten Snack auf Sub Growth. Anders als die ausführlichen monatlichen Deep Dives, bieten diese kurzen Beiträge schnelle Einblicke und Branchen-Updates.

A-/B-Tests sind unverzichtbar, um im Abo-Geschäft erfolgreich zu sein. Ob bei Spotify, Netflix, Disney oder der New York Times – alles wird getestet, bevor es großflächig eingeführt wird.

Ich habe in den letzten Jahren über 100 A-/B-Tests durchgeführt und möchte meine Top 4 Learnings teilen. Diese Einblicke sind zwar aus einer Nicht-Data-Perspektive, aber gerade deshalb besonders wertvoll für alle, die aus Produkt- oder Growth-Sicht an das Thema herangehen. Meine Learnings sollen Dir als Impuls dienen, um bei Interesse tiefer einzusteigen.

1. Achte auf den Neuheitseffekt

Ein häufiger Stolperstein bei meinen A-/B-Tests war der verlockende erste Uplift. Man schaut nach einer Woche Test-Laufzeit auf die ersten Ergebnisse und sieht einen großen Uplift in der Testgruppe.

Doch Vorsicht: Oft schwindet dieser Gewinn nach einigen Wochen – ein klassisches Zeichen für den Neuheitseffekt (novelty effect). Besonders wiederkehrende Nutzer können durch neue Elemente wie ein verändertes Paywall-Layout oder frische Features kurzfristig zu untypischem Verhalten verleitet werden.

Novelty Effect / Neuheitseffekt

Um nicht auf auf solche Testresultate hereinzufallen, empfehle ich:

  • Tests verlängern: Ein längerer Testzeitraum hilft, die anfängliche Begeisterung von echten Verbesserungen zu unterscheiden. Ein schrumpfendes Delta zwischen Test- und Kontrollgruppe über die Zeit deutet auf den Neuheitseffekt hin.

  • Erstbesucher analysieren: Wenn Erstbesucher keine signifikanten Unterschiede zwischen Test- und Kontrollgruppe zeigen, aber Wiederkehrende schon, dann ist Skepsis angebracht.

2. Testgröße vorab bestimmen

Es ist frustrierend, wenn man feststellen muss, dass die Test- und Kontrollgruppe nicht groß genug waren, um valide Ergebnisse zu liefern – vor allem, wenn der Test schon abgeschlossen ist. Um dies zu verhindern, ist es entscheidend, die notwendige Testgröße für Deinen A-/B-Test im Vorfeld zu berechnen.

Wichtiges zur Signifikanz:

Nicht jede Veränderung ist gleich eine Verbesserung. Deshalb ist es wichtig, die statistische Signifikanz zu verstehen:

  • Signifikanzniveau: Standardmäßig nutzen wir 5%, was bedeutet, dass wir mit 5% Wahrscheinlichkeit einen Effekt annehmen, der in Wirklichkeit nicht existiert (Typ-I-Fehler). Bei kleineren Volumen kann auch ein Niveau von 10% oder niedriger akzeptabel sein.

Tools wie abtestguide.com (Öffnet in neuem Fenster) ermöglichen es Dir, die Signifikanz Deiner Ergebnisse zu überprüfen und mit verschiedenen Niveaus zu experimentieren.

Um vor Test-Start die Größe Deiner Testgruppe festzustellen, hilft Dir der Sample Size Rechner von Evan Miller (Öffnet in neuem Fenster). Dieser erspart Dir ein böses Erwachen im späteren Verlauf des Tests und hilft Dir auch bei zeitlichen Planungen Deiner A-/B-Tests.

Nehmen wir als Beispiel an, Du möchtest auf Deiner Paywall die Benefits des Abos testen. Dies soll Deine standardmäßige Conversion-Rate von 1,5 % um mindestens 10 % erhöhen. Bei der Bestimmung Deiner Testgröße berücksichtigt Du in Evan Millers Rechner folgendes:

  • Basisrate: Die standardmäßige Ausprägung der zu betrachtenden KPI. In dem Fall 1,5 % (Conversion-Rate).

  • Minimale erwartete Verbesserung: Der kleinste Effekt, den du noch erkennen möchtest, relativ zur Basisrate. Hier also 10 %.

  • Alpha: Das gewählte Signifikanzniveau, je nach Risikobereitschaft 5% oder 10%.

  • Beta: Die Teststärke, üblicherweise bei 80% (Beta = 0,20), gibt die Wahrscheinlichkeit an, keinen Effekt zu erkennen, obwohl tatsächlich einer vorhanden ist (Typ-II-Fehler).

Für unser Beispiel müsstest Du den Rechner also so ausfüllen:

🤖 Noch einfacher geht es mit ChatGPT. Prompte dafür:

Meine Conversion-Rate liegt bei 1,5 %. Ich erhoffe mit meiner Maßnahme eine Verbesserung von 10 %. Sage mir, wie groß nach Evan Miller meine Testgruppe bei 5 % Signifikanz sein muss.

3. Eine KPI pro Test

In jedem A-/B-Test solltest Du Dich auf genau eine KPI konzentrieren. Entscheide Dich bei jedem Test für eine spezifische Metrik, sei es die Erhöhung der Conversion-Rate, die Verbesserung der Klick-Rate auf der Paywall, die Verlängerung der Verweildauer oder die Steigerung der Seitenaufrufe pro Besuch.

Ich weiß aus eigener Erfahrung, dass die Versuchung groß ist, nach positiven Signalen zu suchen, besonders wenn ein Test keine klaren Ergebnisse zeigt. Wir möchten alle unbedingt, dass unser Aufwand belohnt wird. Aber Vorsicht: Je mehr KPI Du in einem A-/B-Test bewertest, desto höher ist die Wahrscheinlichkeit, zufällige positive Abweichungen zu finden.

Nehmen wir unser A-/B-Test-Beispiel von oben: Du führst einen Test durch, um zu sehen, ob ein neues Paywall-Layout mit Benefits die Conversion-Rate erhöht. In diesem Fall sollte die Conversion-Rate Deine einzige KPI sein. Wenn Du gleichzeitig andere Metriken wie Klick-Rate oder Verweildauer betrachtest, erhöhst Du das Risiko, irrtümlich positive Effekte zu identifizieren.

Dieses Risiko ist als "Family Wise Error Rate" (FWER) bekannt. Prüfst Du bei einem A-/B-Test die Signifikanz auf 5 % und fokussierst Dich nur auf eine KPI liegt das Risiko, einen Typ-I-Fehler zu begehen, bei maximal 5%. Testest Du jedoch sieben unterschiedliche KPIs in demselben Test, steigt das Risiko auf etwa 30,17%, dass mindestens eine dieser KPI fälschlicherweise als signifikant erachtet wird:

FWER = 1 - (1 - 0,05) ^ 7 ≈ 30,17%

Dies unterstreicht, wie wichtig es ist, sich in jedem A-/B-Test auf nur eine KPI zu konzentrieren, um methodische Sauberkeit und statistische Genauigkeit zu gewährleisten.

4. Alternative

Nicht jeder Verlag hat die Möglichkeit, genügend Nutzer:innen für signifikante A-/B-Tests zu mobiliseren. Und ehrlicherweise: Niemand möchte einen einzigen Test 3 Monate oder länger laufen lassen. Auch größere Publisher stehen vor dieser Herausforderung, sobald es im Funnel weiter nach unten geht und Maßnahmen gegen Churn getestet werden.

Bevor Du Dich in diesem Fall aber vollständig auf Dein Bauchgefühl verlassen musst, können Usability Tests eine hilfreiche Alternative sein. Zwar liefern sie keine klare Aussage darüber wie A-/B-Tests, ob eine Maßnahme X Prozent mehr Conversions oder weniger Churn bringen wird. Sie bieten aber wertvolle Einblicke, um fundierte Entscheidungen zu treffen.

Bei einem Usability Test beobachtest und analysierst Du, wie Nutzer:innen bestimmte Aufgaben erledigen. Rückmeldungen erhältst Du direkt durch Befragungen oder indirekt durch die Beobachtung ihrer Reaktionen.

Nehmen wir wieder unser bekanntes Beispiel: Du führst Nutzer:innen durch verschiedene Paywall-Versionen (mit und ohne Benefits) und sammelst Feedback zu Klarheit, Überzeugungskraft und Benutzerentscheidungen. Typische Aufgaben könnten sein:

  1. Aufgabe: Bewertung der Paywall-Informationen

    • "Betrachten Sie die Informationen auf der Paywall. Bitte teilen Sie uns mit, was Sie über die präsentierten Informationen denken und ob diese Ihre Entscheidung beeinflussen, weiterzumachen oder nicht."

    • Ziel: Erfassen von Feedback zur Klarheit und Überzeugungskraft der Informationen auf der Paywall, sowohl mit als auch ohne Benefits.

  2. Aufgabe: Entscheidungsprozess

    • "Bitte entscheiden Sie, ob Sie auf den Button auf der Paywall klicken würden, um Zugang zu erhalten. Erläutern Sie uns Ihre Entscheidung."

    • Ziel: Verstehen der Entscheidungsfindung der Benutzer und der Faktoren, die sie beeinflussen, insbesondere der Einfluss der Benefits.

  3. Aufgabe: Vergleich der Varianten

    • "Hier sind zwei Versionen unserer Paywall: eine mit Benefits und eine ohne. Bitte vergleichen Sie diese und teilen Sie uns mit, welche Version Sie eher zum Klicken veranlasst und warum."

    • Ziel: Direkter Vergleich der beiden Versionen, um festzustellen, welche effektiver in Bezug auf die Benutzererfahrung und die Erhöhung der Klickrate ist.

Für aussagekräftige Ergebnisse reichen oft 5-8 Gespräche aus. Tools wie maze (Öffnet in neuem Fenster) und Rapid User Tests (Öffnet in neuem Fenster) können Dir bei unmoderierten Tests hilfreich sein.

Übrigens: Usability Tests und Interviews ergänzen auch A-/B-Tests ideal. Sie helfen Dir nicht nur bei der Optimierung, sondern geben auch Aufschluss darüber, warum Nutzer:innen sich wie verhalten.

Ich hoffe, dass diese Learnings nützlich für Deine zukünftigen Testvorhaben sind und wünsche Dir viel Erfolg bei Deinen nächsten Tests.

Sascha

Du möchtest meine Snacks und Deep Dives direkt in Dein Postfach bekommen und nichts mehr verpassen? Dann meld Dich einfach kostenlos an:

Kategorie Snacks