Was ist SEO A/B-Testing?
Mit SEO A/B-Testing kannst Du Deine SEO-Maßnahmen mit echten Zahlen untermauern. Ein klassischer A/B-Test bringt Dich im SEO nicht weiter, da Google nicht zwei Varianten Deiner Seite indexieren und in den Suchergebnissen darstellen kann.
Da kommt SEO A/B-Testing ins Spiel: Mit einem Split-Test teilst Du Deine Seiten in verschiedene Gruppen auf und testest diese gegeneinander. Durch die Aufteilung in Test- und Kontrollgruppen kannst Du saisonale Effekte, Updates und technische Änderungen, die Deinen Test beeinflussen könnten, aushebeln.
Dafür bietet Google direkt das richtige Konzept: Mit Causal Impact wird die Veränderung einer bestimmten KPI auf Basis Deiner Teständerung gegen eine unveränderte Kontrollgruppe getestet.
Wofür kannst Du es nutzen?
Du kannst Causal Impact für all Deine SEO-Tests nutzen. Wichtig dafür ist, dass Du genug Traffic auf Deinen Seiten hast. Unsere Empfehlung liegt bei mindestens 1.000 organischen Klicks am Tag für die URL-Grundgesamtheit. Diese besteht aus vielen Seiten eines bestimmten Typs, z.B. Produktdetailseiten oder Kategorieseiten. Bei kleineren Seiten ist die Methode also nicht zu empfehlen.
Erfüllt Deine Seite die Voraussetzungen, kannst Du beispielsweise diese Themen testen:
- Aufbau und Inhalte von Snippets
- Content wie Ratgeber, Kategorie- oder Produkttexte
- Integration von Bildern und Videos
- …und vieles mehr
Hypothesen erstellen
Der erste Schritt zum SEO A/B-Testing ist das Erstellen einer sauberen Hypothese: Was willst Du testen und welches Ergebnis erwartest Du? Du stellst eine H0 (Nullhypthose) und eine H1 (Alternativhypothese) auf. Diese müssen sich gegenseitig ausschließen.
Ein Beispiel:
H0 = Die Integration von Bildern in meine Ratgeber hat keine Auswirkungen auf den Nutzer und beeinflusst die Klicks nicht. H1 = Die Integration von Bildern in meine Ratgeber hat eine Auswirkung auf den Nutzer und beeinflusst die Klicks positiv. Die H0 ist die Ausgangshypothese und gilt so lange, bis das Gegenteil mithilfe von Daten bewiesen ist.
Stichprobengröße berechnen
Damit Du die Test- und Kontrollgruppe erstellen kannst, brauchst Du eine Grundgesamtheit an URLs, die für Deinen Test infrage kommen. Mithilfe einer „Sample Size Calculation“ berechnest Du, wie viele URLs der Grundgesamtheit in Deine Testgruppe gehören.
Dazu benutzt Du diese Formel:
N = Populationsgröße | e = Fehlerwert |
z = Z-Wert des Konfidenzniveau | p = Variabilität | q = 1-p
(Quelle: Israel, G. D. (1992). Determining Sample Size. Fact Sheet PEOD-6, a series of the Program Evaluation and Organizational Development, Florida Cooperative Extension)
Die Populationsgröße N ist dabei die Grundgesamtheit. In unserem Beispiel gehen wir von 1000 URLs aus. Der Fehlerwert e ist der Stichprobenfehler, als Standard kannst Du hier 5% nehmen. Das Konfidenzniveau z zeigt die Wahrscheinlichkeit, dass die Stichprobe repräsentativ ist. Dabei ist 0,95 der Standard, der z-Wert, den Du brauchst, ist dann 1,96.
Die Variabilität p zeigt, wie variabel Deine Grundgesamtheit ist. Hier kannst Du 50% annehmen, so bekommst Du eine konservative Stichprobengröße.
So sieht unsere Beispielrechnung aus:
Die berechnete Stichprobengröße ist so 278, das heißt in unserem Beispiel nehmen wir 278 URLs in die Testgruppe auf und verändern deren Merkmale gemäß unserer Hypothese.
Tipp:
Möchtest Du das nicht per Hand machen, kannst Du einen Sample Size Calculator verwenden.
einen solchen Rechner findest Du auf calculator.net.
Test- und Kontrollgruppe ermitteln
Jetzt müssen wir 278 URLs finden, die den gleichen Performanceverlauf haben wie die restlichen 722 URLs. Wir teilen die Grundgesamtheit also in Test- und Kontrollgruppe ein.
Dabei solltest Du auf eine möglichst ähnliche Performance achten. Besonders das Verhältnis muss stimmen. Auch Faktoren wie Saisonabhängigkeit sollten in den beiden Gruppen möglichst ausgeglichen aufgeteilt sein. Der wichtigste Faktor dabei ist der, den Du nachher in Deinem SEO-Test messen willst – oftmals sind das Klicks.
Nach der Aufteilung kannst Du Deine Gruppen überprüfen, indem Du die Klick-Tageswerte der Test- und Kontrollgruppe im Vorzeitraum nebeneinanderlegst.
Beim Vorzeitraum gilt: Je länger, desto besser. Mindestens solltest Du Dir die Daten von drei Monaten ansehen. Mit der Excel-Funktion „KORREL“ prüfst Du die Korrelation der beiden Zellbereiche.
Wir raten Dir, eine Korrelation von mindestens 90% anzustreben – Je höher, desto besser.
Korrelation in Excel berechnen.
In unserem Beispiel sehen wir, dass Test- und Kontrollgruppe fast parallel verlaufen. Wir haben eine Korrelation von 0,97 mit Excel errechnet.
Tipps zum Teststart
Nachdem Du Test- und Kontrollgruppen bestimmt hast, ist es wichtig, dass Du den Test so schnell wie möglich startest. So kannst Du sichergehen, dass Veränderungen in den beiden Gruppen mit dem Test zusammenhängen.
Wir empfehlen Dir, dass Du all Deine geplanten Änderungen an der Testgruppe innerhalb von einer Woche umsetzt und gesammelt hochlädst. Sobald Deine Änderungen live sind, beginnt der SEO-Test. Sollten Deine Seiten nicht regelmäßig gecrawlt werden, ist es empfehlenswert, das Crawling manuell anzustoßen.
Dein Test ist jetzt also live. Du solltest ihn mindestens vier bis sechs Wochen laufen lassen, um ein aussagekräftiges Ergebnis zu erhalten. Je weniger Traffic Du hast, umso länger solltest Du den Test online lassen, damit ausreichend Traffic auf Deine Seite kommt.
Testauswertung: SEO A/B-Testing mit Causal Impact
Zur Auswertung Deines SEO-Tests arbeitest Du mit Causal Impact.
Hier kannst Du dir das R-Package von Google downloaden. Die Installationsanleitung und alle wichtigen Infos findest Du ebenfalls hier ebenfalls.
Nachdem Du das Package runtergeladen hast, überträgst Du den Code in R. Mit einer Read-Funktion kannst Du Deine Testdaten einlesen. Damit Du die Daten einlesen kannst, benötigst Du die Libraries (readr) und (CausalImpact).
Lade sie am besten in einer CSV hoch. Dazu gibst Du dem Tool den Pfad und das Trennzeichen an. Danach macht das Skript fast alles von alleine.
Hier siehst Du den Aufbau der CSV-Datei unseres Beispieltests für den Upload:
Y = Testgruppe (Summe der Klicks)
X = Kontrollgruppe (Summe der Klicks)
y | x |
Klicks der Testgruppe im Vorzeitraum Tag 1 | Klicks der Kontrollgruppe im Vorzeitraum Tag 1 |
Klicks der Testgruppe im Vorzeitraum Tag 2 | Klicks der Kontrollgruppe im Vorzeitraum Tag 2 |
… | … |
Klicks der Testgruppe in der Testphase Tag 1 | Klicks der Kontrollgruppe in der Testphase Tag 1 |
Klicks der Testgruppe in der Testphase Tag 2 | Klicks der Kontrollgruppe in der Testphase Tag 2 |
… | … |
Du musst noch angeben, was Vorzeit- und Testzeitraum sind. In diesem Beispiel geben wir an, dass die Daten des Vorzeitraums in Zeile 1-99 und die Daten des Testzeitraums in Zeile 100-200 zu finden sind. Wir legen unseren Wochen- und Tageszyklus fest. (nseasons = 7) bedeutet, dass unser Wochenzyklus 7 Tage hat. (season.duration =1) drückt aus, dass wir jeden Tag einen Datenpunkt angeben.
Testeinstellungen
Nachdem wir alle Infos angegeben haben, können wir die Daten visualisieren und uns eine Beschreibung des Ergebnisses anzeigen lassen. Dazu nutzt Du zuerst „Plot“ und dann „Summary.“ Das geht alles automatisch, ohne dass Du selbst etwas berechnen musst.
Visualisierung und Beschreibung der Ergebnisse.
Interpretation der Testergebnisse: So liest Du die Grafik
Causal Impact hat Dir nun Dein Ergebnis bereitgestellt.
Bei unserem beispielhaften SEO-Testing sieht das so aus:
Positives Ergebnis nach Causal Impact.
Die Grafik, die uns ausgegeben wird, ist in drei Bereiche aufgeteilt.
Das sagen uns diese Abschnitte:
Original
Das erste Feld zeigt durch die blaue Linie eine Vorhersage dessen, was mit der schwarzen Linie geschehen wäre, wenn die Intervention (gestrichelte vertikale Linie) nicht stattgefunden hätte („Wie wäre der Verlauf ohne Änderung?“). Die schwarze Linie zeigt den tatsächlichen Verlauf der Daten.
Pointwise
Hier wird die Differenz zwischen beobachteten Daten und der Schätzung aufgezeigt.
Cumulative Impact
Der Effekt der Änderung wird in diesem Feld kumuliert dargestellt. Die gestrichelte Linie zeigt die über die Zeit summierte Wirkung für jeden Datenpunkt. Die hellblaue, etwas breitere Linie stellt das 95-Prozent-Glaubwürdigkeitsintervall dar. In Bezug auf unser Beispiel wird bei dieser Ansicht die Erkenntnis gewonnen, wie viele Klicks die Testgruppe dazugewonnen oder verloren hat.
Interpretation der Testergebnisse: Positive Effekte erkennen
Nun starten wir mit der Erklärung der Ergebnisse.
Wir beginnen wieder mit unserem Beispieltest:
Positives Ergebnis nach Causal Impact.
Wir sehen in der Grafik, dass die schwarze Linie im ersten Teil über der Vorhersage liegt, also besser performt hat. Auch im zweiten und dritten Teil ist die positive Steigung deutlich zu erkennen.
Causal Impact gibt uns diese Interpretation der Ergebnisse aus:
During the post-intervention period, the response variable had an average value of approx. 3.31K. By contrast, in the absence of an intervention, we would have expected an average response of 2.52K. The 95% interval of this counterfactual prediction is [2.40K, 2.65K].
Subtracting this prediction from the observed response yields an estimate of the causal effect the intervention had on the response variable. This effect is 0.78K with a 95% interval of [0.66K, 0.90K]. For a discussion of the significance of this effect, see below.
Summing up the individual data points during the post-intervention period (which can only sometimes be meaningfully interpreted), the response variable had an overall value of 158.69K. By contrast, had the intervention not taken place, we would have expected a sum of 121.15K. The 95% interval of this prediction is [115.27K, 127.08K].
The above results are given in terms of absolute numbers. In relative terms, the response variable showed an increase of +31%. The 95% interval of this percentage is [+26%, +36%].
This means that the positive effect observed during the intervention period is statistically significant and unlikely to be due to random fluctuations. It should be noted, however, that the question of whether this increase also bears substantive significance can only be answered by comparing the absolute effect (0.78K) to the original goal of the underlying intervention.
The probability of obtaining this effect by chance is very small (Bayesian one-sided tail-area probability p = 0.001). This means the causal effect can be considered statistically significant.
Die zwei wichtigsten Abschnitte der Interpretation haben wir fett markiert. Zusammengefasst sagt uns die Auswertung, dass unsere SEO-Klicks in der Testgruppe um 31% im Vergleich zum vorherigen Zeitraum gestiegen sind. Das dieses Ergebnis zufällig ist, ist sehr unwahrscheinlich und der Test ist statistisch signifikant.
Interpretation der Testergebnisse: Nicht signifikanter Test
In diesem zweiten Beispiel mit anderen Testdaten ist das Ergebnis nicht signifikant. Das bedeutet, dass die Testgruppe nach der Änderung statistisch gesehen nicht besser oder schlechter als die Kontrollgruppe ist.
Nicht signifikantes Ergebnis nach Causal Impact.
Im ersten Teil der Grafik überlappen die Linien die meiste Zeit. Es ist keine Abweichung zwischen dem tatsächlichen Verlauf und der Vorhersage zu erkennen. Im zweiten Feld ist keine eindeutige Differenz zwischen Schätzung und den beobachteten Daten sichtbar. Dies ist daran zu erkennen, dass sich die blaue, gestrichelte Linie sehr nah um die Null-Linie bewegt.
Im kumulativen Part gibt es in den ersten Tagen kaum Effekte, dann siehst Du erst einen leicht negativen und dann einen leicht positiven Verlauf. Der Effekt ist allerdings nicht signifikant. Das ist daran zu erkennen, dass das Konfidenzintervall (hellblaue Fläche) nicht die Mittellinie überschreitet.
Google gibt uns unter anderem diese Erklärungen:
The above results are given in terms of absolute numbers. In relative terms, the response variable showed an increase of +2%. The 95% interval of this percentage is [-3%, +7%].
The probability of obtaining this effect by chance is p = 0.276. This means the effect may be spurious and would generally not be considered statistically significant.
Die Testgruppe hat also um 2% besser performt als die Kontrollgruppe, was auch Zufall sein könnte und statistisch nicht aussagekräftig ist.
Interpretation der Testergebnisse: Negative Effekte bewerten
In einem dritten Testdatensatz sehen die Ergebnisse wiederum anders aus. Hier sehen wir einen negativen Effekt, die veränderte Testgruppe weist also eine schlechtere Performance auf als die Kontrollgruppe.
Negatives Ergebnis nach Causal Impact.
In der Grafik sieht man, dass die schwarze Linie im ersten Teil unter der Vorhersage liegt. Auch im zweiten und dritten Part sind eindeutig negative Effekte erkennbar.
Google sagt uns dazu unter anderem:
The above results are given in terms of absolute numbers. In relative terms, the response variable showed a decrease of -19%. The 95% interval of this percentage is [-25%, -12%].
The probability of obtaining this effect by chance is very small (Bayesian one-sided tail-area probability p = 0.001). This means the causal effect can be considered statistically significant.
Die Testgruppe hat bei diesem Test also 19% weniger Klicks erzielt als die Kontrollgruppe. Das Ergebnis ist signifikant.
Nun hast Du alle Hintergrundinformationen, um das SEO-Testing mit Causal Impact in Deinem Unternehmen einzuführen.
Hier nochmal die wichtigsten Schritte:
- Testcase aufstellen: Was willst Du testen?
- Hypothesen bilden: Was ist Deine Erwartung an das Ergebnis?
- Grundgesamtheit bilden: Welche Seiten benötigst Du für Deinen Test?
- Sample Size Calculation: Wie viele URLs brauchst Du für Deine Testgruppe?
- Test- und Kontrollgruppe bilden
- Änderungen durchführen
- 4-6 Wochen warten
- Test mit Causal Impact von Google auswerten
Viel Spaß beim Testen und Suchmaschinen-Ranking verbessern!
Sie sehen gerade einen Platzhalterinhalt von YouTube. Um auf den eigentlichen Inhalt zuzugreifen, klicken Sie auf die Schaltfläche unten. Bitte beachten Sie, dass dabei Daten an Drittanbieter weitergegeben werden.
Mehr Informationen