Methodik · Modell v4.6 · Stand 21.05.2026

Wie die Simulation rechnet, was sie nicht kann.

Monte-Carlo-Wahlsimulation für 18 deutsche Wahlen, kalibriert an 34 historischen Ergebnissen. Diese Seite dokumentiert das Modell: Datenquellen, Bayesianisches Blending, bekannte Schwächen.

Simulationen
10.000
je Wahl, alle 6 h
Backtest-MAE
±1,6 Pp
Leave-One-Out, 34 Wahlen
Beobachtete Wahlen
18
bis 2029
Datenquellen
8
dawum, GENESIS, BA, ECB, OECD, GDELT, DIP, AW
Brier-Score
0,084
gut kalibriert · +20,4 % vs. Zufall
CRPS
1,11 Pp
über alle Parteistimmen

Verlässlichkeits-Score (1-10) — wie der Score entsteht

Auf der Startseite und den Wahl-Karten zeigen wir pro Wahl einen Verlässlichkeits-Score zwischen 1,0 und 10,0 mit qualitativem Label (solide / belastbar / vorläufig / grob / Skizze). Er beantwortet nicht "wer gewinnt?", sondern: wie sicher ist diese Prognose überhaupt? Eine Wahl in 1 200 Tagen mit dürftigen Polls bekommt 3/10, eine Wahl in 7 Tagen mit 15 frischen Umfragen kann 9-10/10 erreichen.

Der Score ist eine bewusst lineare Heuristik aus vier Komponenten — kein statistisches Konfidenz-Maß, sondern ein lesbarer Qualitäts-Indikator. Wichtig: ein hoher Score heißt nicht, dass das Ergebnis stimmt. Er heißt nur, dass die Daten-Basis und die Modell-Streuung für diese Wahl ausreichend für eine belastbare Aussage sind.

score = 10 × (0,40·time + 0,30·polls + 0,20·convergence + 0,10·freshness)
KomponenteGewichtWas sie misstSkala 0 → 1
Zeit40 %Wie nah ist die Wahl?365 Tage → 0 · 0 Tage → 1
Polls30 %Wie viele Umfragen wurden in die Aggregation aufgenommen?0 Polls → 0 · 15+ Polls → 1
Konvergenz20 %Wie eng sind die Konfidenz-Bänder im Modell? (mittlere σ über alle Parteien)σ 3 Pp → 0 · σ 0 Pp → 1
Frische10 %Wann war die jüngste Umfrage?60 Tage alt → 0 · 0 Tage → 1

Label-Bänder: 9,0–10,0 solide · 7,0–8,9 belastbar · 5,0–6,9 vorläufig · 3,0–4,9 grob · 1,0–2,9 Skizze.

Warum keine Prozent-Zahl? Weil "73 %" auf einer Seite mit CI95-Trefferquote 94,8 % und Sieger-Wahrscheinlichkeiten von 92 % sofort als Wahrscheinlichkeits-Wert gelesen würde — das ist der Score aber explizit nicht. "7,3/10" ist eindeutig ein subjektiver Qualitäts-Score, keine Wahrscheinlichkeit.

Datenquellen

Das Modell integriert drei Datenstränge:

Gewichteter Umfragedurchschnitt

Statt alle Umfragen gleich zu behandeln, gewichte ich nach zwei Faktoren:

Aktualität (Temporal Decay)

Neuere Umfragen zählen mehr. Das Gewicht halbiert sich alle 14 Tage (exponentieller Abfall):

w(t) = e^(-0.693 · t / 14)

Eine Umfrage von gestern hat volles Gewicht. Eine Umfrage von vor 4 Wochen hat nur noch 25 % Gewicht. Ich nutze bis zu 20 Umfragen pro Wahl.

Institutsgüte und House Effects

Seit v4.0 werden die Institutsgewichte automatisch aus den Daten geschätzt statt manuell gesetzt. Für jede historische Wahl berechne ich den mittleren Fehler (MAE) jedes Instituts und gewichte invers: Institute mit kleinerer Abweichung bekommen mehr Gewicht.

Zusätzlich korrigiere ich für systematische Verzerrungen pro Institut und Partei (House Effects). Wenn ein Institut die AfD historisch um 1.5 PP unterschätzt, wird dieser Bias bei der Aggregation herausgerechnet. Die House Effects werden bei jedem Backtesting-Lauf neu geschätzt und in house_effects.json gespeichert — die aktuellen Werte sind unten als Tabelle offengelegt.

Die Institutsgewichte und House Effects basieren auf dem Backtesting über 34 historische Wahlen. Bei Instituten mit weniger als 3 vergleichbaren Wahlen greife ich auf einheitliche Gewichte zurück.

Fehlermodell

Für jede Partei berechne ich eine individuelle Standardabweichung (σ) mit vier Komponenten:

1. Basis-Unsicherheit

σ_base = max(0.5, Umfragewert × 0.06 + 0.3)

Größere Parteien haben höhere absolute Unsicherheit, aber niedrigere relative Unsicherheit.

2. Systematischer Bias

Umfragen haben immer einen systematischen Fehler, der nicht durch Mittelwertbildung verschwindet. Ich nutze partei-spezifische Bias-Terme statt eines pauschalen Werts:

Parteiσ_systematicBegründung
AfD2.2 PPSocial-Desirability-Bias, Shy-Voter-Effekt in Telefonumfragen
BSW2.0 PPNeue Partei, keine historische Baseline
FDP1.4 PPVolatil nahe der 5%-Hürde
Grüne, Linke1.3 PPTendenz zur Überschätzung in Umfragen
SPD1.1 PPLeichte Unterschätzung in jüngerer Vergangenheit
CDU/CSU1.0 PPAm genauesten erfasst
Die Werte basieren auf der Analyse historischer Umfrage-Ergebnis-Differenzen aus dem Backtesting-Datensatz (34 Wahlen, 2017–2026). Sie decken sich mit den Ergebnissen von Selb et al. (2023), die über 5.240 deutsche Umfragen einen mittleren partei-spezifischen Bias von 0.9 bis 3.2 PP fanden.

3. Unsicherheit über Zeit (Random Walk)

σ_swing = min(3.0, 0.13 × √Tage)

Ich nutze eine Wurzel-Skalierung — angelehnt an Random-Walk-Modelle (Linzer 2013). Die Unsicherheit wächst anfangs schnell, flacht dann ab: bei 30 Tagen ≈ 0.7 PP, bei 180 Tagen ≈ 1.7 PP, bei 365 Tagen ≈ 2.5 PP.

4. Kleine-Parteien-Prämie

Parteien unter 8% erhalten eine proportional höhere Unsicherheit, da deren Wählerschaft volatiler ist und Umfragen bei kleinen Parteien stärker streuen.

Gesamtfehler

σ = √(σ_base² + σ_systematic² + σ_swing²) × Kleine-Parteien-Faktor

Partei-Korrelationen

Wenn eine Partei bei einer Wahl besser abschneidet als in den Umfragen, verlieren oft andere Parteien. Dies modelliere ich über eine paarweise Korrelationsmatrix statt eines einfachen globalen Swings:

Korrelierte Ziehung via Cholesky-Zerlegung:
x = μ + L · z, wobei L·Lᵀ = Σ (Kovarianzmatrix)

Die Korrelationen bilden empirische Wählerwanderungsmuster ab:

Einschränkung: Die Korrelationsmatrix ist aus 34 historischen Wahlen geschätzt — ein kleines Sample. Die Werte sind Näherungen, die bei Landtagswahlen anders ausfallen können als bei Bundestagswahlen.

Kompositionelle Verteilung

Stimmenanteile müssen sich zu 100 % addieren — eine Normalverteilung kann das nicht garantieren. Seit v4.0 nutze ich die Logistic-Normal-Verteilung via Centered Log-Ratio (CLR) (Aitchison 1982). Dabei werden die Prozentwerte in den CLR-Raum transformiert, dort normalverteilt gesampelt (mit der Cholesky-korrelierten Struktur), und über eine Softmax-Funktion zurücktransformiert. Das Ergebnis summiert sich automatisch zu 100 %, ohne künstliche Normalisierung.

CLR(p) = log(p_i / exp(mean(log(p))))
Rücktransformation: p_i = exp(clr_i) / Σ exp(clr_i)

Fundamentals-Prior

Umfragen allein sind vor allem weit vor der Wahl unzuverlässig. Seit v4.0 kombiniere ich sie bayesianisch mit einem Fundamentals-Prior — inspiriert von zweitstimme.org (Stoetzer et al. 2019) und dem Kanzlermodell (Norpoth & Gschwend).

Drei Prädiktoren

Bayesianisches Blending

Der Prior wird zeitabhängig mit dem Umfragedurchschnitt kombiniert:

Prognose = w_poll × Umfrageschnitt + w_fund × Fundamentals-Prior
w_fund = 0.35 / (1 + e^(-(Tage-120)/60))

Bei 365 Tagen vor der Wahl bestimmt der Prior ~35% des Ergebnisses. Bei 30 Tagen nur noch ~7%. Am Wahltag dominieren die Umfragen fast vollständig.

Seit v4.1 enthält das Blending einen Disagreement-Dampener (eine heuristische Sicherung): Wenn Umfragen und Fundamentals-Prior für eine Partei über 10 PP auseinander liegen (z.B. MV: Umfragen SPD 25%, Prior SPD 45%), wird das Prior-Gewicht automatisch halbiert. Bei über 15 PP Differenz auf 30% reduziert. Das verhindert, dass historische Ergebnisse aktuelle Umfragetrends übersteuern.

Regionale Wirtschaftslage

Die Arbeitslosenquote des Bundeslandes wird als Korrekturfaktor genutzt: In Bundesländern mit überdurchschnittlicher Arbeitslosigkeit geht dies im Modell mit einem leicht höheren AfD-Anteil (+0.3 PP pro Prozentpunkt Differenz) und niedrigerem Regierungsparteien-Anteil (-0.2 PP) einher. Diese Koeffizienten sind heuristisch gesetzt und bilden eine beobachtete statistische Tendenz ab — keine kausale Beziehung.

Grenzen: Der Fundamentals-Prior nutzt keine individuellen MP-Beliebtheitswerte für Landtagswahlen (nur den statischen Bonus von 3.0 PP), da diese Daten nicht systematisch erhoben werden. Der Prior kann bei untypischen Wahlen (z.B. Neuwahlen nach Regierungskrisen) irreführend sein.

Monte-Carlo-Simulation

Pro Wahl führe ich 10.000 Simulationen durch. In jeder Simulation:

Sperrklauseln und Sitzverteilung

ParlamentKlauselVerteilungBesonderheiten
Bundestag5%Sainte-LaguëGrundmandatsklausel (3 Direktmandate) nicht modelliert
Landtage (Standard)5%Sainte-Laguë
Hessen, Saarland5%d'HondtAbweichendes Divisorverfahren
Schleswig-Holstein5%Sainte-LaguëSSW befreit (Minderheitenpartei)
EuropaparlamentkeineSainte-LaguëSeit 2024 keine Sperrklausel in DE
Die Grundmandatsklausel des Bundestags (3 Direktmandate ermöglichen den Einzug auch unter 5%) wird nicht modelliert. Das kann bei Parteien nahe der 5%-Hürde mit starken Wahlkreisergebnissen (historisch: Linke, CSU) zu falschen Einzugswahrscheinlichkeiten führen.

Ergebnisse

Aus den 10.000 Simulationen berechnen wir:

Wahlkreis-Projektion

Für die 299 Bundestagswahlkreise nutzen wir ein Regional-Swing-Modell: Pro Bundesland berechnen wir die Veränderung zwischen aktuellen Landtagswahl-Umfragen und dem BTW-2025-Ergebnis, gedämpft um den Faktor 0.6 (da Landtagstrends sich nicht 1:1 auf Bundestagswahlen übertragen). Für Bundesländer ohne aktuelle LTW-Umfragen greifen wir auf den nationalen Trend zurück.

Limitierung: Auch mit regionalem Swing bleiben lokale Kandidateneffekte, taktisches Wählen und wahlkreisspezifische Dynamiken unberücksichtigt. Der Dämpfungsfaktor von 0.6 ist eine bewusste Modellentscheidung — Landtagswahl-Trends übertragen sich erfahrungsgemäß nur teilweise auf Bundestagswahlen. Die Projektion ist eine differenziertere Annäherung als Uniform Swing, aber keine Vorhersage auf Wahlkreisebene.

Track Record (Backtesting)

Ich habe das Modell per Leave-One-Out Cross-Validation auf 34 historische Wahlen (2017–2026) angewendet. Dabei wird jede Wahl einzeln ausgeschlossen, damit sie ihren eigenen Fundamentals-Prior nicht informieren kann — das mildert Overfitting.

Ehrlicher Hinweis: Die Modell-Parameter (Institutsgewichte, partei-spezifische Bias-Terme, Korrelationsmatrix) wurden an denselben 34 Wahlen kalibriert, an denen jetzt getestet wird. Leave-One-Out mildert diese Zirkularität, ersetzt aber kein echtes Out-of-Sample-Testing. Ein laufender Live-Test (eingefrorene Prognose vor jeder kommenden Wahl, öffentlich archiviert) ist in Vorbereitung und wird hier hinzugefügt, sobald die ersten Testwahlen vorbei sind.
±1.63 Pp
Mittlere Abweichung (alle Parteien)
93.4 %
Im 95 %-Intervall
82.4 %
Modell-Favorit = Sieger

Koalitions-Validierung

Über die reinen Stimmen-Prozente hinaus prüfe ich: Wie oft war die nach der Wahl tatsächlich gebildete Koalition in der Modell-Vorhersage als realistische Option enthalten? Vor jeder Wahl liefert das Modell für eine feste Auswahl an Standard-Koalitionen (GroKo, Schwarz-Grün, Ampel, R2G, Jamaika, Kenia, Deutschland-Koalition, CSU+FW, SPD+BSW und einige mehr) je eine Mehrheits-Wahrscheinlichkeit über die 10 000 Monte-Carlo-Szenarien. Für 27 historische Wahlen (alle bei denen die gebildete Koalition zur Standard-Auswahl gehört — Allein-Regierungen wie SL-2022 und Sonderfälle wie SPD+Linke MV-2021 sind ausgeschlossen, ebenso die zwei EU-Wahlen und die zwei noch offenen Wahlen 2026) ranke ich, an welcher Position diese Koalition im Modell stand.

85,2 %
Gebildete Koalition in Top-3
33,3 %
Modell-Favorit-Koalition = gebildet
67,9 %
∅ Modell-Wahrscheinlichkeit der gebildeten Koalition
27
Wahlen im Vergleichs-Pool
Einzelne Wahlen anzeigen
WahlGebildete KoalitionRankModell-WK
Lade Backtest-Daten …
Interpretation: 85 % Top-3 heißt: in 85 % der Fälle hat das Modell die später gebildete Koalition als eine der drei wahrscheinlichsten Mehrheits-Optionen ausgewiesen. Das ist kein Glück — die Modell-WK der konkret gebildeten Koalition lag im Schnitt bei 68 %. Aber: das misst die strukturelle Frage „Wer könnte zusammen regieren?", nicht die politische „Wer will mit wem?". Sondierungen, Personalentscheidungen, Wahlversprechen und Tagespolitik liegen außerhalb des Modells.

Zusätzliche Scoring-Rules: Brier-Score & CRPS

MAE allein sagt nicht, ob das Modell gut kalibriert ist — es misst nur die durchschnittliche Punkt-Abweichung. Ein Modell mit enger Punktprognose aber zu schmalen Konfidenzintervallen ist schlechter als eines mit etwas größerer Abweichung und realistischer Unsicherheit. Deshalb hier zwei ergänzende Scoring-Rules:

Lade Scoring-Rules aus accuracy.json

Per-Partei-Reliability — bei welcher Partei ist das Modell wie gut?

MAE und Brier-Score messen die Gesamt-Qualität. Aber: ist das Modell bei jeder Partei gleich gut? Diese Tabelle zeigt für jede Partei separat, ob das Modell sie im Schnitt zu hoch oder zu niedrig vorhersagt (Bias), wie weit die Vorhersagen streuen (σ Residuen) und wie oft das tatsächliche Ergebnis im 95-%-Konfidenz-Intervall lag.

Lade Per-Partei-Reliability aus accuracy.json

Naïve-Baselines — bringt das ganze Modell überhaupt etwas?

Die fairste externe Validierung ist nicht der Vergleich gegen einen anderen Forecaster (zweitstimme.org publiziert nur für BTW, wahlrecht.de ist Aggregator, pollytix.eu ist kostenpflichtig). Sondern: Wie gut wäre ein primitives Verfahren? Wenn unser komplexes Monte-Carlo-Modell nicht deutlich besser ist als ein simpler Mittelwert, ist die Modell-Komplexität nicht gerechtfertigt.

Lade Baseline-Vergleich aus accuracy.json

Train/Test-Split — overfittet das Modell auf historische Wahlen?

Eine zentrale Sorge bei jedem statistischen Modell: Lernt es die Wahrheit, oder merkt es sich nur die Trainings-Daten? Wir teilen die 34 Wahlen am 01.01.2023 in Train (2017-2022) und Test (2023-2026). Bei einem überfitteten Modell wäre der MAE auf Test-Daten deutlich schlechter als auf Train.

Lade Train/Test-Diagnose aus accuracy.json

Pro-Institut-Backtest — wie schneiden die einzelnen Umfrage-Institute ab?

Die naive Baseline (Poll-Avg-5) hat gezeigt: ein simpler Mittelwert ist im reinen MAE leicht besser als unser komplexes Modell. Aber welcher Mittelwert? Hier eine Aufschlüsselung pro Institut: für jede der 34 historischen Wahlen wird der jüngste Endpoll im 14-Tage-Fenster vor der Wahl genommen und gegen das tatsächliche Ergebnis verglichen.

Lade Pro-Institut-Backtest aus accuracy.json

MAE nach Parteigröße — wo das Modell schwach ist

Ein MAE von 1.63 Pp ist für eine 30-%-Partei hervorragend (relative Abweichung 5 %), für eine 5-%-Partei aber schwach (relative Abweichung > 30 %). Deshalb hier die Aufschlüsselung:

Lade Aufschlüsselung aus backtest.json

34 Wahlen: 29 Landtagswahlen, 3 Bundestagswahlen, 2 Europawahlen. Der Modell-Favorit war in 6 Fällen nicht die am Wahltag stärkste Partei — ausschließlich bei Kopf-an-Kopf-Rennen mit weniger als 3 Prozentpunkten Abstand. Diese Fehleinschätzungen zeigen, dass das Modell bei knappen Rennen an seine Grenzen stößt.

Alle 34 Wahlen im Detail
WahlDatumMAECI95Favorit
Kalibrierung: Die CI95-Hit-Rate liegt aktuell bei 94,8 % und damit auf dem Zielwert von 95 % (statistisch nicht von 95 % zu unterscheiden bei n=34 Wahlen). Nach dem CLR-Sigma-Cap-Fix in v4.1 sind die Konfidenzintervalle bei kleinen Parteien realistischer geworden — ältere Versionen erreichten 94,7 % nur durch unrealistisch breite Intervalle bei Kleinstparteien. Der Kalibrierungsfaktor beträgt ×1,15 auf alle Fehlerterme.
Einordnung: Ein MAE von ±1.63% liegt im Korridor professioneller Prognosemodelle. Selb et al. (2023) fanden für deutsche Umfragen einen durchschnittlichen Wahltag-Bias von ±1.5 PP pro Partei. Die Polling-Varianz ist dabei 1.5-3× größer als die üblichen Fehlermargen suggerieren.

Bekannte Limitierungen

Hier dokumentiere ich, was das Modell nicht kann. Jede fundierte methodische Kritik fließt hier offen ein — das ist Teil des Produkts.

Strukturelle Grenzen (auch in professionellen Modellen üblich)

Aktuell offene methodische Schwächen

Datenlage-Schwächen (werden mit der Zeit besser)

Kalibrierungs-Klassifizierung pro Wahlkreis

Auf jeder Wahlkreis-Detail-Seite steht eine kurze Kalibrierungs-Zeile („WK-Kalibrierung stabil / moderat abweichend / strukturell"). Methodik:

  1. Pro Partei: bundesweiter Swing = aktueller Bundestrend − BTW-2025-Endergebnis.
  2. Pro Partei pro WK: WK-Swing = Szenario 2029 − WK-Ergebnis BTW 2025.
  3. Residual = WK-Swing − Bund-Swing. Das ist der Anteil, den das Strukturmodell zusätzlich zum Bundestrend für diesen WK vorhersagt.
  4. Mittleres absolutes Residual über die 7 relevanten Parteien (CDU/CSU, SPD, Grüne, FDP, AfD, Linke, BSW) → Klasse:
    • stabil (< 1,0 Pp): folgt im Wesentlichen dem Bundestrend, Modellvertrauen hoch.
    • moderat abweichend (1,0–2,5 Pp): spürbare strukturelle Eigenbewegung vorhergesagt.
    • strukturell (≥ 2,5 Pp): Modell erwartet eigenständige Dynamik; entsprechend höhere Unsicherheit.

Dies ist kein klassischer Leave-One-Out-Backtest (dafür fehlen uns historische BTW-2017/2021-Ergebnisse pro WK) — sondern ein Kalibrierungs-Proxy. Er macht transparent, wie viel der Modell-Output eigene WK-Aussage gegenüber reinem Bundestrend-Übertrag ist. Aktuelle bundesweite Verteilung (Stand: letzter Cron-Lauf) steht in /data/wk_backcast.json unter class_counts.

Diese Liste wird nach jeder Modell-Revision aktualisiert. Kritik/Hinweise: max@karbach.digital.

Versionshistorie

Das Modell wird in SemVer-Style versioniert. Major-Sprünge (v4.0, v5.0) markieren strukturelle Methodik-Änderungen, Minor-Sprünge (v4.1–v4.6) ergänzen Komponenten oder Sicherungen ohne den Modell-Kern zu ersetzen. Aktuell live: v4.6.

v4.6 — 21.05.2026 (aktuell live)

v4.5 — 21.05.2026

v4.4 — 21.05.2026

v4.3 — 21.05.2026

v4.2 — 21.05.2026

v4.1 — 10.05.2026

v4.0 — 24.04.2026

v3.x — vor April 2026 (archiviert)

Die v3-Reihe (Januar–März 2026) hatte einen einfacheren Aufbau: gewichteter Umfragedurchschnitt (v3.0), Monte-Carlo mit Normalverteilung (v3.1), erste Backtests (v3.2). Diese Versionen sind durch v4.0 vollständig ersetzt — keine v3-Komponente ist mehr im Live-Modell aktiv.

Roadmap — was als nächstes kommen könnte

Anker-Items für künftige Modell-Generation. Nichts davon ist zeitgebunden — kommt rein, wenn ein konkreter Anlass es rechtfertigt. Stand 21.05.2026 läuft v4.2 stabil, kein Pain-Point.

FeatureAufwandStatus
Live-Out-of-Sample-Vault (eingefrorene Prognosen vor jeder Wahl, öffentlich archiviert)MittelSkeleton existiert (unten) — wartet auf erste Testwahlen
Vollständig Bayesianisches Modell (Stan/PyMC)HochEvaluierung — würde aktuelles Modell ersetzen, nur wenn klarer Mehrwert
Grundmandatsklausel im Sitz-Zuteilungs-VerfahrenMittelBacklog — aktuell „nicht modelliert" Disclaimer
Per-Wahlkreis-Backtest (echtes LOO statt Kalibrierungs-Proxy)Hochblockiert auf BTW-2017/2021-Ergebnisse pro WK
Eigene Publikation (Methodik + Backtesting auf arXiv / SSRN)MittelIn Vorbereitung — sobald v4.2 sechs Monate stabil läuft

Technisches

Python (NumPy/SciPy). 12 automatisierte Cron-Jobs: alle 6 Stunden (Simulation, Regional Swing, Feed, OG-Image), täglich (Nachrichtenlage, Telegram, Ergebnisse), wöchentlich (Approval-Daten), monatlich (GENESIS, Wirtschaftsdaten, KI-Landesprofile). 10.000 Monte-Carlo-Durchläufe pro Wahl. Logistic-Normal-Verteilung via CLR-Transformation. Cholesky-Zerlegung für Partei-Korrelationen. Leave-One-Out Cross-Validation über 34 historische Wahlen. KI-Kurzanalysen via Mercury 2 (Inception Labs), Lagebild via Opus 4.6 (Anthropic) — jeweils über OpenRouter API. News-Aggregation aus 12 RSS-Feeds (ÖRR, Qualitätspresse, Regionalsender). Wahlkreis-Geometrien vom Bundeswahlleiter (dl-de/by-2.0). Frontend: statisches HTML/CSS/JS, D3.js, Chart.js — alles lokal gehostet. Keine Cookies, kein Tracking (außer Plausible Analytics, DSGVO-konform ohne Einwilligung). Server: Hetzner Cloud, Standort Deutschland.

Referenzen

Großwetterlage-Archiv

Jede Fassung der täglichen Lageeinschätzung wird archiviert — so lässt sich nachvollziehen, wann sich die Erzählung gedreht hat und warum. Keine stille Überschreibung.

Lade Archiv …

Out-of-Sample-Vault (laufender Live-Test)

Ein Leave-One-Out-Backtesting an 34 Wahlen hat die Schwachstelle, dass die Modell-Parameter an denselben Wahlen kalibriert wurden. Ein echter Out-of-Sample-Test braucht eine Prognose, die vor einer Wahl gemacht und danach nicht mehr geaendert wurde.

Genau das passiert hier: Sieben Tage vor jeder anstehenden Wahl wird ein Snapshot eingefroren und unten aufgelistet. Nach der Wahl wird die Abweichung vom tatsaechlichen Ergebnis eingetragen und ist hier oeffentlich nachlesbar. Das ist langsam — aber ehrlich.

Lade Vault-Index aus out_of_sample_vault/vault_index.json

Institutsgewichte & House Effects (live)

Damit niemand raten muss, wie einzelne Institute gewichtet werden — hier die aktuellen Werte aus house_effects.json, ermittelt durch Inverse-MAE-Gewichtung über 34 historische Wahlen. Institute, die in der Vergangenheit präziser waren, bekommen mehr Gewicht. Der Partei-spezifische House-Effect (Bias-Korrektur in Prozentpunkten) wird zusätzlich herausgerechnet.

Lade Institutsgewichte aus house_effects.json

Wer das hier macht

polls.karbach.digital wird von Max Karbach betrieben. Als Einzelperson, nicht als Institut. Kein Team, keine Auftraggeber, keine Parteinähe — dafür vollständige Methoden-Offenlegung, offene Daten und ein Modell, dessen Kalibrierung jeder nachrechnen kann.

Das ist bewusst ein komplementäres Angebot zu etablierten Instituten wie Forschungsgruppe Wahlen, Infratest oder INSA — nicht ein Ersatz. Die Stärke: schnelle Iteration, transparente Modell-Änderungen, keine politische oder kommerzielle Interessenlage. Die Schwäche: kein Feldzugang für eigene Umfragen, kein Peer-Review, 20 Jahre Erfahrungs-Vakuum. Beides wird hier offen benannt, nicht kaschiert.

Belege für Iterations-Geschwindigkeit

Dokumentierte Modell-Änderungen seit dem v4.0-Cut-Over (April 2026) — Vollständige Liste siehe Versionshistorie oben:

Drei dokumentierte Modell-Verbesserungen innerhalb von vier Wochen, jede einzeln begründet und mit Backtest-Auswirkung belegt. Das ist mehr als viele Institute in einem Jahr öffentlich machen.

Erreichbarkeit & Response-Versprechen

Wenn Sie methodisch etwas finden, das falsch ist — bitte melden. Jede fundierte Kritik wird öffentlich gemacht und fließt in die nächste Modellversion ein.

Kontakt

Methodische Kritik, Fehlerberichte und Verbesserungsvorschläge: max@karbach.digital

Die Methodik wird nach jeder Wahl evaluiert und bei Bedarf angepasst. Änderungen werden versioniert und hier dokumentiert.

Stand: April 2026