Statistiken

Kailibrate berechnet vier Kennzahlen, um die Qualität von Schätzungen zu messen. Nur aufgelöste Vorhersagen fließen ein.

Brier Score

Mittlerer quadratischer Fehler der Schätzungen:

BS = (1/N) × Σ (pᵢ - oᵢ)²

pᵢ – geschätzte Wahrscheinlichkeit (0,5–1)
oᵢ – tatsächliches Ergebnis (0 oder 1)
Wertebereich: 0 (perfekt) bis 1 (maximal falsch)

Ein Brier Score von 0,25 entspricht dem Ergebnis, das man durch blindes Schätzen von 50 % erreicht. Je niedriger, desto besser.

Log Loss

Empfindlicher gegenüber extremen Fehlschätzungen als der Brier Score:

LL = -(1/N) × Σ [oᵢ × log(pᵢ) + (1-oᵢ) × log(1-pᵢ)]

Wer ein eingetretenes Ereignis mit 1 % schätzt, wird stärker bestraft als beim Brier Score. Gut für alle, die Überkorrektur vermeiden wollen.

Winkler Score

Bewertet Intervallschätzungen. Für jeden Schätzbereich [L, U] mit Konfidenzniveau α gilt:

W = (U − L)                            falls Actual ∈ [L, U]
W = (U − L) + 2·(L − Actual) / α      falls Actual < L
W = (U − L) + 2·(Actual − U) / α      falls Actual > U

Je enger das Intervall und je häufiger der tatsächliche Wert darin liegt, desto besser (niedriger). Kailibrate zeigt die Einzelwerte jeder Schätzung als Punkt-Diagramm über die Zeit – Treffer grün, Ausreißer rot. Ein Durchschnitt über alle Fragen hinweg wäre irreführend, da der Score einheitenabhängig ist: Ein guter Wert bei Körpergrößen (z. B. 5 cm) und ein guter Wert bei Einwohnerzahlen (z. B. 200.000) lassen sich nicht vergleichen.

Kalibrierungskurve

Schätzungen werden in 10-%-Bins gruppiert (50–60 %, 60–70 %, …). Pro Bin zeigt die Kurve:

X-Achse – Mitte des Bins (erwartete Trefferquote)
Y-Achse – tatsächliche Trefferquote in diesem Bin

Eine perfekt kalibrierte Person liegt auf der Diagonale: Wer 70 % sagt, hat in 70 % der Fälle recht.

Abweichungen nach oben zeigen Unterschätzung (zu bescheiden), Abweichungen nach unten Überschätzung (zu selbstsicher).

Die Punktgröße zeigt die relative Datenmenge: Der Bin mit den meisten Schätzungen erscheint am größten, alle anderen skalieren proportional dazu.

Diagramme in der App

Diagramm	Inhalt
Kalibrierungskurve	Bin-Mitte vs. Trefferquote, Diagonale als Referenz
Brier-Score-Verlauf	Kumulativer Durchschnitt nach jeder aufgelösten Schätzung
Log-Loss-Verlauf	Kumulativer Durchschnitt nach jeder aufgelösten Schätzung
Winkler-Score-Verlauf	Einzelwerte je Intervallschätzung – grün: Treffer, rot: verfehlt

Die Verlaufsdiagramme zeigen, wie sich die Scores mit jeder weiteren Auflösung entwickeln. Die gestrichelte Linie markiert das Münzwurf-Niveau (0,25 bzw. ≈ 0,69). Mit dem Selektor oben rechts lässt sich der sichtbare Ausschnitt auf die letzten 25, 50 oder 100 Schätzungen einschränken.

Ein Tipp auf ein Diagramm öffnet es als Vollbild-Ansicht im Querformat. In der Vollbild-Ansicht lässt sich die X-Achse per Pinch-to-Zoom vergrößern und verschieben; ein Doppeltipp setzt den Zoom zurück. Beim Winkler-Score-Verlauf öffnet ein Tipp auf einen Datenpunkt die zugehörige Schätzung; zurück führt zur Vollbild-Ansicht im selben Zoom-Zustand.

Filter

Die Statistiken lassen sich mit drei kombinierbaren Filtern eingrenzen:

Filter	Optionen
Kategorie	Alle · Epistemisch · Aleatorisch (Einfachauswahl)
Vorhersagetyp	Wahr/Falsch · Ja/Nein · Intervall (Mehrfachauswahl)
Tags	Chips aus vorhandenen Tags, OR-verknüpft

Alle drei Filter wirken gleichzeitig: Nur Vorhersagen, die allen aktiven Kriterien entsprechen, fließen in die Berechnung ein.