Technopedia Center
PMB University Brochure
Faculty of Engineering and Computer Science
S1 Informatics S1 Information Systems S1 Information Technology S1 Computer Engineering S1 Electrical Engineering S1 Civil Engineering

faculty of Economics and Business
S1 Management S1 Accountancy

Faculty of Letters and Educational Sciences
S1 English literature S1 English language education S1 Mathematics education S1 Sports Education
  • Registerasi
  • Brosur UTI
  • Kip Scholarship Information
  • Performance
  1. Weltenzyklopädie
  2. Scoring Rule – Wikipedia
Scoring Rule – Wikipedia 👆 Click Here!
aus Wikipedia, der freien Enzyklopädie
(Weitergeleitet von Scoring rule)

In der Entscheidungstheorie ist eine score function oder scoring rule, zu deutsch eine Bewertungs-Regel, ein Maß für die Performanz einer Wahrscheinlichkeitsvorhersage eines Modells, ohne dabei zu dichotomisieren. Im Rahmen der probabilistischen Klassifikation und der empirischen Risikominimierung können Scoring rules als Verlustfunktionen eingesetzt werden.

Motivation

[Bearbeiten | Quelltext bearbeiten]

Eine Dichotomisierung der Wahrscheinlichkeitsvorhersage wird häufig bei der Beurteilung eines binären Klassifikators angewandt. Ein Vorteil von Scoring rules gegenüber anderen Bewertungsmetriken wie Precision, Recall oder F-Score, ist, dass eine schlechtere Wahrscheinlichkeitskalibrierung zu einem schlechteren scoring führt (was für die anderen Bewertungsmetriken nicht zwingend der Fall ist).

Daher werden in der probabilistischer Klassifikation, bei der es um gute Wahrscheinlichkeitskalibrierung geht (d. h. die vorhergesagten Wahrscheinlichkeiten mit den tatsächlichen übereinstimmen sollen), proper score functions zur Bewertung und als Verlustfunktion herangezogen[1].

Mit einer Kalibrationskurve kann herausgefunden werden, wie gut die Vorhersagen eines Modells kalibriert sind.

Definition

[Bearbeiten | Quelltext bearbeiten]
Dieser Artikel oder Abschnitt bedarf einer grundsätzlichen Überarbeitung. Näheres sollte auf der Diskussionsseite angegeben sein. Bitte hilf mit, ihn zu verbessern, und entferne anschließend diese Markierung.

Eine Scoring rule ist eine Funktion, welche die Übereinstimmung einzelner Vorhersagen mit ihrer Beobachtung bewertet. Die Scoring rule u : Ω × F → R {\displaystyle u:\Omega \times {\mathcal {F}}\to \mathbb {R} } {\displaystyle u:\Omega \times {\mathcal {F}}\to \mathbb {R} } ist über dem zusammengesetzten Raum des Ergebnisraumes und der Wahrscheinlichkeitsmaße F {\displaystyle {\mathcal {F}}} {\displaystyle {\mathcal {F}}} definiert. Die Scoring-Funktion liefert die Bewertung u ( x , q ) ∈ R {\displaystyle u(x,q)\in \mathbb {R} } {\displaystyle u(x,q)\in \mathbb {R} } für die Vorhersage q {\displaystyle q} {\displaystyle q} bei Eintritt des Ereignisses x {\displaystyle x} {\displaystyle x}. Die Eintrittswahrscheinlichkeit des Ereignisses ist P ( X = x ) {\displaystyle P(X=x)} {\displaystyle P(X=x)}, d. h. X ∼ P ( X ) {\displaystyle X\sim P(X)} {\displaystyle X\sim P(X)}.

Scoring rules werden in folgende Fälle unterschieden:

  • positive Orientierung, das heißt größere Scores sind besser
  • negative Orientierung, das heißt kleinere Scores sind besser

Erwartungswert der Scoring rule

[Bearbeiten | Quelltext bearbeiten]
Siehe auch: Empirische Risikominimierung

Der Erwartungswert der Scoring rule E X [ u ( x , q ) ] = ∑ x ∈ Ω p ( X = x ) ⏟ p x u ( x , q ) {\displaystyle E_{X}[u(x,q)]=\sum _{x\in \Omega }\underbrace {p(X=x)} _{p_{x}}u(x,q)} {\displaystyle E_{X}[u(x,q)]=\sum _{x\in \Omega }\underbrace {p(X=x)} _{p_{x}}u(x,q)} kann mithilfe einer zufälligen Stichprobe und einer Realisierung des Stichprobenmittelwertes geschätzt werden (welcher nach dem Gesetz der großen Zahlen konvergiert):

E ^ X [ u ( x , q ) ] = 1 N ∑ i = 1 N u ( x i , q ( x i ) ) , {\displaystyle {\hat {E}}_{X}[u(x,q)]={\frac {1}{N}}\sum _{i=1}^{N}u(x_{i},q(x_{i})),} {\displaystyle {\hat {E}}_{X}[u(x,q)]={\frac {1}{N}}\sum _{i=1}^{N}u(x_{i},q(x_{i})),}

die Werte q ( x i ) {\displaystyle q(x_{i})} {\displaystyle q(x_{i})} sind die Wahrscheinlichkeitsvorhersagen für den Eintritt des realisierten Ereignisses x i ∈ Ω {\displaystyle x_{i}\in \Omega } {\displaystyle x_{i}\in \Omega }, x i ∼ P ( X ) {\displaystyle x_{i}\sim P(X)} {\displaystyle x_{i}\sim P(X)}.

Einteilung

[Bearbeiten | Quelltext bearbeiten]

Eine Scoring rule u {\displaystyle u} {\displaystyle u} positiver Orientierung heißt (analog für negative Orientierung, aber mit umgedrehten Ungleichungen)[2]:

  • strictly proper, falls : E X ∼ p [ u ( x , p ) ] > E X ∼ p [ u ( x , q ) ] {\displaystyle E_{X\sim p}[u(x,p)]>E_{X\sim p}[u(x,q)]} {\displaystyle E_{X\sim p}[u(x,p)]>E_{X\sim p}[u(x,q)]} für alle q ≠ p {\displaystyle q\neq p} {\displaystyle q\neq p}
  • proper, falls : E X ∼ p [ u ( x , p ) ] ≥ E X ∼ p [ u ( x , q ) ] {\displaystyle E_{X\sim p}[u(x,p)]\geq E_{X\sim p}[u(x,q)]} {\displaystyle E_{X\sim p}[u(x,p)]\geq E_{X\sim p}[u(x,q)]} für alle q ≠ p {\displaystyle q\neq p} {\displaystyle q\neq p}
  • improper, falls : E X ∼ p [ u ( x , p ) ] < E X ∼ p [ u ( x , q ) ] {\displaystyle E_{X\sim p}[u(x,p)]<E_{X\sim p}[u(x,q)]} {\displaystyle E_{X\sim p}[u(x,p)]<E_{X\sim p}[u(x,q)]} für manche q ≠ p . {\displaystyle q\neq p.} {\displaystyle q\neq p.}

Eine scoring rule u ( x , q ) {\displaystyle u(x,q)} {\displaystyle u(x,q)} heißt somit proper, wenn der Vorhersagende motiviert wird, ehrlich und kohärent zu schätzen.

Proper score functions

[Bearbeiten | Quelltext bearbeiten]
Darstellung des erwarteten Scores E X [ u ( x , q ) ] {\displaystyle E_{X}[u(x,q)]} {\displaystyle E_{X}[u(x,q)]} für verschiedene Wahrscheinlichkeiten p x {\displaystyle p_{x}} {\displaystyle p_{x}} (vertikale Linie) verschiedener scoring functions. Die x-Achse ist die Prädiktion q. Rot: linear, orange: spherical, purple: quadratic, green: log.

Brier score

[Bearbeiten | Quelltext bearbeiten]

Die häufigste Definition[3] des Brier score ist gegeben durch

u ( x , q ) = ( x − q ) 2 . {\displaystyle u(x,q)=(x-q)^{2}.} {\displaystyle u(x,q)=(x-q)^{2}.}

Er sollte minimiert werden.

Logarithmische Score-Funktion

[Bearbeiten | Quelltext bearbeiten]
Siehe auch: Devianz (Statistik)

Die logarithmische Score-Funktion.

u ( x , q ) = { log ⁡ q falls  x = 1 log ⁡ ( 1 − q ) falls  x = 0 {\displaystyle u(x,q)={\begin{cases}\log q&{\text{falls }}x=1\\\log(1-q)&{\text{falls }}x=0\\\end{cases}}} {\displaystyle u(x,q)={\begin{cases}\log q&{\text{falls }}x=1\\\log(1-q)&{\text{falls }}x=0\\\end{cases}}}
Erwartungswert der Logarithmische Score-Funktion unter Annahme, dass das Ereignis x=1 mit Wahrscheinlichkeit p 1 = 0.8 {\displaystyle p_{1}=0.8} {\displaystyle p_{1}=0.8} erscheint. Die blaue Linie wird durch die Funktion 0.8 log ⁡ ( q ) + ( 1 − 0.8 ) log ⁡ ( 1 − q ) {\displaystyle 0.8\log(q)+(1-0.8)\log(1-q)} {\displaystyle 0.8\log(q)+(1-0.8)\log(1-q)} beschrieben. Das Maximum liegt bei q = 0.8 {\displaystyle q=0.8} {\displaystyle q=0.8}

Continuous ranked probability score

[Bearbeiten | Quelltext bearbeiten]
Illustration des Continuous ranked probability score (CRPS). Gegeben ist eine Stichprobe y und eine vorhergesagte kumulative Verteilung F. Der CRPS wird berechnet, indem man die Differenz zwischen den Kurven an jedem Punkt x des Trägers berechnet, diese Differenz quadriert und über den gesamten Träger integriert.

Der continuous ranked probability score (CRPS) ist eine strictly proper scoring rule. Der CRPS vergleicht eine einzelne Beobachtung y {\displaystyle y} {\displaystyle y} mit der vorhergesagten Verteilung. Er wird wie folgt definiert:

C R P S ( F , y ) = ∫ R ( F ( x ) − 1 ( x ≥ y ) ) 2 d x {\displaystyle CRPS(F,y)=\int _{\mathbb {R} }(F(x)-\mathbb {1} (x\geq y))^{2}dx} {\displaystyle CRPS(F,y)=\int _{\mathbb {R} }(F(x)-\mathbb {1} (x\geq y))^{2}dx}

Dabei ist F {\displaystyle F} {\displaystyle F} die vorhergesagte kumulative Verteilungsfunktion über einem Träger, welcher durch x {\displaystyle x} {\displaystyle x} beschrieben wird und y ∈ R {\displaystyle y\in \mathbb {R} } {\displaystyle y\in \mathbb {R} } ist die Beobachtung. Beachte, dass die Vorhersage mehrere Wahrscheinlichkeiten schätzt, sodass eine kumulative Verteilungsfunktion F entsteht.

Wenn die Vorhergesagte Dichte eine Delta-Distribution p ( z ) = δ ( y ^ − z ) {\displaystyle p(z)=\delta ({\hat {y}}-z)} {\displaystyle p(z)=\delta ({\hat {y}}-z)} ist (also F ( x ) = ∫ − ∞ x δ ( y ^ − z ) d z = 1 ( x ≥ y ^ ) {\displaystyle F(x)=\int _{-\infty }^{x}\delta ({\hat {y}}-z)dz=\mathbb {1} (x\geq {\hat {y}})} {\displaystyle F(x)=\int _{-\infty }^{x}\delta ({\hat {y}}-z)dz=\mathbb {1} (x\geq {\hat {y}})}) dann ist der CRPS äquivalent zum Mean absolute error (MAE): C R P S ( F , y ) = ∫ R ( 1 ( x ≥ y ^ ) − 1 ( x ≥ y ) ) 2 d x = { ∫ y ^ y 1 d x  für  y > y ^ ∫ y y ^ 1 d x  sonst = | y ^ − y | {\displaystyle CRPS(F,y)=\int _{\mathbb {R} }(\mathbb {1} (x\geq {\hat {y}})-\mathbb {1} (x\geq y))^{2}dx={\begin{cases}\int _{\hat {y}}^{y}1dx{\text{ für }}y>{\hat {y}}\\\int _{y}^{\hat {y}}1dx{\text{ sonst}}\end{cases}}=|{\hat {y}}-y|} {\displaystyle CRPS(F,y)=\int _{\mathbb {R} }(\mathbb {1} (x\geq {\hat {y}})-\mathbb {1} (x\geq y))^{2}dx={\begin{cases}\int _{\hat {y}}^{y}1dx{\text{ für }}y>{\hat {y}}\\\int _{y}^{\hat {y}}1dx{\text{ sonst}}\end{cases}}=|{\hat {y}}-y|}

CRPS ist auch bekannt als Cramér–von-Mises-Distanz und kann als eine Verbesserung der Wasserstein-Metrik angesehen werden (häufig im Machine Learning verwendet). Außerdem zeigte die Cramér-Distanz in der ordinalen Regression eine bessere Leistung als die Kullback-Leibler-Distanz oder die Wasserstein-Metrik[4].

Sphärische scoring rule

[Bearbeiten | Quelltext bearbeiten]

Die Sphärische scoring rule:

u ( x , q ) = x / q 2 {\displaystyle u(x,q)=x/{\sqrt {q^{2}}}} {\displaystyle u(x,q)=x/{\sqrt {q^{2}}}}

Beispiel Bernoulli-verteilte Zufallszahl

[Bearbeiten | Quelltext bearbeiten]

Betrachte die Aufgabe der Wettervorhersage, bei der an jedem Tag eine Regenwahrscheinlichkeit q vorhergesagt wird und es an einem Tag entweder regnet (x = 1) oder nicht regnet (x = 0). Die echte Wahrscheinlichkeit, dass es regnet, ist p und die Wahrscheinlichkeit, dass es nicht regnet, ist 1-p. Wir betrachten somit eine Bernoulli-verteilte Zufallszahl X ∼ Ber ( p ) {\displaystyle X\sim {\text{Ber}}(p)} {\displaystyle X\sim {\text{Ber}}(p)}:

  • X ∈ { 0 , 1 } {\displaystyle X\in \{0,1\}} {\displaystyle X\in \{0,1\}}
  • p ( X = 1 ) = p {\displaystyle p(X=1)=p} {\displaystyle p(X=1)=p}
  • p ( X = 0 ) = 1 − p {\displaystyle p(X=0)=1-p} {\displaystyle p(X=0)=1-p}

Durch eine Statistik der vorhergesagten Wahrscheinlichkeiten q kann die tatsächliche Regenhäufigkeit p mit der Vorhersage abgeglichen werden. Besitzt die Vorhersage q oft eine große Abweichung zu p, so wird sie schlecht kalibriert genannt. Um den Vorhersagenden zu motivieren, die Wahrscheinlichkeitskalibrierung (seine Leistung) zu verbessern, kann ihm das Ziel gesetzt werden den Erwartungswert einer proper scoring rule positiver Orientierung u ( x , q ) {\displaystyle u(x,q)} {\displaystyle u(x,q)} zu maximieren (oder bei negativer Orientierung zu minimieren).

Logarithmischer Score

[Bearbeiten | Quelltext bearbeiten]

Betrachte die Scoring-Funktion u ( x , q ) = { log ⁡ ( q )  für  x = 1 log ⁡ ( 1 − q )  für  x = 0 {\displaystyle u(x,q)={\begin{cases}\log(q){\text{ für }}x=1\\\log(1-q){\text{ für }}x=0\end{cases}}} {\displaystyle u(x,q)={\begin{cases}\log(q){\text{ für }}x=1\\\log(1-q){\text{ für }}x=0\end{cases}}} so ist E X [ u ( x , q ) ] = p log ⁡ ( q ) + ( 1 − p ) log ⁡ ( 1 − q ) {\displaystyle E_{X}[u(x,q)]=p\log(q)+(1-p)\log(1-q)} {\displaystyle E_{X}[u(x,q)]=p\log(q)+(1-p)\log(1-q)}. Maximierung des erwarteten Scores liefert:

∂ q E X [ u ( x , q ) ] | q ∗ = ∂ q ( ∑ x ∈ { 0 , 1 } p x u ( x , q ) ) | q ∗ = ∂ q ( p u ( 1 , q ) + ( 1 − p ) u ( 0 , q ) ) | q ∗ = p − q q − q 2 | q ∗ = 0 ⟹ q ∗ = p {\displaystyle \partial _{q}E_{X}[u(x,q)]|_{q^{*}}=\partial _{q}(\sum _{x\in \{0,1\}}p_{x}u(x,q))|_{q^{*}}=\partial _{q}(pu(1,q)+(1-p)u(0,q))|_{q^{*}}={\frac {p-q}{q-q^{2}}}|_{q^{*}}=0\implies q^{*}=p} {\displaystyle \partial _{q}E_{X}[u(x,q)]|_{q^{*}}=\partial _{q}(\sum _{x\in \{0,1\}}p_{x}u(x,q))|_{q^{*}}=\partial _{q}(pu(1,q)+(1-p)u(0,q))|_{q^{*}}={\frac {p-q}{q-q^{2}}}|_{q^{*}}=0\implies q^{*}=p}

Somit wird der erwartete Score durch die spezielle Wahl q ∗ = p {\displaystyle q^{*}=p} {\displaystyle q^{*}=p} maximiert und u ( x , q ) = { log ⁡ ( q )  für  x = 1 log ⁡ ( 1 − q )  für  x = 0 {\displaystyle u(x,q)={\begin{cases}\log(q){\text{ für }}x=1\\\log(1-q){\text{ für }}x=0\end{cases}}} {\displaystyle u(x,q)={\begin{cases}\log(q){\text{ für }}x=1\\\log(1-q){\text{ für }}x=0\end{cases}}} ist eine proper scoring rule (positiver Orientierung).

Beachte: der negative Erwartungswert − E X [ u ( x , q ) ] = − p log ⁡ ( q ) + ( 1 − p ) log ⁡ ( 1 − q ) {\displaystyle -E_{X}[u(x,q)]=-p\log(q)+(1-p)\log(1-q)} {\displaystyle -E_{X}[u(x,q)]=-p\log(q)+(1-p)\log(1-q)} entspricht der Kreuzentropie. Die Wahl einer logarithmischen scoring rule ist per-se willkürlich, kann jedoch durch Maximierung der Likelihood-Funktion motiviert werden.

Quadratischer Score

[Bearbeiten | Quelltext bearbeiten]

Betrachte die Scoring-Funktion u ( x , q ) = ( x − q ) 2 , {\displaystyle u(x,q)=(x-q)^{2},} {\displaystyle u(x,q)=(x-q)^{2},} so ist E X [ u ( x , q ) ] = p ( 1 − q ) 2 + ( 1 − p ) ( 0 − q ) 2 {\displaystyle E_{X}[u(x,q)]=p(1-q)^{2}+(1-p)(0-q)^{2}} {\displaystyle E_{X}[u(x,q)]=p(1-q)^{2}+(1-p)(0-q)^{2}}. Minimierung des erwarteten Scores liefert:

∂ q E X [ u ( x , q ) ] | q ∗ = ( 2 q − 2 p ) | q ∗ = 0 ⟹ q ∗ = p {\displaystyle \partial _{q}E_{X}[u(x,q)]|_{q^{*}}=(2q-2p)|_{q^{*}}=0\implies q^{*}=p} {\displaystyle \partial _{q}E_{X}[u(x,q)]|_{q^{*}}=(2q-2p)|_{q^{*}}=0\implies q^{*}=p}

Somit wird der erwartete Score durch die spezielle Wahl q ∗ = p {\displaystyle q^{*}=p} {\displaystyle q^{*}=p} minimiert und u ( x , q ) = ( x − q ) 2 {\displaystyle u(x,q)=(x-q)^{2}} {\displaystyle u(x,q)=(x-q)^{2}} ist eine proper scoring rule (negativer Orientierung).

Absoluter Score

[Bearbeiten | Quelltext bearbeiten]

Betrachte die Scoring-Funktion u ( x , q ) = | x − q | , {\displaystyle u(x,q)=|x-q|,} {\displaystyle u(x,q)=|x-q|,} (mit 0 ≤ q ≤ 1 {\displaystyle 0\leq q\leq 1} {\displaystyle 0\leq q\leq 1}), so ist E X [ u ( x , q ) ] = p | 1 − q | + ( 1 − p ) | 0 − q | = p ( 1 − q ) + ( 1 − p ) q {\displaystyle E_{X}[u(x,q)]=p|1-q|+(1-p)|0-q|=p(1-q)+(1-p)q} {\displaystyle E_{X}[u(x,q)]=p|1-q|+(1-p)|0-q|=p(1-q)+(1-p)q}. Minimierung des erwarteten Scores liefert:

∂ q E X [ u ( x , q ) ] | q ∗ = 1 − 2 p = 0 , {\displaystyle \partial _{q}E_{X}[u(x,q)]|_{q^{*}}=1-2p=0,} {\displaystyle \partial _{q}E_{X}[u(x,q)]|_{q^{*}}=1-2p=0,}

was nur für p = 0.5 wahr ist. Somit wird der erwartete Score nicht durch die spezielle Wahl q ∗ = p {\displaystyle q^{*}=p} {\displaystyle q^{*}=p} minimiert und u ( x , q ) = | x − q | {\displaystyle u(x,q)=|x-q|} {\displaystyle u(x,q)=|x-q|} ist keine proper scoring rule.

Probleme

[Bearbeiten | Quelltext bearbeiten]

Eine extreme Ungleichheit bei den Klassenhäufigkeiten macht die Schätzung von Wahrscheinlichkeiten schwer[5].

Literatur

[Bearbeiten | Quelltext bearbeiten]
  • Some Comparisons among Quadratic, Spherical, and Logarithmic Scoring Rules, J. Eric Bickel, 7 https://doi.org/10.1287/deca.1070.0089

Weblinks

[Bearbeiten | Quelltext bearbeiten]
  • Video comparing spherical, quadratic and logarithmic scoring rules

Einzelnachweise

[Bearbeiten | Quelltext bearbeiten]
  1. ↑ Greenberg, Spencer. "Calibration scoring rules for practical prediction training." arXiv preprint arXiv:1808.07501 (2018). https://arxiv.org/abs/1808.07501
  2. ↑ Economic Value of Weather and Climate Forecasts. (1997). Vereinigtes Königreich: Cambridge University Press. Seite 36, Google Books
  3. ↑ Healthcare Data Analytics. (2015). USA: CRC Press. https://www.google.de/books/edition/Healthcare_Data_Analytics/Iun5CQAAQBAJ?hl=de&gbpv=1&dq=brier%20score%20definition%20most%20common&pg=PA366&printsec=frontcover
  4. ↑ The Cramer Distance as a Solution to Biased Wasserstein Gradients https://arxiv.org/abs/1705.10743
  5. ↑ Wallace, Byron & Dahabreh, Issa. (2012). Class Probability Estimates are Unreliable for Imbalanced Data (and How to Fix Them). Proceedings - IEEE International Conference on Data Mining, ICDM. 695-704. doi:10.1109/ICDM.2012.115
Abgerufen von „https://de.teknopedia.teknokrat.ac.id/w/index.php?title=Scoring_Rule&oldid=261361235“
Kategorie:
  • Entscheidungstheorie
Versteckte Kategorie:
  • Wikipedia:Überarbeiten

  • indonesia
  • Polski
  • العربية
  • Deutsch
  • English
  • Español
  • Français
  • Italiano
  • مصرى
  • Nederlands
  • 日本語
  • Português
  • Sinugboanong Binisaya
  • Svenska
  • Українська
  • Tiếng Việt
  • Winaray
  • 中文
  • Русский
Sunting pranala
Pusat Layanan

UNIVERSITAS TEKNOKRAT INDONESIA | ASEAN's Best Private University
Jl. ZA. Pagar Alam No.9 -11, Labuhan Ratu, Kec. Kedaton, Kota Bandar Lampung, Lampung 35132
Phone: (0721) 702022
Email: pmb@teknokrat.ac.id