Diskussion:Streuungsmaß (Statistik)

aus Wikipedia, der freien Enzyklopädie
Letzter Kommentar: vor 3 Tagen von Sigma^2 in Abschnitt Deskriptive versus induktive Statistik
Zur Navigation springen Zur Suche springen
Zum Archiv
Wie wird ein Archiv angelegt?
Auf dieser Seite werden Abschnitte ab Überschriftenebene 2 automatisch archiviert, die seit 7 Tagen mit dem Baustein {{Erledigt|1=--~~~~}} versehen sind.

Streuung, Varianz, Dispersion[Quelltext bearbeiten]

sind die Begriffe Streuung, Varianz und Dispersion äquivalent? ferner: Steuungsmaß = Dispersionsgröße? --143.50.168.42 16:23, 23. Okt 2005 (CEST)

Dieser Abschnitt kann archiviert werden. --Sigma^2 (Diskussion) 17:55, 21. Mai 2024 (CEST)

Quartil oder Quantil[Quelltext bearbeiten]

heisst es jetzt quartiel oder quantiel? Weil einmal steht hier Quartielabstand und dann Quantielabstand.

K-egg 10:10, 16. Nov 2005 (CET)
es muss Quartiel heissen K-egg 10:22, 2. Dez 2005 (CET)
Das Quartiel ist eine Unterart von Quantielen. Ein Quantiel ist irgendein bestimmter Anteil von Messwerten, ein Quartiel sind 25 % der Messwerte. --217.82.99.69 15:04, 4. Sep. 2008 (CEST)Beantworten
Ob Quartiel oder Quantiel, Hauptsache mit Stiel. -- Philipendula 18:53, 4. Sep. 2008 (CEST)Beantworten
Nein, ein p-Quantil ist kein "Anteil von Messwerten", sondern eine Zahl, durch die die Messwerte in zwei Anteile mit (im Idealfall) den relativen Häufigkeiten p und 1-p aufgeteilt werden. Quartile sind die drei (!) p-Quantile für . Durch die drei Quartile werden die Messwerte in vier Gruppen aufgeteilt. Diese vier Gruppen werden von Anwendern nicht selten fälschlich als Quartile bezeichnet. --Sigma^2 (Diskussion) 11:08, 25. Aug. 2023 (CEST)Beantworten

MAD und Standardabweichung[Quelltext bearbeiten]

ich habe die Umrechnung zwischen MAD und Standardabweichung für MADs aus dem Median der absoluten Abweichungen ergänzt. Ich bin mit meinen Erläuterungen dazu etwas unzufrieden und würde mich freuen, wenn sie von jemandem überarbeitet würden die/der mehr davon versteht. --Rick Schroeder 21:15, 8. Mär 2006 (CET)

Meines erachtens heißt MAD median absolute deviation und wird auch so in der englischsprachigen Literatur gebraucht. Ich bin mir über die genaue Bedeutung von "medium absolute deviation" nicht im klaren, einem kurzen Google-Battle nach zu urteilen scheint diese Bezeichnung auch nicht sehr gebräuchlich zu sein. Meiner Meinung nach sollte man MAD also als "median ..." einführen, dessen Eigenschaften aufführen und evtl. herleiten ( was ich gerne übernehmen kann ) um dann anschließend eine kurze Bemerkung über den "medium..." zu erwähnen. Die momentena Priorität im Artikel gefällt mir so nicht. --Spring-Daniel 13:04, 21. Mär 2006 (CET)

Ich habe den Artikel nun so umgeschrieben das ich denke das der Unterschied zwischen MD und MAD und die Beziehungen zur Standardabweichung nachvollziehbarer sind. Ausserdem hab ich herausgestellt das die MD kein robuster Schätzer ist ( In der vorherigen Version war dazu eine nach meiner Meinung widersprüchliche Aussagen zu finden, zum einen die MD sei robuster als die Standardabweichung, zum anderen wird 2 Sätze später erwähnt das'die Mittelung auch wieder anfällig gegenüber Ausreißern in den Daten ist.'). Beim Zusammenhang zwischen MD und Standardabweichung bin ich mir nicht 100%ig sicher ob er stimmt, bei meinen Berechnungen bin ich auf gekommen. Wäre schön wenn das noch jemand nachrechnen könnte. --Spring-Daniel 10:36, 24. Mär 2006 (CET)

Dieser Abschnitt kann archiviert werden. --Sigma^2 (Diskussion) 17:57, 21. Mai 2024 (CEST)

Definitionsklärung mittlere Abweichung / mittlere absolute Abweichung[Quelltext bearbeiten]

Laut Schwarze "Grundlagen der Statistik I" und vielen anderen Quellen im Internet (zum Beispiel http://webrum.uni-mannheim.de/vwl/mschienl/folien3.pdf#search=%22mittlere%20absolute%20abweichung%22) ist die "Mittlere Absolute Abweichung" das, was im Artikel als "Mittlere Abweichung" bezeichnet wird (das arithemtische Mittel der absoluten Abweichungen einzelner Beobachtungswerte vom Median). Was ist die Quelle für die Definition im Artikel für "Mittlere Abweichung" und "Mittlere absolute Abweichung"? Dazu habe ich bislang nur http://mathworld.wolfram.com/MeanDeviation.html gefunden. Dort ist "Mean Deviation" als das definiert, was hier im Artikel "Mittlere Abweichung" heißt, die Übersetzung wäre dann "mittlere Abweichung", die allerdings in der Bedeutung im Deutschen nicht gebräuchlich zu sein scheint. Allerdings kann ich die dortige Definition "Mean Absolute Deviation" wiederum in diesem Artikel nicht wiederfinden. -- Man 11:19, 11. Okt. 2006 (CEST)Beantworten

Ergänzung: Der MedMed wird wohl im Allgemeinen als "Median der absoluten Abweichungen vom (Stichproben–) Median" bezeichnet, und nicht, wie hier angegeben, als mittlere absolute Abweichung, siehe zum Beispiel http://www.statistik.tuwien.ac.at/public/dutt/vorles/inf_bak/node23.html oder http://www.boku.ac.at/statedv/statlbt/St1_Folie_2_4K.pdf. Falls keiner Einwände hat, korrigiere ich das demnächst. -- Man 11:00, 16. Okt. 2006 (CEST)Beantworten

Bei der Berechnung der en:mean absolute deviation (MAD) werden im Englischen nicht die Beträge der Abweichungen vom Median, sondern die Beträge der Abweichungen vom arithmetischen Mittelwert gemittelt. (The mean absolute deviation is the average absolute deviation from the mean ..., siehe auch hier oder hier) Was wir momentan haben, haut nicht hin. -- Jayen466 18:32, 12. Feb. 2008 (CET)Beantworten
Habe MAD als alternative Bez. für MedMed entfernt und dafür im Absatz darüber eingefügt. -- Jayen466 18:40, 12. Feb. 2008 (CET)Beantworten
Dieser Abschnitt kann archiviert werden. --Sigma^2 (Diskussion) 19:43, 21. Mai 2024 (CEST)

Mittlere absolute Differenz fehlt[Quelltext bearbeiten]

Die mittlere absolute Differenz fehlt noch (siehe z.B. [1], Def 1.27). Sie steht mit dem Gini-Koeffizient in Zusammenhang. --Bertrus 14:09, 26. Jan. 2009 (CET)Beantworten

Inzwischen ergänzt.--Sigma^2 (Diskussion) 20:54, 21. Mai 2024 (CEST)Beantworten
Dieser Abschnitt kann archiviert werden. --Sigma^2 (Diskussion) 20:54, 21. Mai 2024 (CEST)

Wahrscheinlichkeitstheorie raus[Quelltext bearbeiten]

Ich würde gerne den Wahrscheinlichkeitstheoretischen teil entfernen, also nurnoch Streuungsmaße von Stichproben und nichtmehr von Zufallsvariablen behandeln. Das erhöht die Lesbarkeit und hilft die Unterschiede gleichlautender Begriffe klarer zu erkennen. Außerdem sind die Wahrscheinlichkeitstheoretischen Streuungsmaße unter Dispersionsmaß (Stochastik) abgehandelt. Gibt es Meinungen? --NikelsenH (Diskussion) 22:26, 26. Apr. 2017 (CEST)Beantworten

Ja, dass wäre sehr vernünftig, es entweder rauszunehmen, oder klarzustellen, dass es nur eine Parallele ist.--Sigma^2 (Diskussion) 10:57, 25. Aug. 2023 (CEST)Beantworten
Ich habe die Konzepte der Wahrscheinlichkeitstheorie jetzt zunächst in einem eigenen Abschnitt gesammelt. Was damit passiert, hängt davon ab, was schon in anderen Artikeln steht und was noch von den früheren Autoren an Belegen für mehrere unbelegte Aussagen beigebracht wird. --Sigma^2 (Diskussion) 13:06, 25. Aug. 2023 (CEST)Beantworten
Immer noch unbelegte (allerdings vermutlich richtige) Aussagen aus dem Artikel, die so noch nicht in den Artikel Dispersionsmaß_(Stochastik) übernommen werden können:
  • Für symmetrische Verteilungen, d. h. Verteilungen mit der Eigenschaft für alle reellen , mit monoton fallender Dichte für , gilt . Für die stetige Gleichverteilung gilt das Gleichheitszeichen.
  • Im Fall der Normalverteilung besteht der Zusammenhang
zur Standardabweichung. Dabei bezeichnet das 0,75-Quantil der Standardnormalverteilung.

  • Für die Normalverteilung gilt
Für symmetrische Verteilungen stimmen Median (falls dieser eindeutig ist) und Erwartungswert (falls dieser existiert und endlich ist) überein, sodass in diesem Fall gilt.
Ich halte die unbelegte Aussage des letzten Satzes für falsch. Die nichtnegative Zufallsvariable hat keine symmetrische Verteilung, auch wenn die Verteilung von symmetrisch ist, so dass sich der Erwartungswert und der Median von (außer in degenerierten Spezialfällen) unterscheiden.
--Sigma^2 (Diskussion) 17:05, 22. Mai 2024 (CEST)Beantworten

Deskriptive versus induktive Statistik[Quelltext bearbeiten]

Zunächst erhebt der Artikel zwar den Anspruch, etwas zur deskriptiven Statistik beizutragen, gleitet aber ständig in die induktive Statistik ab. Bereits in der Einleitung steht etwas von Stichprobe, ein Kernbegriff der induktiven Statistik. Beschreibende (deskriptive) Statistik kann auf Stichprobenwerte, aber auch auf andere Messwerte und Werte beliebiger (Grund)-Gesamtheiten angewendet werden. Die aus der induktiven Statistiken stammenden Formeln werden hier als Varianten dargestellt, sie haben aber nichts mit beschreibender Statistik zu tun, sondern sind Korrekturen für den Spezialfall, dass in der induktiven Statistik ein unbekannter Parameter aus der Grundgesamtheit mit einer statistischen Kennzahl der Stichprobe geschätzt werden soll. Leider zieht sich diese Konfusion durch viele Wikipedia-Artikel zur Statistik.--Sigma^2 (Diskussion) 11:32, 25. Aug. 2023 (CEST)Beantworten

Ist teilweise überarbeitet.--Sigma^2 (Diskussion) 20:55, 21. Mai 2024 (CEST)Beantworten
(aus Diskussion unten) Wäre es möglich einen Abschnitt mit einer expliziten Abgrenzung zu schreiben? Offensichtlich impliziert das Stichwort "deskriptive" Statistik für den Statistiker viel, für den Nicht-Statistiker jedoch nicht so viel :) Aus der Ausführung von Sigma^2 verstehe ich, dass man deskriptive Statistiken einfach berechnet (wie auch immer) ohne dabei über Verteilungen oder Stichproben nachzudenken. Offensichtlich werden ähnliche Formeln dann jedoch in der induktiven Statistik benutzt um aus Stichprobenrealisierungen auf Parameter (der Verteilung aus der diese stammen) zurückzuschließen. Könnte man in diesem Sinne einen abgrenzenden Abschnitt hinzufügen? Ketzerische Frage (für mein Verständnis): Wenn die berechneten Kennzahlen rein deskriptiv für die Vorliegenden Werte sind (und nicht zum Schätzen von Verteilungsparametern), warum macht man das eigentlich? ok, man aggregiert die vorliegenden Werte (wie in einer Aggregierungsfunktion, aber sonst...? biggerj1 (Diskussion) 21:03, 21. Mai 2024 (CEST)Beantworten
Ich nummeriere, damit eine Bezugnahme auf einzelne Aussagen möglich ist, und schreibe ausführlich, weil es viele Wikipedia-Artikel betrifft:
  1. Ich habe einen eigenen Hauptabschnitt Streuungsmaßzahlen in der schließenden (induktiven) Statistik angelegt und teilweise befüllt. Da Stichprobenwerte ein Spezialfall von Beobachtungswerten oder Daten sind, ist Abgrenzung im strengen Wortsinn nicht möglich. Alle Methoden der deskriptiven Statistik können auf Stichprobenwerte angewendet werden. Bei Stichprobenwerten gibt es häufig – aber nicht immer – die zusätzliche Interpretation als Schätzwert für eine analoge Kennzahl einer realen endlichen oder fiktiven Grundgesamtheit.
  2. Außerhalb der Physik und weniger anderer naturwissenschaftlicher Disziplinen ist die Welt voller Daten, die weder Messwerte im Sinn des Artikels Messwerte noch Stichprobenergebnisse im Sinn der Stichprobentheorie der Statistik sind. Man sollte dann von Daten oder Beobachtungswerten sprechen.
  3. Statistische Methodik wird als Hilfswissenschaft in allen empirisch arbeitenden Wissenschaftsbereichen verwendet.
  4. Beispiel: Aus der Einkommensteuerstatistik liegen die steuerpflichtigen Einkommen von 40 Millionen Einkommensteuerpflichtigen im Jahr 2020 vor. Stell Dir vor: Dir stehen die 40 Millionen Beobachtungswerte mit zur Verfügung und Du musst einen kurzen Bericht über typische Einkommenshöhen, Einkommensverteilung und -konzentration erstellen. Bereits ein elementar einführendes Lehrbuch zur beschreibenden Statistik[1] hilft Dir weiter und empfiehlt zunächst: Erstellung von absoluten und relativen Häufigkeitsverteilungen mit klassierten Daten, Erstellung eines Histogramms, Bestimmung der Spannweite, von Quartilen und Dezilen, Erstellung eines Boxplots, Berechnung von Median, Mittelwert und Standardabweichung, Charakterisierung der Schiefe durch Schiefemaße und Charakterisierung der Einkommenskonzentration durch Konzentrationsmaße, z. B. den Ginikoeffizienten, und evtl. der (höchstwahrscheinlich vergebliche) Versuch, irgendeine der üblichen Verteilungen mit wenigen Parametern an die Daten anzupassen (historisch wurde allerdings die verschobene Pareto-Verteilung im Zusammenhang mit der Untersuchung von Einkommensverteilungen erfunden und verwendet), usw.
  5. Diese gesamte Auswertung hat nichts damit zu tun, dass diese Daten in irgendeinem Sinn als eine Stichprobe aus einer Grundgesamtheit interpretiert werden oder dass Wahrscheinlichkeiten oder Wahrscheinlichkeitsverteilungen eine Rolle spielen.
  6. Nutzlos ist die deskriptive Statistik also nicht. Sie hilft Daten zu aggregieren, zu interpretieren, graphisch darzustellen und sie hilft als exploratives Verfahren zur Hypothesengewinnung, vor allem bei mehrdimensionalen Daten. Man lernt so etwas in einer elementaren Einführung in die deskriptive Statistik, fortgeschrittener ist die Explorative Datenanalyse. Dazu lernt man verständlicherweise weniger in Disziplinen wie Physik, in denen es nur Messungen gibt, die – via angenommenem Messfehler – als Stichprobenwerte interpretiert werden. Die klassische Grundausbildung in Statistik besteht aus drei einführenden Teilen (in dieser Reihenfolge) Beschreibende Statistik, Wahrscheinlichkeitsrechnung, Schließende Statistik, z. B. in drei jeweils zweistündigen Vorlesungen + Übungen im ersten und zweiten Semester.
  7. Der Fall, dass Daten als Stichprobenwerte im Sinn der schließenden Statistik oder sogar als i.i.d.-Stichprobe interpretiert werden können, ist nicht der Normalfall, sondern eher der Ausnahmefall. Stichproben aus endlichen Grundgesamtheiten mit Zurücklegen sind im wesentlichen eine gedankliches Konstrukt. Ein solches Vorgehen gibt es in der Realität wohl kaum, auch nicht in der amtlichen Statistik. Sieh dir mal ein Statistisches Jahrbuch von Deutschland oder der EU an und bedenke die Verwendung solcher Daten in den Sozial- und Wirtschaftswissenschaften und an die Auswertung mehr oder weniger willkürlicher Befragungen im Marketing, Politologie, Soziologie usw.
--Sigma^2 (Diskussion) 12:04, 23. Mai 2024 (CEST)Beantworten
  1. Z. B. Karl Mosler, Friedrich Schmid: Beschreibende Statistik und Wirtschaftsstatistik. 4. Auflage. Springer, Berlin / Heidelberg 2009, ISBN 978-3-642-01556-4.

Schlechte Graphik[Quelltext bearbeiten]

Zu gegebenen Messwerten sind in einer zugehörige Wahrscheinlichkeitsverteilung verschiedene Streumaße eingezeichnet. Die Spannweite bezeichnet den Abstand zwischen maximalem und minimalem Messwert. Im Intervall des Interquartilsabstands liegt die Hälfte der Messwerten, wobei ein Viertel sowohl unterhalb als auch oberhalb zu liegen kommt. Die Standardabweichung überdeckt in der Wahrscheinlichkeitsverteilung eine Fläche von 0.682.

Die mit dem letzten - noch nicht gesichteten Edit (Stand 21.5.2024) – eingefügte nebenstehende Graphik ist eine seltsame Mischung aus Elementen der deskriptiven Statistik, der induktiven Statistik und der Wahrscheinlichkeitstheorie (aus der Normalverteilung abgeleitete Dichtefunktion und Wahrscheinlichkeiten) und sollte in dieser Form nicht in den Artikel.--Sigma^2 (Diskussion) 18:07, 21. Mai 2024 (CEST)Beantworten

Meine Interpretation der Grafik ist: aus der gezeigten Wahrscheinlichkeitsdichte sind Stichproben entnommen, welche auf der x-Achse explizit als Punkte eingezeichnet sind. Die Verteilung hat einen Median, Quantile, eine Standandabweichung... Die konkrete Stichprobenrealisierung hat ein Min, Max-Wert und daher eine "Spannweite". (Diesen Begriff kannte ich nicht...)
Konkret würde ich vorschlagen die Y-Achse mir Wahrscheinlichkeitsdichte anstatt "Häufigkeit" zu benennen.
Die gemeinsame Darstellung einer Stichprobenrealisierung und der Wahrscheinlichkeitsdichte, der sie entstammt, finde ich nicht verwerflich. Dafür finden sich sicher Vorbilder in Büchern. Übersehe ich sonst eine Schwäche? biggerj1 (Diskussion) 19:13, 21. Mai 2024 (CEST)Beantworten
Um welche konkreten Messpunkte das Intervall "50% der Messpunkte" gezeichnet ist, ist nicht erklärt. Zwar liegen 5/10 der Messpunkte in diesem Intervall. Das gleiche würde jedoch für ein Intervall gelten, welches die ersten 5 Punkte von links überdecken würde... von daher würde ich dieses komische Intervall entfernen, oder explizit darauf verweisen, wie es konstruiert ist. biggerj1 (Diskussion) 19:18, 21. Mai 2024 (CEST)Beantworten
In der deskriptiven Statistik gibt es Beobachtungswerte (Physiker würden von Messwerten sprechen, es gibt aber allgemeinere Beobachtungen). Es gibt keine Wahrscheinlichkeitsverteilung aus der die Daten in irgendeinem Sinn kommen und die Beobachtungen müssen auch keine Stichprobenwerte sein. Sie können z. B. Werte irgendeiner Gesamtheit sein. Es gibt in der deskriptiven Statistik keine Stichprobenrealisierungen. Das ist vielmehr der Ausgangspunkt der induktiven Statistik, in der man von Stichprobenwerten auf Kennwerte irgendwelcher Grundgesamtheiten oder Wahrscheinlichkeitsverteilungen zurück schließen will. --Sigma^2 (Diskussion) 20:10, 21. Mai 2024 (CEST)Beantworten
Vielen Dank für die konstruktive Kritik. Tatsächlich habe ich auf der X-Achse die als Stern eingezeichneten Messwerte derart platziert, dass der Überlapp des Kerndichtenschätzers zur dargestellten Verteilung maximiert wird.
Die Bezeichnung "Häufigkeit" resultiert daher, dass ich in anderer Version ein Histogramm hinterlegte und eine doppelte y-Achse vermeiden wollte. Dadurch war die Normierung nicht zu 1 gegeben, was mich von der Begrifflichkeit der Wahrscheinlichkeitsverteilung etwas abschreckte.
Bezüglich der "50% der Messwerte": Dies muss im Kontext der beidseits zugehörigen Quartilen betrachtet werden: Damit ist das Intervall bis auf eine Verschiebung um einen einzelnen Messwert klar definiert.
Insgesamt ist die zusätzliche Bebilderung meinem Ansinnen geschuldet, auch Leser mit geringerem fachlichen Verständnis abzuholen.
Die Grafik ist mit Wolfram Mathematica erstellt, das wohl nicht jedem zugänglich ist - entsprechende Änderungswünsche kann ich gerne einpflegen, sobald ein Konsens gefunden ist.
Ist eine detaillierte Beschreibung der Methodik in der Bildbeschreibung selbst sinnvoll oder eine Erweiterung des Artikel-Textes? --Dr.rer.nat. Rudolf Golubich (Diskussion) 20:10, 21. Mai 2024 (CEST)Beantworten
Noch einmal der erste Satz des Artikels: Dieser Artikel behandelt Streuungsmaße in der deskriptiven Statistik. Da gibt es keine Wahrscheinlichkeitsverteilungen, keine Stichproben und und keine Kerndichteschätzer. Das kann man alles machen, aber nicht in diesem Artikel.--Sigma^2 (Diskussion) 20:15, 21. Mai 2024 (CEST)Beantworten
mea culpa. Ich muss gestehen, dass ich - tatsächlich als Physiker - hier die fachliche Grenze wohl zu schwach ziehe. Daher überlasse ich Feld und Entscheidung gerne Qualifizierteren, als ich es bin. --Dr.rer.nat. Rudolf Golubich (Diskussion) 20:26, 21. Mai 2024 (CEST)Beantworten
Ich habe nun bei diesem Artikel, die Frage: warum wird im Einleitungssatz von einer "Häufigkeitsverteilung" geredet, wenn die deskriptive Statistik davon nichts wissen will? Und: warum ist im Artikel Lageparameter (deskriptive Statistik) direkt von einer Stichprobe die Rede? Ich verstehe nicht ganz. Die deskriptive Statistik kenne doch keine Stichprobe sagtest du... ich bin etwas verwirrt. LG biggerj1 (Diskussion) 21:59, 21. Mai 2024 (CEST)Beantworten
Deskriptive = beschreibende Statistik beschreibt Datensätze. Wenn Beobachtungswerte mehrfach vorkommen, kann man eine Häufigkeitsverteilung (mit relativen oder absoluten) Häufigkeiten der auftretenden Werte erstellen, das ist das erste elementare Instrument der deskriptiven Statistik. Die Häufigkeitsverteilung ist ein rein deskriptives Konzept und hat nichts induktiver = schließender Statistik zu tun. Zur zweiten Frage: es steht dort, aber es ist falsch dass es dort so steht, weil es viel zu eng ist. Die beobachteten Werte oder Daten können Stichprobenwerte sein oder nicht, das ist für deskriptive Methoden unerheblich. Deskriptive Methoden können natürlich auch auf Stichprobenwerte anwendet werden. --Sigma^2 (Diskussion) 22:41, 21. Mai 2024 (CEST)Beantworten
okay, ich bin mir nicht sicher ob ich die nuancierte Unterscheidung zwischen Bobachtungswert und Stichprobenwert verstehe. (Schließlich kann eine Stichprobe auch aus einer endlichen Grundgesamtheit gezogen werden: https://www.google.de/search?sca_esv=cb0e66b39656e8e8&sca_upv=1&q=stichprobe+aus+einer+endlichen+Grundgesamtheit und sogar eine nicht zufällige Stichprobe ist möglich,...) biggerj1 (Diskussion) 08:10, 22. Mai 2024 (CEST)Beantworten
Wenn der Einwand gestattet ist:
Welches Zielpublikum soll dem Artikel gegeben sein? - Wer bereits vom Fach ist oder (natur)wissenschaftlichen Hintergrund hat, sucht i.d.R Formeln und ist von fachlich nicht "perfekten" Erklärungen genervt. Wer aber nicht vom Fach ist, dem erschließt sich der Inhalt bei wohl angestrebter, fachlicher Perfektion allenfalls mit viel zusätzlichem Kontext. --Dr.rer.nat. Rudolf Golubich (Diskussion) 08:47, 22. Mai 2024 (CEST)Beantworten
Wenn man ein Histogramm geeignet konstruiert, dann ist die Fläche unter dem Histogramm auf 1 normiert, so dass die Histogrammfläche formal die Eigenschaften einer Wahrscheinlichkeitsdichte hat, siehe Histogramm#Eigenschaften.
Falls die Abbildung wirklich das Ergebnis einer Kerndichteschätzung war, dann wurde wohl mit einem Normalverteilungskern (Gauß-Kern) mit extrem großer Bandbreite gearbeitet. Ich habe allerdings noch nie gesehen, dass mit einer Kerndichteschätzung eine so gleichmäßige und symmetrische Kurve resultiert. Realistische Abbildungen findet man im Artikel Kerndichteschätzung. Die Angabe der Wahrscheinlichkeit 0.682 ist in diesem Zusammenhang völlig sinnlos, da diese Wahrscheinlichkeit aus der Normalverteilung stammt und für andere Verteilungen – auch für Mischungen von Normalverteilungen – die Wahrscheinlichkeit im Intervall im Allgemeinen völlig andere Werte hat. Völlig sinnlos wird diese Angabe bei Verwendung eines Cauchy-Kerns, da in diesem Fall für die geschätzte Dichte weder Erwartungswert noch Standardabweichung existieren.
Wenn man will, dass die gezeichnete Dichtefunktion eine Normalverteilungsdichte ist, dann ist es naheliegender, die Beobachtungswerte als Stichprobenwerte von stochastisch unabhängig und identisch normalverteilten Stcihprobenvariablen aufzufassen, und die zu den Maximum-Likelihood-Schätzwerten gehörende Normalverteilungsdichte mit den Parametern darzustellen. Es liegen dann ungefähr 68 % der Stichprobenwerte im Intervall . --Sigma^2 (Diskussion) 10:05, 22. Mai 2024 (CEST)Beantworten
Wie ein Beitrag von biggerj1 weiter oben zeigt, kann die Abbildung auch so missverstanden werden, dass nicht die Dichtefunktion mit Kerndichteschätzung an die Daten angepasst wurde, sondern dass eine Zufallsstichprobe unabhängig und identisch verteilter Stichprobenwerte aus einer Normalverteilung gezogen wurde, dessen Dichte gezeichnet wurde. Das suggeriert die Abbildung und die angegebene Wahrscheinlichkeit, die nur für eine Normalverteilung gültig ist.
Auch wenn die Beobachtungswerte Stichprobenwerte sind, gibt es drei Konzepte, die Dichtefunktion der Grundgesamtheit (in der Regel unbekannt), die Häufigkeitsdichte (normiertes Histogramm), eine geschätzte Dichtefunktion (z. B. parametrisch oder nichtparametrisch per Kerndichteschätzung). --Sigma^2 (Diskussion) 10:02, 22. Mai 2024 (CEST)Beantworten
@Sigma^2, die Argumente sind für mich überzeugend: Meine Grafik kann mit der hier dargebotenen fachlichen Exaktheit schlicht nicht mithalten und sogar derart interpretiert werden, dass sie inhaltliche Fehler aufweist. Vielen Dank für diese ausführlichen Diskussionskommentare und - die auch für mich - aufgewandte Zeit. --Dr.rer.nat. Rudolf Golubich (Diskussion) 11:43, 22. Mai 2024 (CEST)Beantworten
Danke für die Diskussion!
Dieser Abschnitt kann archiviert werden. biggerj1 (Diskussion) 19:23, 22. Mai 2024 (CEST)
--biggerj1 (Diskussion) 19:23, 22. Mai 2024 (CEST)Beantworten