Um diese Frage zu beantworten, müsste man hier ein komplettes statistisches Handbuch ins Netz stellen. Ich möchte es darum etwas anders machen und mich konzentrieren auf die häufigen, fast alltäglichen Fragestellungen.
Deswegen hier ein Entscheidungsbaum in Form mehrerer Seiten um die meisten Fragen zu beantworten. Klicken Sie sich einfach durch bis Ihre Frage beantwortet ist (hoffe ich wenigstens).
Dieser hängt zusammen mit dem sog. Beta-Fehler oder Fehler zweiter Ordnung. Dieser Fehler entsteht, wenn ein signifikanter Unterschied nicht entdeckt wird, obwohl doch vorhanden. Bei der Planung einer Studie hält man diesen Fehler möglichst klein; meistens nimmt man 20%. Der "power" einer solchen Studie ist dann 80% (100 - 20). Allgemein formuliert: power = 1 - beta.
Also: beim Lesen der Literatur muss man aufpassen und nicht immer glauben, dass der Unterschied zwischen den Gruppen nicht signifikant war. Unter Umständen wurde die Stichprobe zu klein gewählt und ist damit der Beta-Fehler zu groß geworden.
Es bedeutet, dass die Wahrscheinlichkeit (engl. probability = abgekürzt p), dass die verglichenen Gruppen, oder besser ausgedrückt, Stichproben aus derselben großen Gesamtheit stammen, 5% ist. Manchmal wird dieses in der Literatur angegeben als Fehler erster Ordnung oder Alpha-Fehler.
Dies ist abhängig von dem vereinbarten Grenzwert (Signifikanzschranke). In den meisten Fällen liegt dieser bei p = 0,05 oder 5% (siehe oben). Unterschreitet der p-Wert, der aus einem Test hervorgeht den Grenzwert, dann wird das Ergebnis als statistisch signifikant gewertet.
Vor nahezu jeden statistischen Testverfahren stellt man diese Hypothese auf, nämlich dass es keinen (Null) Unterschied zwischen den beiden Gruppen. Oder "offiziell" formuliert, dass beide Stichproben aus der selben großen Population stammen. Diese Hypothese muss verworfen werden, wenn diese Wahrscheinlichkeit die zuvor festgelegte Schranke unterschreitet. Meistens wird dazu 0,05 = 5% angenommen. Damit wären wir wieder bei dem p-Wert.
Die Standarddeviation (SD) ist ein Maß für die Streuung oder Variabilität der gemachten Beobachtungen. Das Auftreten eines Ereignisses oder Vorkommen eines Merkmals ist selten gleich, wenn man eine neue Stichprobe aus derselben Population nimmt.
Die Normalverteilung ist eine symmetrische Verteilung von quantitativen Daten, wobei 95% der Werte unter einer glockenförmige Kurve liegen zwischen den Werten Mittelwert - 1,96*SD und Mittelwert + 1,96*SD. Die Normalverteilung ist Voraussetzung für die Anwendung bestimmter Testverfahren, z.B. des sog. t-Test.
Der Ausdruck bedeutet eben, dass die Messung / Zählungen eine Verbindung mit einander haben. Z.B. Zwei Messungen einer Größe bei der selben Untersuchungseinheit im Laufe der Zeit. Ein Beispiel: Blutdruckmessung bei Patienten vor und nach Gabe eines Medikamentes. Die Stichproben wären nicht verbunden, wenn Sie die Blutdruckwerte der Patienten von Station A mit denen der Patienten auf Station B vergleichen würden.
Bei nicht-parametrischen Testverfahren wird die Größe der gemessenen Werte an sich nicht berücksichtigt. Die Werte werden nach Größe sortiert und mit Rangnummern versehen. Mit diesen Rangnummern wird dann bei den statistischen Analysen gearbeitet. Ob der Unterschied zwischen zwei gemessenen Werte, die nach dem Sortieren neben einander stehen, 2, 5 oder 1000 ist, hat also keine Bedeutung.
Bei parametrischen Testverfahren wird mit den Werten der Messungen selbst gearbeitet, also auch die Größe der Unterschiede geht in den Test ein. Deswegen sind parametrische Tests bei der Analyse von numerischen, quantitativen Daten vor zu ziehen. Ihre Anwendung ist aber an Voraussetzungen gebunden, die zunächts überprüft werden müssen.