Up Right

grupstich

grupstich berechnet Stichprobenparameter aus Spalten einer Datei

SYNOPSIS

       grupstich [ -dt ][ -kK ]  [[[  -v  ]  -glist  ]  -flist  ] [-clist
       {+n|+m|+var|+s|+min|+max|+sum} [ Datei ]

BESCHREIBUNG

grupstich berechnet die empirischen Stichprobenparameter Summe, Quadratsumme, Mittelwert, Varianz, Standardabweichung sowie Minimum und Maximum von Spalten (mit numerischen Werten) bzw. Felder (in Datenbankjargon).

Wenn eine Datei angegeben wird, dann wird diese Eingabe bearbeitet, andernfalls die Standardeingabe.

Die Eingabe besteht aus Spalten, die durch ein Trennzeichen (TAB ist voreingestellt) getrennt sind. Das Trennzeichen kann mit der Option -d gesetzt werden.

Ohne Optionen werden die Stichprobenparameter der ersten Spalte ermittelt und auf die Standardausgabe geschrieben.

Mit der Option -f koennen Felder angegeben werden, auf denen die Stichprobenparameter ermittelt werden. Wenn die Option -g nicht gesetzt ist, werden sie für jedes Feld auf die Standardausgabe geschrieben.

Mit der Option -g werden die Felder angegeben, nach denen gruppiert wird. Eine Gruppe sind die aufeinanderfolgenden Zeilen, bei denen alle Gruppenfelder gleich sind. Die Gruppenfelder koennen auch nicht-numerisch sein. Die Stichprobenparameter werden in diesem Fall für jede dieser Gruppen berechnet.
Bei einem Gruppenwechsel und beim Ende der Eingabe werden erst die gemeinsamen Gruppenfelder und dann (standartmäßig) die Mittelwerte mit dem Trennzeichen getrennt auf die Standardausgabe geschrieben. Die Reihenfolge der Gruppenfelder untereinander und die der Stichprobensammelfelder ist die Reihenfolge in der entsprechenden Liste.

Die Optionen, die mit + beginnen, sind die Ausgabebeschreibungsoptionen. Für jedes (Nicht-Gruppen)Feld wird eine Spalte mit dem der Option entsprechenden Stichprobenparameter eingefügt.

Die Reihenfolge der Optionen in der Kommandozeile ist die Reihenfolge der Spalten in der Ausgabe. Beispielsweise spezifiziert die Folge +min +m +max daß je Feld die Spal- ten mit Minimum,Mittelwert und Maximum der Gruppe aus- gegeben wird. Werden keine Optionen dieser Art angegeben, so erscheint standartmäßig der Mittelwert. Wird zusätzlich zu der Option -g die Option -v angegeben, so werden alle Stichprobenparameter aller Felder auf die Standardausgabe geschrieben. Zeilen, die mit dem Kommentarzeichen # beginnen, werden als Komentarzeilen interpretiert und unverändert auf die Standardausgabe geschrieben. Das Kommentarzeichen kann mit Option -k gesetzt werden.

Die Kovarianz kann mit -c angewiesen werden, um Beziehung zwischen mehreren Spalten zu bestimmen.
Zur Zeit ist die Kovarianz noch nicht in die Ausgabeoptionen integriert, es wird aber am Ende bzw, nach jeder Gruppe die Kovarianzmatrix als untere Dreiecksmatrix ausgegeben. (Hier muss aufgrund der Nutzungsfälle überlegt werden, wie die Kovarianz bzw. der Korrellationskoeffizient in einer Werkzeugkette gut weiterverarbeitet werden sollen, wie z.B: +m +s eine gute Darstellung mit Fehlerkennzeichnungen bei gnuplot ist)

Optionen

-pprefix
stellt jeder ausgegebenen nicht-Kommentarzeile ein Prefix voran.
-dt
setzt t als Trennzeichen (falls nicht gesetzt,ist das Tabulatorzeichen voreingestellt).
-kK
setzt K als Kommentarzeichen. Alle Zeilen, die mit diesem beginnen, werden als Kommentarzeilen aufgefaßt und auf die Standardausgabe geschrieben.
-fliste
spezifiziert die Stichprobensammelfelder. liste ist eine mit Komma getrennte Folge von Zahlen, z.B setzt -f2,3 die Felder 2 und 3 zu Stichprobensammelfelder.
-gliste
spezifiziert die Gruppenfelder. Die liste ist wie bei Option -f eine mit Komma separierte Folge von Zahlen.
-v
ausführliche Angabe (nur im Zusammenhang mit Option -g von Bedeutung).
-cliste
berechnet die Kovarianz und den Korrelationskooffizienten zwischen Spalten.
Es müssen mindestes zwei Spaltennummern angegeben werden.
Insbesondere bei 3 und mehr Spalten ist es interessant, dass dann die Kovarianzmatrix als untere Dreiecksmatrix ausgegeben wird.
Falls nur für zwei Felder die Kovarianz berechnet wird, kann mit der Ausgabeoption +cov oder mit +r der entsprechende Wert in der Gruppenzeile ausgegeben werden.

AUSGABEOPTIONEN

+n
druckt Sichprobengröße
+m
druckt Mittelwertsspalte
+min
druckt Minimumsspalte
+max
druckt Maximumsspalte
+var
druckt Varianz
+s
druckt Standardabweichung
+sum
druckt Summe
+cov
druckt Covarianz (falls 2 Cov-Felder)
+r
druckt Korrelationskoeffizient (falls 2 Cov-Felder)

SIEHE AUCH

stichprobe(1),Stat(3)

Berechnungen

Anwendungsbeispiele

Entwickelt wurde es zum Auswerten von Programmlaufzeiten im Supercomputerbereich am IMMD IV der Universität Erlangen Nürnberg.
Im Zusammenhang mit Radius kann man grupstich zur Auswertung des IP-Verbrauchs und der Online-zeiten benutzt.
Auch zur Auswertung von Dateigrößen kann es verwendet werden.

Hinweis

Dieses Statistiktool fügt sich sehr schon in die UNIX- und GNU-Umgebung ein. mit den Ausgabeoperationen +m +min +max kann man mit gnuplot schöne Errorbars generieren.

An sich sollte es direkt auf einem Objekttyp Relation arbeiten, da es ansich unsinn ist, die Fließkommazahlwerte auszudrucken und mit Programmen wie diesem sie einzulesen, dann wieder in Fließkommazahlen umwandeln usw.


Informatik- und Netzwerkverein Ravensburg e.V Rudolf Weber