Guten Abend Zusammen,
im letzten Teil meiner Serie hatte ich eine Idee formuliert, wie man die Farben von Briefmarken sinnvoll gruppieren kann. Die praktische Anwendung möchte ich jetzt an einem Beispiel zeigen. Freundlicherweise hat mir Carsten Burkhardt hierfür einen kompletten Datensatz der 8 Pfennig Werte aus der "Köpfe-Serie" zur Verfügung gestellt [Burkhardt, S37f]. Noch einmal vielen Dank dafür. Jeder wird die Marken der Serie kennen, ich möchte die 8Pf Marken noch mal im Bild zeigen. Katalogisiert werden die Farben nach:
1948 – Nr. 214: schwärzlichbräunlichrot - schwarzrot
1952 – Nr. 329: (dunkel) bräunlichrot

Die Daten liegen als Datensatz in einer Textdatei (*.txt) in nachfolgend beschriebener Form vor:
d;838;d3;7;f;vX1;41,77;36,57;22,83;sign Paul;-1000,00;-1000,00;-1000,00;-1000,00;-1000,00;6,46;6,07;5,79;5,63;5,85;5,81;5,57;5,36;
5,45;5,37;5,35;5,44;5,56;5,62;5,87;6,27;7,25;9,42; 13 ,55;20,44;28,12;33,58;36,18;37,46;38,08;38,68;39,1 8;39,71;40,23;40,73;41,21;
-1000,00;-1000,00;-1000,00;-1000,00;-1000,00;-1000,00;-1000,00;-1000,00;2008;9;29;23;13;25;;Burkhardt;ff2&
Für die geplante Analyse werden aus dem Datensatz folgende Elemente ausgewählt:
- die Nummer der Messung,
- die Farbwerte L*a*b* und
- die Messwerte des Remissionsspektrums
Ich verwende die Software „Mathematica V10“. Die Daten werden aufbereitet (Umwandlung von „Komma“ in „Punkt“ und „Semikolon“ in „Komma“) und als Listenelemente einer Variablen zugeordnet, so dass sie mathematisch verarbeitet werden können. Der Datensatz hat nun folgende Form:
M838={{838},{41.77,36.57,22.83},{6.46,6.07,5.79,5. 63,5.85,5.81,5.57,5.36,5.45,5.37,5.35,5.44,5.56,5. 62,5.87,6.27,7.25,9.42,13.55,20.44,
28.12,33.58,36.18,37.46,38.08,38.68,39.18,39.71,40 .23,40.73,41.21}};
Aus dem vorliegenden Messwerten wurden die Daten von 2180 Messungen aufbereitet und für die Berechnung verwendet. Über die mitgeführte Nummer der Messung können einzelne Ergebnisse direkt den Farb- und Messwerten zugeordnet werden. So haben die L*a*b* Farbwerte in der Berechnung die Form {41.77,36.57,22.83,838}. Ähnlich wird mit den Messwerten verfahren.
Die L*a*b* Farbwerte können als Punktewolke in einem dreidimensionalen Koordinatensystem gargestellt werden. An der Darstellung kann man schon jetzt ganz gut erkennen, dass eine Gruppierung in zwei große Gruppen möglich erscheint.

Mit den L*a*b* Farbwerten wird eine Clusteranalyse durchgeführt.
Eine Clusteranalyse ist ein mathematisches Verfahren der Multivariaten Datenanalyse aus der Statistik, mit dem Ziel, eine beliebige Anzahl von Objekten (hier die L*a*b* Farbwerte) in möglichst homogene Gruppen (Cluster) zusammenzufassen. Der Begriff homogene Gruppe wird wie folgt definiert [Bacher, S.16]:
1. Die Objekte, die einer homogenen Gruppe angehören, sollen einander ähnlich sein.
2. Die Objekte, die unterschiedlichen homogenen Gruppen angehören, sollen verschieden sein.
Die Ähnlichkeit wird z.B. über Distanzmaße definiert:
1. Zwei Objekte sind einander umso ähnlicher, je geringer ihr Abstand zueinander ist.
2. Zwei Objekte sind umso verschiedener, je größer ihr Abstand zueinander ist.
Die Distanz zwischen zwei Objekten wird nach der L2-Norm als euklidischer Abstand berechnet und in einer Distanzmatrix gesammelt.
Für die Gruppierung von Objekten wird ein hierarchisch-agglomeratives Verfahren verwendet, bei dem die Clusterzentren bestimmt werden sollen. In den Berechnungsschritten wird nun genau das Datenpaar gesucht, bei dem der euklidische Abstand am kleinsten ist. Die beiden Objekte werden zu einem Cluster verschmolzen. Das Zentrum des Clusters wird als Mittelwert der beteiligten Objekte berechnet.
Die Berechnung wird beendet, wenn alle Objekte eines Datensatzes einem Cluster angehören, eine bestimmte vorher definierte Clusteranzahl erreicht wurde oder, wie in diesem Fall, der Abstand zwischen zwei Objekten (Clustern) größer als 5 wird.
Die Analyse ergibt eine Einteilung in insgesamt 6 zusammengehörige Gruppen, wobei sich räumlich zwei Bereiche deutlich trennen lassen. Im nachfolgenden Bild habe ich beide Bereiche dargestellt.

Über 3 Randpunkte der Bereiche kann man nun im Raum eine Ebene aufspannen und somit alle Punkte links oder rechts davon eindeutig beschreiben. Die berechnete Ebene liegt bei dem Wert a=34. Das bedeutet, die Farbwerte mit a>34 erscheinen in der Farbe rötlicher, als die Farbwerte mit a<34.
Über die Nummer der Messwerte kann die Verbindung zwischen Datenpunkten der Cluster zu den jeweiligen Messwertreihen der Remissionsspektren hergestellt werden.
In den kommenden Tagen möchte ich die Ergebnisse im Detail vorstellen und die Verbindung zu den Remissionspektren zeigen.
In der Folge wird man dann ganz gut erkennen, dass eine Gruppierung nur nach den Messwertekurven nicht sinnvoll ist.
Literatur:
J. Bacher, A. Pöge, K. Wenzig, Clusteranalyse – Anwendungsorientierte Einführung in Klassifikationsverfahren, Oldenbourg Verlag München.
C. Burkhardt, W. Podien, Die Köpfeserie 1948 – 1954, Handbuch und Spezialkatalog
Viele Grüße
Ben.
im letzten Teil meiner Serie hatte ich eine Idee formuliert, wie man die Farben von Briefmarken sinnvoll gruppieren kann. Die praktische Anwendung möchte ich jetzt an einem Beispiel zeigen. Freundlicherweise hat mir Carsten Burkhardt hierfür einen kompletten Datensatz der 8 Pfennig Werte aus der "Köpfe-Serie" zur Verfügung gestellt [Burkhardt, S37f]. Noch einmal vielen Dank dafür. Jeder wird die Marken der Serie kennen, ich möchte die 8Pf Marken noch mal im Bild zeigen. Katalogisiert werden die Farben nach:
1948 – Nr. 214: schwärzlichbräunlichrot - schwarzrot
1952 – Nr. 329: (dunkel) bräunlichrot
Die Daten liegen als Datensatz in einer Textdatei (*.txt) in nachfolgend beschriebener Form vor:
d;838;d3;7;f;vX1;41,77;36,57;22,83;sign Paul;-1000,00;-1000,00;-1000,00;-1000,00;-1000,00;6,46;6,07;5,79;5,63;5,85;5,81;5,57;5,36;
5,45;5,37;5,35;5,44;5,56;5,62;5,87;6,27;7,25;9,42; 13 ,55;20,44;28,12;33,58;36,18;37,46;38,08;38,68;39,1 8;39,71;40,23;40,73;41,21;
-1000,00;-1000,00;-1000,00;-1000,00;-1000,00;-1000,00;-1000,00;-1000,00;2008;9;29;23;13;25;;Burkhardt;ff2&
Für die geplante Analyse werden aus dem Datensatz folgende Elemente ausgewählt:
- die Nummer der Messung,
- die Farbwerte L*a*b* und
- die Messwerte des Remissionsspektrums
Ich verwende die Software „Mathematica V10“. Die Daten werden aufbereitet (Umwandlung von „Komma“ in „Punkt“ und „Semikolon“ in „Komma“) und als Listenelemente einer Variablen zugeordnet, so dass sie mathematisch verarbeitet werden können. Der Datensatz hat nun folgende Form:
M838={{838},{41.77,36.57,22.83},{6.46,6.07,5.79,5. 63,5.85,5.81,5.57,5.36,5.45,5.37,5.35,5.44,5.56,5. 62,5.87,6.27,7.25,9.42,13.55,20.44,
28.12,33.58,36.18,37.46,38.08,38.68,39.18,39.71,40 .23,40.73,41.21}};
Aus dem vorliegenden Messwerten wurden die Daten von 2180 Messungen aufbereitet und für die Berechnung verwendet. Über die mitgeführte Nummer der Messung können einzelne Ergebnisse direkt den Farb- und Messwerten zugeordnet werden. So haben die L*a*b* Farbwerte in der Berechnung die Form {41.77,36.57,22.83,838}. Ähnlich wird mit den Messwerten verfahren.
Die L*a*b* Farbwerte können als Punktewolke in einem dreidimensionalen Koordinatensystem gargestellt werden. An der Darstellung kann man schon jetzt ganz gut erkennen, dass eine Gruppierung in zwei große Gruppen möglich erscheint.
Mit den L*a*b* Farbwerten wird eine Clusteranalyse durchgeführt.
Eine Clusteranalyse ist ein mathematisches Verfahren der Multivariaten Datenanalyse aus der Statistik, mit dem Ziel, eine beliebige Anzahl von Objekten (hier die L*a*b* Farbwerte) in möglichst homogene Gruppen (Cluster) zusammenzufassen. Der Begriff homogene Gruppe wird wie folgt definiert [Bacher, S.16]:
1. Die Objekte, die einer homogenen Gruppe angehören, sollen einander ähnlich sein.
2. Die Objekte, die unterschiedlichen homogenen Gruppen angehören, sollen verschieden sein.
Die Ähnlichkeit wird z.B. über Distanzmaße definiert:
1. Zwei Objekte sind einander umso ähnlicher, je geringer ihr Abstand zueinander ist.
2. Zwei Objekte sind umso verschiedener, je größer ihr Abstand zueinander ist.
Die Distanz zwischen zwei Objekten wird nach der L2-Norm als euklidischer Abstand berechnet und in einer Distanzmatrix gesammelt.
Für die Gruppierung von Objekten wird ein hierarchisch-agglomeratives Verfahren verwendet, bei dem die Clusterzentren bestimmt werden sollen. In den Berechnungsschritten wird nun genau das Datenpaar gesucht, bei dem der euklidische Abstand am kleinsten ist. Die beiden Objekte werden zu einem Cluster verschmolzen. Das Zentrum des Clusters wird als Mittelwert der beteiligten Objekte berechnet.
Die Berechnung wird beendet, wenn alle Objekte eines Datensatzes einem Cluster angehören, eine bestimmte vorher definierte Clusteranzahl erreicht wurde oder, wie in diesem Fall, der Abstand zwischen zwei Objekten (Clustern) größer als 5 wird.
Die Analyse ergibt eine Einteilung in insgesamt 6 zusammengehörige Gruppen, wobei sich räumlich zwei Bereiche deutlich trennen lassen. Im nachfolgenden Bild habe ich beide Bereiche dargestellt.
Über 3 Randpunkte der Bereiche kann man nun im Raum eine Ebene aufspannen und somit alle Punkte links oder rechts davon eindeutig beschreiben. Die berechnete Ebene liegt bei dem Wert a=34. Das bedeutet, die Farbwerte mit a>34 erscheinen in der Farbe rötlicher, als die Farbwerte mit a<34.
Über die Nummer der Messwerte kann die Verbindung zwischen Datenpunkten der Cluster zu den jeweiligen Messwertreihen der Remissionsspektren hergestellt werden.
In den kommenden Tagen möchte ich die Ergebnisse im Detail vorstellen und die Verbindung zu den Remissionspektren zeigen.
In der Folge wird man dann ganz gut erkennen, dass eine Gruppierung nur nach den Messwertekurven nicht sinnvoll ist.
Literatur:
J. Bacher, A. Pöge, K. Wenzig, Clusteranalyse – Anwendungsorientierte Einführung in Klassifikationsverfahren, Oldenbourg Verlag München.
C. Burkhardt, W. Podien, Die Köpfeserie 1948 – 1954, Handbuch und Spezialkatalog
Viele Grüße
Ben.
Kommentar