|
Hauptkomponentenanalyse (PCA)Die Hauptkomponentenanalyse ist ein statistisches Verfahren, das angewandt wird, wenn viele Eigenschaften, die an vielen Objekten gemessen wurden, auf wenige gemeinsame aber unabhängige Einflußgrößen reduziert werden sollen. Man hat mit dieser Methode die Möglichkeit einen n-dimensionalen Raum auf einen m-dimensionalen Raum zu reduzieren, wobei m < n sein kann. Das Besondere dabei ist, dass die wesentliche Information, die in den Daten enthalten ist, bewahrt bleibt, in den meisten Fällen sogar deutlicher dargestellt wird. Die Methode fasst dazu Variable, die stark untereinander korreliert sind zusammen. Denn Variable, die stark untereinander korreliert sind, liefern weitgehend dasselbe Ergebnis. Außerdem geht die Hauptkomponentenanalyse von der Annahme aus, dass es bei stark korrelierten Größen eine dritte Größe gibt, die nicht direkt messbar ist und die hinter diesen korrelierten Variablen steht und sich quasi in ihnen äußert. Das bedeutet, die meßbaren Größen sind nur eine andere Erscheinungsform von Größen, die im Hintergrund stehen und nicht direkt gemessen werden können. Man nennt diese im Hintergrund stehenden Größen Haupkomponenten (Principal Components) oder Faktoren. Ziel der Hauptkomponentenanalyse ist es, solche Hintergrundgrößen bzw. Faktoren aus den gemessenen Variablen zu ermitteln, die die beobachteten Zusammenhänge möglichst vollständig erklären. Die Datensätze der multivariaten Analyse sind mehrdimensionale Datensätze, in der Regel handelt es sich um zweidimensionale Matrizen. In der mathematischen Formulierung der Hauptkomponentenanalyse wird der zu untersuchende Datensatz X als das Produkt einer möglichst kleinen Anzahl von Hauptkomponenten P und Gewichtsvektoren T dargestellt. Man beschreibt also folgende Zerlegung: wobei: X = Datenmatrix (Objekte stehen in Zeilen, Variablen in Spalten) In den Zeilen der Matrix P stehen die Hauptkomponenten, die für alle Objekte der Datenmatrix X gleich sind und in der T Matrix stehen die Gewichtsvektoren für jedes einzelne Objekt. Die Matrix P hat genausoviele Spalten, wie die Matrix X (=Anzahl der Variablen). Die Matrix T hat genausoviele Zeilen wie die Matrix X (= Anzahl der Objekte) und genausoviele Spalten wie die Matrix P Zeilen hat (= Anzahl der Faktoren). Die Matrix E ist die Residuenmatrix und ergibt sich aus D - PT. Je besser die Faktoren- und die Scorematrix die Daten beschreiben, umso kleiner wird die Residuenmatrix. Man kann die Ziele der Hauptkomponentenanalyse auch folgendermaßen zusammenfassen: Bei der Datenreduktion und der Vereinfachung will man für die große Datenmenge ein kleineres überschaubares Modell entwickeln, das die Daten beschreibt. Mit diesen Modellen lassen sich dann auch unbekannte Objekte beschreiben, wenn für diese die gleichen Messungen vorgenommen werden. Bei der Klassifizierung will man Klassen für ähnliche Objekte finden. Man kann aus unbekannten Daten die Klassen herausfinden, oder für bekannte Daten Klassenmodelle erstellen und mit diesen dann unbekannte Objekte einordnen. Dieses Verfahren ist unter dem Begriff SIMCA bekannt. Damit können auch Ausreißer erkannt werden, da sie zu keiner bekannten Klasse gehören. Außerdem kann mit Hilfe der PCA die Korrelation zwischen den Variablen herausgefunden werden und zusätzlich die Wichtigkeit der Variablen für das verwendete Modell. Damit können die Variablen herausgefunden werden, die für die gegebene Anwendung von besonderer Wichtigkeit sind. Eine weitere wichtige Anwendung ist die Vorhersage bestimmter Zielgrößen aus den gemessenen Eigenschaften. Die Hauptkomponentenanalyse geht hier in die Regression über. In der Regel wird dies mit dem Verfahren der Partial Least Squares Regression (PLS-R) durchgeführt. |