Cluster analysis and chemometric classification of Sud-Paris waters

Ioele, Giuseppina; Ragno, G; Husson, Gp; Leroy, P; DE LUCA, M; Foglietti, Mj; Joyeux, M.

Le but de ce travail consiste à proposer des modèles de classification multivariés pour le contrôle analytique d’un nombre élevé de sources d’eau situé au sud-ouest de Paris. Ces modèles sont susceptibles d’effectuer une évaluation globale des échantillons par compulsion simultanée d’un grand nombre de paramètres analytiques et ils représentent ensuite un outil valide pour une télésurveillance continue des eaux. Pour la construction des modèles, deux méthodes chimiométriques très avancées ont été utilisées: Analyse de Cluster et Classification, par recours à des logiciels de dernière génération. L’ensemble des objets est composé de 69 points de prélèvement, chacun décrit par 9 paramètres analytiques sélectionnés, concernant des analyses effectuées durant l’année 2004. Dans une première phase on a effectué la distribution des sources en cluster en appliquant à la matrice de données, l’algorithme de type agglomérative hiérarchique Average Linkage, en utilisant comme discriminant le calcul de la Distance Euclidienne entre les objets. Pour l’examen de la similarité, 4 cluster ont été définis, chacun composé par un numéro variable de sources. En ce qui concerne la matrice de données dans laquelle les clusters représentent la variable dépendante, on a appliqué l’algorithme de régression PLS1 (Partial Least Squares) pour la construction d’un modèle multivarié. Le modèle obtenu a donc été soumis aux «procès» d’optimisation et de validation. Le modèle final a été ainsi appliqué à une nouvelle matrice de données, concernant les analyses effectuées en 2005 sur des échantillons analogues, pour apprécier les variations éventuelles dans la Classification des sources considérées. Il a été possible de souligner que la plus grande partie des points de prélèvement, dans le laps de temps d’une année, s’est placée à l’intérieur des clusters d’origine, à l’exception de 8 sources qui ont été classées dans un autre Cluster à la suite de variations statistiquement significatives de quelques paramètres analytiques.

Multivariate classification models for the analytical control of a high number of water sources localized in the south-west region of Paris is proposed. These models are able to perform a global quality evaluation of the water by the simultaneous use of a very high number of analytic parameters, representing a valid device for a continuous water monitoring. For building the models, two advanced chemometric methods have been adopted: Cluster Analysis and Classification, applied by means of dedicate software. The objects set was composed of 69 drawing points, each described by 9 selected analytic parameters, carried out during the year 2004. In a first step, the examined sources have been distributed in clusters by applying an agglomerative hierarchical algorithm to the data matrix, using the Euclidean Distance as discriminative parameter. 4 cluster have so been defined, each composed by a changing number of sources. On the data matrix having clusters as dependent variable, a PLS1 regression algorithm (Partial Least Squares) was used for the multivariate model building. The obtained model has been optimized and validated. The final models have been applied to a new matrix of data, concerning the analyses done in 2005 on analogous samples, in such a way to appreciate eventual variations in the Classification of the sources. A lot of water drawing points was demonstrated to maintain the same class of the prior year, with the exception of 8 sources classified in different clusters, due to statistical significative change of some characteristic analytic parameters.