Chemometrie is de toepassing van statistische methoden en technieken in de scheikunde. De originele doelstellingen van chemometrie zoals die in 1983 werden beschreven op een bijeenkomst van twee weken in het NAVO Advanced Study Institute. Toen ontwikkelde men allerlei multivariate meetapparatuur waarvoor de toen gebruikelijke denkpatronen niet meer geldig waren. Chemometrie werd beschreven als het zoeken naar bijpassende multivariate verwerking van de meetgegevens voor optimalisatie, calibratie, interpretatie van data, etc.[1]
Sinds deze bijeenkomst in 1983 is de studie van chemometrie enorm geëvolueerd. Diverse definities werden gegeven. Men kan chemometrie beschouwen als een methodologie om zo nauwkeurig mogelijke en correcte conclusies te trekken uit chemische meetsignalen en als een verzamelnaam van diverse technieken om deze meetsignalen in de scheikunde statistisch te verwerken. Dit bevat onder andere het in grootte reduceren van complexe data, interferenties bij metingen mathematisch te corrigeren en om een verband te leggen tussen de gemeten waarden en hetgeen wat men wil weten. Met hulp van wiskundige en statistische berekeningen aan de gemeten data poogt men inzicht te krijgen in een chemisch systeem.
Bij eenvoudige experimenten, wanneer slechts 1 waarde gemeten wordt, maakt men dikwijls gebruik van 1 statistische methode. Typisch worden tijdens 1 meting van een staal meerdere veranderlijken (zoals de intensiteit bij verschillende golflengte in het geval van spectroscopie) gemeten. Wanneer men te maken heeft met meerdere veranderlijken die een staal karakteriseren, maakt men gebruik van multivariate statistiek, die juist de gezamenlijke verandering van gemeten waarden in één geheel bekijkt.
De chemometrie veronderstelt geen begrip van de gemeten waarden, maar kan elke correlatie gebruiken die meetbaar is. De statistische methoden die gebruikt worden in de chemie, vallen allemaal onder de noemer chemometrie, zo ook courante technieken zoals variantieanalyse, hoofdcomponentenanalyse of PCA, normalisatie voor intensiteitscorrectie en autoschaling.
In de chemometrie kunnen daarom bijvoorbeeld ook databanken, neurale netwerken, of andere kunstmatige intelligentie technieken worden ingezet, bijvoorbeeld om te bepalen van welke verbinding een infraroodspectrum is.
Datareductie
Met de huidige wetenschappelijke en spectroscopische analysetoestellen kunnen snel veel gegevens (data) worden verzameld. In één experiment worden vaak de extincities op enkele tot duizenden golflengten gemeten, terwijl men vaak enkel de concentratie van 1 product wil weten. De analyse van de meetgegevens wordt gekenmerkt door de volgende problemen:
- Gebrek aan selectiviteit: een afzonderlijke meetwaarde levert niet genoeg kwantitatieve of kwalitatieve informatie om te kunnen discrimineren tussen verschillende monsters. Oorzaken hiervoor zijn onder andere ruis en interferentie.
- Collineariteit: verschillende opeenvolgende variabelen leveren vrij gelijkaardige (redundante) informatie op; hun meetwaarden verschillen slechts weinig, terwijl elke gemeten variabele ruis bevat.
- Gebrek aan goede voorkennis maakt het noodzakelijk dat er meer informatie verzameld moet worden dan we achteraf nodig blijkt. Vervolgens moet de irrelevante weggelaten worden.
- Het aantal veranderlijken moet kleiner zijn (bij bepaalde verwerkingsmethoden) dan het aantal monsters voor gegevensverwerkingsmethoden.
Om aan deze problemen tegemoet te komen, moeten de meetgegevens in grootte gereduceerd of gecomprimeerd worden. Hoofdcomponentenanalyse en PLS (Partial Least Squares) zijn vaak gebruikte technieken. Bij deze technieken wordt een nieuw assenstelsel opgebouwd die de informatie van vele variabelen in slechts enkele veranderlijken samenvoegt. Men transformeert zo de oorspronkelijke verzameling gemeten variabelen x1, x2, ..., xn in een nieuwe (kleinere) verzameling variabelen t1, t2, ..., tk (met k n): latente variabelen, eigenvectoren, hoofdcomponenten, scores, ... genoemd.
Hoofdcomponentenanalyse zoekt in de gegevens naar de grootste veranderingen in de gegevens. Deze worden in de eerste variabelen geplaatst. Er wordt echter geen direct verband gelegd met afzonderlijke producten die aanwezig zijn in het onderzochte staal.
PLS zoekt daarentegen naar de grootste veranderingen die correleren met het product dat je onderzoekt. Door dit directe verband is PLS vaak beter voor kwantitatieve bepalingen van productconcentraties.
Deze technieken (PCA en PLS) vereisen dat voor een correcte gegevensanalyse alle variabelen gecentreerd zijn rond de oorsprong (gemiddelde 0 hebben). Daarom voert men alvorens PCA of PLS toe te passen mean centering toe. Voor een nauwkeurige gegevensanalyse moeten de verschillende variabelen bovendien (ongeveer) dezelfde intensiteit hebben. Daarom voert men meestal autoschaling uit, als alternatief voor mean-centering.
Correctie voor fysische effecten in de spectroscopie
Analytische technieken zoals infraroodspectroscopie, Ramanspectroscopie en UV/VIS-spectroscopie lijden onder het optreden van fysische en chemische interferenties. Tot de fysische interferenties rekent men bijvoorbeeld bij spectrometers ook de golflengteafhankelijke gevoeligheid van de detector. Bovendien verandert bij hogere concentraties of te lange meettijden het signaal dikwijls niet meer evenredig met de concentratie of meettijd. Dergelijke fouten kunnen leiden tot grove onderschattingen of overschattingen. Zo is bijvoorbeeld NIR-spectroscopie onderhevig aan een aantal fysische interferenties. Effecten zoals veranderlijke korrelgrootte veroorzaken grote verschillen in (de intensiteit van) het gemeten signaal. De invloed van deze effecten kan in bepaalde gevallen het signaal zelfs volledig overstemmen.
Van verschillende fysische interferenties is het verband met het gemeten signaal mathematisch bekend. Indien dit het geval is, kan men het effect modelleren en er mathematisch voor corrigeren. Technieken zoals SNV (Standard Normal Variate), MSC (Multiplicative Scatter Correction) en EMSC (Extended Multiplicative Scatter Correction) worden vaak gebruikt.
Correctie voor chemische interferentie in de spectroscopie
Chemische interferentie kan zich uiten op verschillende niveaus van de chemische analyse. Dikwijls is in het opgemeten spectrum de achtergrond of het oplosmiddel aanwezig. Bovendien kunnen componenten in een mengsel reageren afhankelijk van de relatieve verhouding tot elkaar, zodat het gemeten signaal niet meer exact de som is van de signalen van de afzonderlijke componenten. EMSC kan corrigeren voor de verschillende soorten chemische interferentie. Bovendien maakt EMSC onderscheid tussen en modelleert tegelijk de chemische en fysische interferenties.
In het eenvoudigste geval is in het gemeten spectrum een bijdrage aanwezig van een gekend product. Via vectorprojectie op het zuivere productspectrum (spectra kan men voorstellen als vectoren in een hoog-dimensionale ruimte) kan men dan de bijdrage van het product in het totale spectrum berekenen. Voor meer informatie, zie het artikel Subtractie van chemische interferentie en spectrale achtergrond.
Correctie voor instrumentafhankelijkheid
Van dag tot dag, van staal tot staal en van meting tot meting, wisselt de intensiteit van het gemeten signaal. Dit is te wijten aan verandering in gevoeligheid of de focus van het analysetoestel. Bij multivariate data kan men (voor zuivere intensiteitsveranderingen) dan een vectornormalisatie toepassen.
Literatuur
- Martens H.; Naes, T. Multivariate calibration, John Wiley and Sons, London, ISBN 0-471-90979-3, 1989, 73-236
Zie ook
- Analytische chemie
- Dataverwerking in de chemometrie
- Experimentopzet (Design of Experiments of DOE)
- Multivariate kalibratie
- Spectroscopie
- ↑ (en) Geladi, P., Philip K. (21). Is there a future for chemometrics? Are we still needed? Is there a future for chemometrics? Are we still needed?. Journal of Chemometrics 22: 289-290 (John Wiley & Sons, Ltd.). DOI: 10.1002/cem.1141. Geraadpleegd op 22 mei 2008.