Κατέβασμα παρουσίασης
Η παρουσίαση φορτώνεται. Παρακαλείστε να περιμένετε
ΔημοσίευσεΘέμις Καλάρης Τροποποιήθηκε πριν 6 χρόνια
1
Metode si sisteme de analiza si interpretare a imaginilor
Prezentari de curs – sem. II
2
Clasificatoare probabilistice Clasificatoare bazate pe optimizare
Metode si sisteme de analiza si interpretare a imaginilor (MSAII) Curs 9 Curs 9 – Clasificatoare probabilistice; clasificatoare bazate pe optimizare Clasificatoare probabilistice Clasificatoare bazate pe optimizare
3
Clasificatoare probabilistice
Metode si sisteme de analiza si interpretare a imaginilor (MSAII) Curs 9 Clasificatoare probabilistice Numite si clasificatoare statistice Cel mai important reprezentant: Clasificatorul Bayesian (bazat pe implementarea regulii lui Bayes) => performante foarte bune de clasificare, => cu conditia cunoasterii sau posibilitatii estimarii corecte a probabilitatilor conditionale + probabilitatilor neconditionale ale claselor => regula lui Bayes este utilizata in multe situatii in conversia unor clasificatoare neprobabilistice in variante probabilistice (ex. Retele neuronale; masini cu vectori suport)
4
Metode si sisteme de analiza si interpretare a imaginilor (MSAII)
Curs 9 Regula lui Bayes (1) Esenta regulii lui Bayes = formularea matematica a unei reguli care ne arata cum ar trebui sa ne modificam asteptarile existente tinand cont de evidenta curenta observata, astfel incat sa minimizam probabilitatea luarii unei decizii eronate intr-o situatie noua. Exemplu clasic: un nou-nascut observa rasaritul soarelui pt. prima data. Deocamdata nu stie daca soarele va rasari si maine => pt. el, probabilitatea ca soarele sa rasara si maine = probabilitatea ca soarele sa nu mai rasara maine = 1/2. A doua zi soarele rasare din nou => isi actualizeaza probabilitatile probabilitatea ca soarele sa rasara si in ziua urmatoare = 2/3, iar probabilitatea ca soarele sa nu mai rasara in ziua urmatoare =1/3, s.a.m.d. => asteptarile initiale existente se actualizeaza de la incertitudine maxima la aproape sigur. Matematic: regula lui Bayes = bazata pe probabilitati conditionale. Probabilitatile conditionale = probabilitatea de aparitie a unui eveniment in conditiile unei evidente observate.
5
Regula lui Bayes (2) Iris Versicolor Iris Setosa Iris Virginica
Metode si sisteme de analiza si interpretare a imaginilor (MSAII) Curs 9 Regula lui Bayes (2) Exemplu: setul de date Iris al lui Fisher Problema: clasificarea florilor de Iris in una din 3 clase: Versicolor, Setosa, Virginica => numarul de clase: K=3; clasele C1, C2, C3 cu etichetele: y1=“Versicolor”, y2=“Setosa”, y3=“Virginica”. Trasaturi discriminative masurate: lungimea sepalei (LS), latimea petalei (WS), lungimea petalei (LP), latimea petalei (WP) (in cm) => spatiul trasaturilor 4-dimensional, F=4 => R4; vectorii de trasaturi: x=[LS WS LP WP]T. Iris Versicolor Iris Setosa Iris Virginica Petala Sepala
6
Metode si sisteme de analiza si interpretare a imaginilor (MSAII)
Curs 9 Regula lui Bayes (3) Terminologie: P(Ci|x) = probabilitatea a-posteriori (in engleza: posterior) Regula lui Bayes: Regula de decizie Bayes: asigneaza x la clasa Cj pentru care:
7
Regula lui Bayes (4) Explicarea probabilitatilor:
Metode si sisteme de analiza si interpretare a imaginilor (MSAII) Curs 9 Regula lui Bayes (4) Explicarea probabilitatilor: P(Ci) = probabilitatea de aparitie a unei date din clasa Ci, i=1,2,3 probabilitatea ca, dintr-un set posibil de flori de iris observate, sa avem statistic mai multe flori de iris din clasa Versicolor sau Setosa sau Virginica (dupa cat sunt de frecvente/de rare): P(C1) = frecventa florilor de iris de tip Versicolor; P(C2) = frecventa florilor de iris de tip Setosa; P(C3) = frecventa florilor de iris de tip Virginica. Implicit, P(C1)=P(C2)=P(C3)=1/3. P(Ci) = probabilitatea a-priori (engleza: prior) Obs.: In practica – daca nu stim valorile P(Ci) dar avem un set de date de antrenare Xtrn={xt,1, xt,2, …, xt,Ntrn} suficient de mare, cu etichetele Ytrn={yt,1,yt,2,…,yt,Ntrn}, putem estima:
8
Metode si sisteme de analiza si interpretare a imaginilor (MSAII)
Curs 9 Regula lui Bayes (5) P(x|Ci) = probabilitatea ca, atunci cand stim sigur ca “extragem” (observam) o data din clasa Ci, vectorul de trasaturi al acestei date sa fie x ( sa fie, in RF, punctul x). P(x|Ci) = posibilitatea (in engleza: likelihood) Ne intereseaza sa descriem P(x|Ci) pentru toate valorile posibile a lui x din RF sa descriem distributia sau densitatea de probabilitate p(x|Ci) Terminologie: p(x|Ci) = densitatea de probabilitate conditionata de clasa Exemplu: stim sigur ca observam flori de iris din clasa Versicolor => P([ ]|C1)=0.01, in timp ce P([ ]|C1)=0.9
9
Metode si sisteme de analiza si interpretare a imaginilor (MSAII)
Curs 9 Regula lui Bayes (6) P(x) = probabilitatea sa observam vectorul de trasaturi x in general, indiferent de clasa din care observam date => P(x) = probabilitatea de aparitie a unui vector de date x, neconditionata de clasa : ( numim P(x) sau p(x) = evidenta) Din nou => daca ne intereseaza P(x) pentru orice x din RF => ne intereseaza densitatea de probabilitate neconditionala p(x) = probabilitatea observarii valorii x dintre toate valorile posibile in RF. Probabilitatile discutate: P(Ci); P(x|Ci); P(x) – pot fi estimate dintr-un set suficient de mare de date de antrenare, Xtrn, pt. Ntrn – mare. (p(x|Ci) si p(x) pot avea forme parametrice sau neparametrice) In faza de clasificare/recunoastere de obiecte: receptionam un obiect descris prin x’ care nu este din setul Xtrn => dorim sa calculam probabilitatea ca el sa apartina clasei Ci . (In final => eticheta obiectului = eticheta clasei de probabilitate maxima) => vrem sa calculam probabilitatea de a avea “aparuta” clasa Ci, conditionata de faptul ca am observat vectorul x’ P(Ci|x’)
10
Estimarea probabilitatilor (1)
Metode si sisteme de analiza si interpretare a imaginilor (MSAII) Curs 9 Estimarea probabilitatilor (1) Estimarea neparametrica: Dintr-un set de date de antrenare de dimensiune foarte mare => pe baza histogramelor datelor de antrenare per clase: Generarea a K submultimi de date de antrenare (1 submultime/clasa): Xtrn=Xtrn,C1 U Xtrn,C2 U….U Xtrn,CK Estimarea probabilitatilor a-priori: Estimarea posibilitatilor (probabilitatilor conditionale):
11
Metode si sisteme de viziune artificiala (MSVA)
Curs 9 Estimarea probabilitatilor (2) Exemplu:
12
Estimarea probabilitatilor (3)
Metode si sisteme de analiza si interpretare a imaginilor (MSAII) Curs 9 Estimarea probabilitatilor (3) Estimarea neparametrica a functiilor densitate de probabilitate cu ferestre Parzen Fie multimea datelor de antrenare Xtrn={xt,1, xt,2, …, xt,Ntrn} o multime de Ntrn esantioane extrase din spatiul trasaturilor RF (esantioane semnificative pentru problema analizata; Ntrn suficient de mare pt. a fi semnificativ). Fie o partitionare a spatiului trasaturilor RF in regiuni elementare Rj, j=1,2,…,N. Pt. orice regiune R din RF, probabilitatea ca o data x sa “cada” in R este: Daca regiunile R sunt suficient de mici astfel incat p(x)≈cst. in regiune =>: unde V = volumul regiunii R.
13
Putem aproxima, pe baza esantioanelor din Xtrn, P prin:
Metode si sisteme de analiza si interpretare a imaginilor (MSAII) Curs 9 Analizand esantioanele din Xtrn => numaram cate esantioane din Xtrn “cad” in R; fie k = nr. de esantioane din Xtrn gasite in regiunea R Putem aproxima, pe baza esantioanelor din Xtrn, P prin: Din egalarea celor 2 expresii ale P =>: Aceasta expresie reprezinta estimarea neparametrica a p(x) din datele de antrenare. Observatie: Daca folosim Xtrn,Ci , i=1,2,…,K in loc de Xtrn => putem estima probabilitatile conditionale (posibilitatile): unde ki = numarul esantioanelor din Xtrn,Ci din interiorul regiunii R.
14
Ferestre Parzen (=functii-kernel) (1)
Metode si sisteme de analiza si interpretare a imaginilor (MSAII) Curs 9 Ferestre Parzen (=functii-kernel) (1) Forma regiunilor R care partitioneaza spatiul trasaturilor afecteaza volumul V al regiunii si numarul de esantioane k din fiecare regiune. Regiunea R poate fi definita prin functia sa de apartenenta, numita functie fereastra sau fereastra Parzen sau functie kernel. Cea mai simpla forma de regiune: un hipercub in RF ( kernel uniform). Fie h = latura hipercubului => V = hF =>: Pentru estimarea p(x), consideram regiunea R hipercubica al carei centru de greutate este x => un esantion xi=[xi1 xi2 … xiF] este in R daca si numai daca:
15
Ferestre Parzen (=functii-kernel) (2)
Metode si sisteme de analiza si interpretare a imaginilor (MSAII) Curs 9 Ferestre Parzen (=functii-kernel) (2) Ex: daca F=2 => R = patrat, centrat pe x: Fie functia φ: RF→R, definita prin: Numim φ de aceasta forma – fereastra Parzen uniforma sau kernel uniform. Observam ca:
16
Ferestre Parzen (=functii-kernel) (3)
Metode si sisteme de analiza si interpretare a imaginilor (MSAII) Curs 9 Ferestre Parzen (=functii-kernel) (3) φ((xi-x)/h) = indicator al apartenentei esantionului xi la regiunea R centrata in x putem exprima nr. de esantioane k din cele Ntrn aflate in R prin: estimarea densitatii de probabilitate p(x) pentru kernel uniform (fereastra Parzen uniforma): Functia φ rectangulara (uniforma) are dezavantajul unor tranzitii abrupte (discontinuitati) in estimarea p(x). In locul ei => putem folosi alte forme de ferestre; ex: triunghiulara; Gaussiana.
17
Ferestre Parzen (=functii-kernel) (4)
Metode si sisteme de analiza si interpretare a imaginilor (MSAII) Curs 9 Ferestre Parzen (=functii-kernel) (4) Def. O functie kernel (=fereastra Parzen) este o functie φ :RF→R+ cu proprietatile: P1. φ (0) = max{φ (x)} P2. Integrala lui φ(x) peste RF este 1 P3. φ (-x) = φ (x). Estimam probabilitatile cu:
18
Ferestre Parzen (=functii-kernel) (5)
Exemple de functii kernel (ferestre Parzen):
19
Estimarea parametrica a probabilitatilor
Metode si sisteme de analiza si interpretare a imaginilor (MSAII) Curs 9 Estimarea parametrica a probabilitatilor Estimarea se face tot pe baza setului de date de antrenare, Dar: => se considera cunoscuta forma functiei densitate de probabilitate p(x|Ci) => se estimeaza parametrii functiei Estimarea probabilitatilor a-priori: ca in metodele neparametrice: Estimarea posibilitatilor (probabilitatilor conditionale) alegerea formei functiei + estimarea parametrilor functiei. => Cel mai adesea: functia densitate de probabilitate = functia Gaussiana ( distributia normala):
20
Semnificatia parametrilor:
Metode si sisteme de analiza si interpretare a imaginilor (MSAII) Curs 9 Semnificatia parametrilor: Σi – matricea de covarianta a datelor din clasa Ci; estimata din Xtrn,Ci μi – vectorul medie al datelor din clasa Ci; estimat din Xtrn,Ci: Daca Xtrn,Ci={x1,Ci, x2,Ci, …, xNi,Ci} =>:
21
clasificatorul bazat pe regula de decizie Bayes, considerand un model
Metode si sisteme de analiza si interpretare a imaginilor (MSAII) Curs 9 Exemplu numeric: Sa se exprime analitic clasificatorul bazat pe regula de decizie Bayes, considerand un model Gaussian al posibilitatilor
22
Clasificatoare bazate pe optimizare
Metode si sisteme de analiza si interpretare a imaginilor (MSAII) Curs 9 Clasificatoare bazate pe optimizare Numite si clasificatoare geometrice, pt. ca principiul construirii clasificatorului = deducerea unor granite (suprafete) de decizie (linii, plane, hiperplane) in spatiul trasaturilor Clasificatoarele bazate pe optimizare = sisteme instruibile Necesita un set de date de antrenare = date + etichete, Xtrn={xt,1, xt,2, …, xt,Ntrn} cu etichetele Ytrn={yt,1,yt,2,…,yt,Ntrn}, xt,i in RF, i=1,2,…,Ntrn; yt,i – eticheta clasei C1, C2, …, CK (K – nr. de clase) Ntrn – suficient de mare pt. realizarea unei invatari corecte cu capacitate de generalizare la date necunoscute (de test)
23
Clasificatoare bazate pe optimizare
Metode si sisteme de analiza si interpretare a imaginilor (MSAII) Curs 9 Clasificatoare bazate pe optimizare In etapa de construire a clasificatorului: Deducerea suprafetelor de separare Si ale datelor din Xtrn din cele K clase, prin minimizarea unei functii de eroare intre asignarea decisa de clasificator si asignarea stabilita prin etichetele din Ytrn. Exemple: minimizarea erorii aparente; minimizarea erorii medii patratice (MSE) In etapa de clasificare a datelor: Un vector x reprezentat in RF (care nu a fost prezent in Xtrn) este prezentat clasificatorului => se examineaza pozitia lui fata de suprafetele de decizie (separare) Si => in functie de pozitia lui fata de suprafetele de separare (decizie, discriminare) ( fata de granitele claselor) = eticheta clasei
24
Categorii de clasificatoare bazate pe optimizare
Metode si sisteme de analiza si interpretare a imaginilor (MSAII) Curs 9 Categorii de clasificatoare bazate pe optimizare Dupa numarul de clase K: Clasificatoare binare => K=2 Clasificatoare multiclasa => K>2 Dupa forma geometrica a granitelor claselor: Clasificatoare liniare discriminanti liniari => forma liniara a suprafetei de decizie in RF Clasificatoare neliniare discriminanti neliniari => forma neliniara a suprafetei de decizie in RF
25
Principali reprezentanti ai clasificatoarelor bazate pe optimizare
Metode si sisteme de analiza si interpretare a imaginilor (MSAII) Curs 9 Principali reprezentanti ai clasificatoarelor bazate pe optimizare 1. Clasificatorul bazat pe discriminarea liniara optima a datelor (linear discriminant analysis = LDA) ( clasificatorul Fisher) 2. Clasificatoare bazate pe vectori suport ( masini cu vectori suport, support vector machines = SVM) (fundamentate matematic de Vapnik)
26
Clasificatorul LDA binar (1)
Metode si sisteme de analiza si interpretare a imaginilor (MSAII) Curs 9 Clasificatorul LDA binar (1) - Spatiul trasaturilor: RF => F = dimensiunea spatiului trasaturilor; F>1 - Clasele: K=2; etichete: ω1 pt. clasa 1; ω2 pt. clasa 2 - Date de antrenare: Xtrn={xt,1, xt,2, …, xt,Ntrn}; etichetele Ytrn={yt,1,yt,2,…,yt,Ntrn}, xt,i in RF, i=1,2,…,Ntrn; yt,i – eticheta clasei, yt,i=ω1 sau ω2 - Date de antrenare per clase: N1 date in clasa 1; N2 date in clasa 2; N1+N2=Ntrn. X(1)trn={x(1)t,1, x(1)t,2,…, x(1)t,N1} – datele din clasa 1; X(2)trn={x(2)t,1, x(2)t,2,…, x(2)t,N2} – datele din clasa 2; X(1)trnUX(2)trn = Xtrn => LDA binar: gaseste o dreapta in spatiul RF si proiecteaza datele din Xtrn pe aceasta dreapta => descrie datele din Xtrn prin proiectiile lor pe dreapta prin multimea de scalari Prtrn={xpr,1, xpr,2,…,xpr,Ntrn}, xpr,i – numar real reduce dimensiunea setului de date de antrenare de la F la 1 => algoritmi de separare mult mai simpli – unidimensionali in loc de F-dimensionali! => Problema: exista o infinitate de drepte posibile in RF => care dreapta este optima pentru separarea corecta a datelor din Xtrn in cele 2 clase? cum sa alegem parametrii dreptei optime in RF ?
27
Clasificatorul LDA binar (2)
Metode si sisteme de analiza si interpretare a imaginilor (MSAII) Curs 9 Clasificatorul LDA binar (2) Consideratii geometrice: - Discutie simplificata: F=2 => spatiu bidimensional de trasaturi: xt,i=[x1,i x2,i]T; yt,i = ω1 sau ω2; i=1,2,…,Ntrn => o dreapta in RF = R2: Normala la dreapta = vectorul w Dreapta in discutie; Ecuatia dreptei: wTx+w0=0 pt. F=2: w1x1+ w2x2+w0=0 (w1 – coordonata orizontala a w; w2 – coordonata verticala a w)
28
Clasificatorul LDA binar (3)
Metode si sisteme de analiza si interpretare a imaginilor (MSAII) Curs 9 Clasificatorul LDA binar (3) - Consideram acum: Un punct din setul de antrenare, xt,i Dreapta pe care se proiecteaza xt,i este vectorul normal w xpr,i=proiectia lui xt,i pe dreapta w ( pe normala in origine la dreapta wTx=0) =>: xt,i xpr,i Dreapta pe care se proiecteaza datele Dreapta “separatoare” a datelor intre clase => Discriminantul (pragul) intre clase = -w0 / ||w||
29
Clasificatorul LDA binar (4)
Metode si sisteme de analiza si interpretare a imaginilor (MSAII) Curs 9 Clasificatorul LDA binar (4) Exemplu: (rosu – clasa 1; albastru – clasa 2)
30
Clasificatorul LDA binar (5)
Metode si sisteme de analiza si interpretare a imaginilor (MSAII) Curs 9 Clasificatorul LDA binar (5) - Selectia parametrilor w, w0: Afecteaza separabilitatea proiectiilor ( datele din cele doua clase diferite sa nu fie intrepatrunse) => determinata de directie, w Afecteaza corectitudinea separarii proiectiilor prin semnul lor in clase => pt. w dat, determinata de parametrul de translatie, w0 w Dreapta optima f(x)=0 f(x)>0 f(x)<0 f(x)=wTx+w0
31
Clasificatorul LDA binar (6)
Metode si sisteme de analiza si interpretare a imaginilor (MSAII) Curs 9 Clasificatorul LDA binar (6) - Criteriul lui Fisher pt. selectia parametrilor w, w0 – formulat matematic: Directia w optima = directia w a dreptei pt. care 1) distanta dintre proiectiile centrelor claselor pe dreapta w = maxima + 2) imprastierile proiectiilor datelor din fiecare clasa ( imprastierile intra-clasa pentru fiecare clasa) = minima Valoarea w0 optima = valoarea scalara care conduce la minimizarea erorii de clasificare in setul datelor de antrenare Regula de construire a clasificatorului de gasire a parametrilor functiei de decizie f(x)=wTx+w0: w = vectorul in spatiul F-dimensional care maximizeaza functia:
32
Clasificatorul LDA binar (7)
Metode si sisteme de analiza si interpretare a imaginilor (MSAII) Curs 9 Clasificatorul LDA binar (7) - Calculul functiei JFisher(w) – din multimea proiectiilor datelor de antrenare, Prtrn={xpr,1, xpr,2,…,xpr,Ntrn}, , pt. K=2 clase: se considera (uzual) ||w||=1 => Separam proiectiile datelor din cele 2 clase in 2 multimi: Pr(1)trn={x(1)pr,1, x(1)pr,2,…, x(1)pr,N1} – datele din clasa 1, si Pr(2)trn={x(2)pr,1, x(2)pr,2,…, x(2)pr,N2} – datele din clasa 2; N1+N2=Ntrn Calculul imprastierii inter-clase estimarea separabilitatii proiectiilor centrelor claselor: 1.1. Calculam si 1.2. Estimam imprastierea inter-clase ca diferenta2 intre centrele claselor:
33
Clasificatorul LDA binar (8)
Metode si sisteme de analiza si interpretare a imaginilor (MSAII) Curs 9 Clasificatorul LDA binar (8) Calculul variantei intra-clase, pt. fiecare clasa: si Imprastierea = varianta · numarul datelor din clasa =>Estimarea functiei J(w):
34
Clasificatorul LDA binar (9)
Metode si sisteme de analiza si interpretare a imaginilor (MSAII) Curs 9 Clasificatorul LDA binar (9) - Calculul parametrului optim w: woptim = acel w care maximizeaza functia J(w) pentru care - Solutia explicita: rescriem J prin rescrierea termenilor in functie de datele de antrenare: a) Notam multimile datelor de antrenare din fiecare clasa: X(1)trn={x(1)t,1, x(1)t,2,…, x(1)t,N1} – datele din clasa 1, si X(2)trn={x(2)t,1, x(2)t,2,…, x(2)t,N2} – datele din clasa 2. b) Inlocuim in m1, m2, s1, s2: Notam centrele claselor datelor neproiectate prin vectorii μ1[F×1], μ2[F×1]: =>
35
Clasificatorul LDA binar (10)
Metode si sisteme de analiza si interpretare a imaginilor (MSAII) Curs 9 Clasificatorul LDA binar (10) Notam matricile de covarianta ale datelor neproiectate prin Σ1[F×F], Σ2[F×F]: => => Putem rescrie JFisher(w) intr-o forma in care w intervine explicit: O forma mai avantajoasa a J (w) se obtine prin rescrierea numitorului functiei sub forma:
36
Clasificatorul LDA binar (11)
Metode si sisteme de analiza si interpretare a imaginilor (MSAII) Curs 9 Clasificatorul LDA binar (11) Cum obtinem: Termenul are forma unei matrici de imprastiere, pe care o numim matrice de imprastiere inter-clase, SB[F×F]: Similar, numim matricea matrice de imprastiere intra-clase, si o notam prin SW[F×F]: => Putem rescrie:
37
Clasificatorul LDA binar (12)
Metode si sisteme de analiza si interpretare a imaginilor (MSAII) Curs 9 Clasificatorul LDA binar (12) Vectorul w optim este cel care maximizeaza functia J este cel pt. care: => w optim este solutia ecuatiei de mai sus, care maximizeaza JFisher(w). Daca rescriem aceasta ecuatie sub forma: => w = un vector propriu al SW-1SB; JFisher(w) = valoarea proprie corespunzatoare.
38
Clasificatorul LDA binar (13)
Metode si sisteme de analiza si interpretare a imaginilor (MSAII) Curs 9 Clasificatorul LDA binar (13) Dorim maximizarea JFisher(w) JFisher(w) = cea mai mare valoare proprie a matricii SW-1SB; w optim = vectorul propriu corespunzator ei. Observatie: In concluzie:
39
Clasificatorul LDA binar (14)
Metode si sisteme de analiza si interpretare a imaginilor (MSAII) Curs 9 Clasificatorul LDA binar (14) Alegerea parametrului w0: = valoarea de prag care minimizeaza eroarea de clasificare in multimea datelor de antrenare. Calculul erorii de clasificare in setul de antrenare: unde = rezultatul clasificarii, dat de functia de decizie a clasificatorului: (ex. +1 – clasa 1; -1 – clasa 2) => w0 = valoarea pt. care eroarea e este minima
40
Clasificatorul LDA binar in faza de clasificare
Metode si sisteme de analiza si interpretare a imaginilor (MSAII) Curs 9 Clasificatorul LDA binar in faza de clasificare Etapa de clasificare pt. recunoasterea obiectelor: Calcul decizie sign(wTx+w0) y=-1 – clasa 2 y=+1 – clasa 1
41
Analiza LDA multiclasa (1)
Metode si sisteme de analiza si interpretare a imaginilor (MSAII) Curs 9 Analiza LDA multiclasa (1) - Analiza LDA multiclasa = extensie directa a LDA binar; din nou, notam: Spatiul trasaturilor: RF => F = dimensiunea spatiului trasaturilor; F>K-1 Numarul claselor: K>2; Etichetele asociate claselor: ω1 pt. clasa 1; ω2 pt. clasa 2; … ωK pt. clasa K Extensia directa a LDA binar: in loc de o singura dreapta de directie w pe care sa proiectam datele din cele 2 clase, definim un numar de K-1 drepte de directii w1, w2,…, wK-1 pe care sa proiectam datele reprezentate initial in spatiul F-dimensional => in loc de o directie optima, cautam K-1 directii optime in spatiul F-dimensional care sa defineasca K-1 drepte pe care proiectam datele. Din perspectiva reprezentarii datelor, putem spune ca, prin analiza LDA multiclasa, reducem dimensiunea spatiului trasaturilor de la F la K-1 => LDA = metoda de selectie a trasaturilor; cele mai relevante K-1 trasaturi se obtin prin combinarea liniara ponderata a celor F trasaturi originale.
42
Analiza LDA multiclasa (2)
Metode si sisteme de analiza si interpretare a imaginilor (MSAII) Curs 9 Analiza LDA multiclasa (2) - Ca si in cazul LDA binar, avem la dispozitie Ntrn date de antrenare, reprezentate in spatiul RF: Xtrn={xt,1, xt,2, …, xt,Ntrn}, cu etichetele lor Ytrn={yt,1,yt,2,…,yt,Ntrn}, xt,i in RF, i=1,2,…,Ntrn; yt,i – eticheta clasei, yt,i=ω1, ω2 ,… ωK - Consideram partitionarea datelor din Xtrn in K submultimi (cate o submultime per clasa): D1, D2, …, DK; D1UD2U…UDK=Xtrn. Putem exprima matricile de imprastiere intra-clasa Si[F×F] pentru fiecare clasa i, i=1,2,…,K, sub forma: Ni = numarul de date din multimea Di ( din clasa i), iar μi[F×1] – media datelor din clasa i; xt este o data oarecare din multimea datelor de antrenare.
43
Analiza LDA multiclasa (3)
Metode si sisteme de analiza si interpretare a imaginilor (MSAII) Curs 9 Analiza LDA multiclasa (3) - Matricea de imprastiere intra-clase totala, SW[F×F], se defineste ca suma matricilor de imprastiere individuale ale celor K clase: - Definirea matricii de imprastiere inter-clase, SB[F×F], este mai putin “evidenta” (iar extinderea de la cazul LDA binar nu este imediata). Pentru definirea SB, definim mai intai o matrice de imprastiere totala, independenta de clasa, ST[F×F], astfel incat: Daca putem calcula ST si cunoastem SW, atunci putem determina si SB prin diferenta dintre ST si SW. ST fiind matricea de imprastiere totala a datelor din Xtrn independenta de clasa din care fac parte datele, poate fi exprimata (similar matricilor Si) prin:
44
Analiza LDA multiclasa (4)
Metode si sisteme de analiza si interpretare a imaginilor (MSAII) Curs 9 Analiza LDA multiclasa (4) Putem exprima vectorul medie μ[F×1] si in functie de mediile claselor, μi[F×1], i=1,2,…,K, astfel: Cu un artificiu de calcul simplu, putem rescrie: care se dezvolta sub forma:
45
Analiza LDA multiclasa (5)
Metode si sisteme de analiza si interpretare a imaginilor (MSAII) Curs 9 Analiza LDA multiclasa (5) Cum, pe de alta parte, ST=SW+SB, ajungem, prin identificarea termenilor, la forma matricii SB: Revenind la problema proiectiei datelor in cazul analizei LDA multiclasa: avem cele K-1 drepte de directii wi, i=1,2,…,K-1, wi[F×1] – vectori in spatiul F-dimensional, pe care proiectam datele din multimea de antrenare, xt[F×1]. Considerand vectorii wi de norma 1, proiectia oricarei date xt pe fiecare dreapta este valoarea scalara yt,i: Putem grupa cele K-1 valori scalare intr-un vector yt[(K-1)×1], si cei (K-1) vectori wi intr-o matrice, astfel incat fiecare vector wi este o coloana a acestei matrici, notate prin W[F×(K-1)].
46
Analiza LDA multiclasa (6)
Metode si sisteme de analiza si interpretare a imaginilor (MSAII) Curs 9 Analiza LDA multiclasa (6) Cu aceste notatii, proiectiile oricarei date xt pe cele K-1 drepte pot fi descrise, intr-o singura expresie, prin: Proiectiile y pot fi separate per clase (daca dorim sa consideram la un moment dat doar proiectiile datelor xt din clasa Di), caz in care, in loc de un vector y de lungime (K-1), avem K vectori yi de aceeasi lungime K-1, i=1,2,…,K. Media proiectiilor datelor dintr-o clasa i oarecare este data de: Media proiectiilor datelor independenta de clasa va fi:
47
Analiza LDA multiclasa (7)
Metode si sisteme de analiza si interpretare a imaginilor (MSAII) Curs 9 Analiza LDA multiclasa (7) Media proiectiilor datelor independenta de clasa va fi: Similar, putem exprima matricile de imprastiere ale proiectiilor datelor pe cele K-1 drepte: adica:
48
Analiza LDA multiclasa (8)
Metode si sisteme de analiza si interpretare a imaginilor (MSAII) Curs 9 Analiza LDA multiclasa (8) Daca in cazul LDA binar, imprastierile proiectiilor datelor erau scalare, in cazul LDA multiclasa, aceste imprastieri sunt de forma matriciala, deoarece proiectiile datelor nu mai sunt scalari, ci vectori de lungime (K-1) (spatiul de trasaturi indus de analiza LDA multiclasa fiind (K-1)-dimensional): In consecinta, pentru exprimarea functiei-obiectiv de maximizat in analiza LDA multiclasa, avem nevoie de o masura scalara a fiecareia din cele doua matrici de imprastiere ale proiectiilor (pentru similaritatea cu LDA binar). Se aleg ca masuri scalare ale imprastierilor proiectiilor (inter, respectiv intra clase), determinantii matricilor corespunzatoare, conducand la urmatoarea forma a functiei-obiectiv de maximizat in analiza LDA multiclasa:
49
Analiza LDA multiclasa (9)
Metode si sisteme de analiza si interpretare a imaginilor (MSAII) Curs 9 Analiza LDA multiclasa (9) Ca si in cazul LDA binar, cautam vectorii wi coloanele matricii W ( matricea W) care maximizeaza J(W); prin analogie cu LDA binar, aceste coloane sunt vectorii proprii corespunzatori celor mai mari (K-1) valori proprii ale matricii SW-1SB (de altfel, se poate demonstra ca toate celelalte valori proprii sunt zero, cu exceptia a (K-1) valori, pentru aceasta matrice). Obs. Pentru a evita calculul explicit al inversei matricii de imprastiere intraclasa SW, putem rescrie ecuatia care trebuie rezolvata pentru gasirea valorilor proprii sub forma: λ reprezinta valorile proprii cautate; expresia din partea dreapta a fost obtinuta prin inmultirea expresiei initiale cu SW.
Παρόμοιες παρουσιάσεις
© 2024 SlidePlayer.gr Inc.
All rights reserved.