Mašinsko učenje Mladen Nikolić.

Mašinsko učenje Mladen Nikolić

Šta je mašinsko učenje? Disciplina koja se bavi izgradnjom prilagodljivih računarskih sistema koji su sposobni da poboljšavaju svoje performanse učenjem. Disciplina koja se bavi proučavanjem generalizacije i konstrukcijom i analizom algoritama koji generalizuju.

Podaci Podaci na osnovu kojih se generalizuje se nezivaju podacima za trening, a njihov skup trening skup. Podaci na kojima se vrši generalizacija najčešće se nazivaju podaci za testiranje, a njihov skup test skup. Pojedinačne podatke nazivamo instancama. Instance ćemo označavati promenljivom x.

Primer Naučiti kakvi dani su pogodni za bavljenje vodenim sportovima.
Podatci se, na primer, mogu pretstaviti kao konjunkcije uslova nad nekim promenljivim koje smatramo relevantnim. Na primer Oblačnost {Vedro, Oblačno} Temperatura vazduha {Toplo, Hladno} Vlažnost {Normalna, Visoka} Vetar {Jak, Slab} Temperatura vode {Toplo, Hladno} Prognoza {Promenljivo, Stabilno} U ovakvom slučaju jedna intanca može da bude (Toplo, Normalna, Slab, Toplo, Promenljivo)

Dizajn sistema koji uči
Prilikom dizajna sistema koji uči bitno je učiniti sledeće izbore: Izbor formulacije problema učenja Definisanje ciljne funkcije Definisanje prostora hipoteza Izbor mere efikasnosti Izbor algoritma koji uči

Osnovne formulacije problema učenja
Nadgledano učenje Zajedno sa trening podacima algoritmu koji uči pružaju se i željeni izlazi. Nenadgledano učenje Algoritmu koji uči se daju samo podaci bez izlaza.

Primer Oblačnost Vazduh Vlažnost Vetar Voda Prognoza Sport Vedro Toplo
Normalna Jak Stabilno Da Visoka Oblačno Hladno Promenljivo Ne

Učenje kao aproksimiranje funkcija
Učenje se najčešće može videti kao vid aproksimacije funkcija. Funkcija koju treba aproksimirati se naziva ciljna funkcija. Funkciju kojom aproksimiramo ciljnu, nazivamo hipotezom ili modelom podataka. Ciljnu funkciju ćemo označavati sa c. Hipotezu ćemo označavati sa h.

Prostor hipoteza Prostor hipoteza je skup svih dopustivih hipoteza.
Izbor prostora hipoteza je presudan za kvalitet procesa učenja. Učenje se može videti kao pretraga prostora hipoteza vođena podacima. Prostor hipoteza ćemo označavati sa H.

Primer Ciljna funkcija, na primer, može biti zadata tabelom.
Hipoteze mogu biti vektori vrednosti promenljivih kojima opisujemo dane. Dodaćemo dve specijalne vrednosti ? – svaka vrednost je prihvatljiva Ø – nijedna vrednost nije prihvatljiva Primer hipoteze koja kaže da je hladno vreme sa visokom vlažnošću pogodno za bavljenje vodenim sportovima <?,Hladno,Visoka,?,?,?>

Mera efikasnosti Mogući su različiti izbori.
Od tog izbora dosta zavisi šta je to što će biti naučeno.

Primer Smatraćemo da je hipoteza koja se slaže sa svim podacima za trening dobra, a hipoteza koja se ne slaže sa bilo kojom instancom iz trening skupa, loša.

Algoritam učenja Postoji veliki broj algoritama učenja.
Razlikuju se po domenima na koje su primenljivi, performansama, načinu pružanja podataka i slično.

Primer Koristićemo algoritam koji nalazi najspecifičniju hipotezu koja odgovara podacima. Find-S: Inicijalizovati h na < Ø, Ø, Ø, Ø, Ø, Ø> Za svaku pozitivnu instancu iz trening skupa Za svaku promenljivu Ai u h Ako uslov za Ai nije zadovoljen, zameniti postojeću vrednost sledećom opštijom vrednošću tako da x zadovoljava h. Vratiti h.

Primer Oblačnost Vazduh Vlažnost Vetar Voda Prognoza Sport Korak
Vedro Toplo Normalna Jak Stabilno Da Visoka Oblačno Hladno Promenljivo Ne Korak Oblačnost Vazduh Vlažnost Vetar Voda Prognoza Ø 1 Vedro Toplo Normalna Jak Stabilno 2 ? 3

Neki problemi učenja Klasifikacija Regresija Odlučivanje Učenje jezika

Primer Problem određivanja da li je dan pogodan za vodene sportove je problem klasifikacije. Postoje dve klase 1 – Dan je pogodan 2 – Dan nije pogodan

Teorijski modeli učenja
Algoritmi su dugo privlačili više pažnje od teorijskih modela. Teorijski modeli pokušavaju da odgovore pre svega na sledeća pitanja: Šta se može naučiti, koliko dobro i pod kojim uslovima? Kako se menja kvalitet učenja u zavisnosti od obima trening podataka?

Neki poznatiji modeli učenja
Glodov model “graničnog učenja” (1964) Valiantov PAC model (1984) Statistička teorija učenja (Vapnik i drugi od šezdesetih do kraja devedesetih)

PAC model PAC – Probably approximately correct.
Aproksimativnost podrazumeva definisanje greške. Greška hipoteze h u odnosu na ciljnu funkciju c i raspodelu D je verovatnoća da će h dodeliti pogrešnu vrednost instanci x izabranoj prema raspodeli D. E(h|D)=P(c(x)≠h(x))

PAC model C – skup ciljnih funkcija X – skup instanci kardinalnosti n
L – algoritam koji uči Kažemo da je skup C PAC naučiv (PAC learnable) koristeći algoritam L i prostor hipoteza H ako za sve funkcije c iz skupa C, raspodele D nad X, 0< ε <½, 0< δ <½, L sa verovatnoćom bar 1-δ vraća hipotezu h iz H takvu da je E(h|D)≤ε u vremenu koje je polinomijalno u odnosu na 1/ε, 1/δ, n i složenost funkcije c. Složenost funkcije c je dužina njenog kodiranja u skupu C uzevši u obzir neku reprezentaciju.

PAC model Očigledno se zahteva da prostor hipoteza H sadrži hipotezu sa proizvoljno malom greškom za svaku ciljnu funkciju. To nije uvek moguće obezbediti. U tom slučaju od algoritma možemo zahtevati da nađe hipotezu sa najmanjom greškom.

Obim podataka za trening
Podaci za trening često nisu lako dostupni. Stoga je zahtevnost za takvim podacima vrlo bitna. Pokazuje se da je za PAC učenje dovoljan broj instanci m dat sa: m≥(ln|H|+ln(1/δ))/2ε() Obično je dovoljno i mnogo manje instanci. Ova ocena je neprimenljiva u slučaju beskonačnog prostora hipoteza.

Primer S obzirom na moguće vrednosti koje možemo dodeliti promenljivim veličina prostora hipoteza je 4n gde je n broj promenljivih koje smatramo bitnim. Stoga je m≥(n*ln4+ln(1/δ))/2ε Ova ocena je polinomijalna u zavisnosti od n, 1/δ, 1/ε i nezavisna od složenosti ciljne funkcije.

Primer Vremenska složenost algoritma Find-S je linearna u odnosu na obim podataka za trening, a nezavisna od 1/δ, 1/ε i složenosti ciljne funkcije. Stoga je skup ciljnih funkcija u našem problemu PAC naučiv koristeći algoritam Find-S i odabrani prostor hipoteza.

Složenost prostora funkcija
U formuli za veličinu uzorka složenost prostora funkcija se ogledala preko njegove kardinalnosti. Druga mera bi mogla biti njegova dimenzionalnost. Postoji bolja mera složenosti od obe pomenute koja potiče iz statističke teorije učenja.

VC dimenzija VC – Vapnik-Červonenkis X – skup svih mogućih instanci.
S – skup instanci koje posmatramo. Neka su hipoteze diskretne funkcije koje uzimaju vrednosti iz skupa {0,1}. Moguća su uopštenja na proizvoljne funkcije. Svaka hipoteza indukuje jednu dihotomiju skupa S: {x iz S | h(x)=1} {x iz S | h(x)=0}

VC dimenzija Skup hipoteza H razbija skup instanci S ako i samo ako za svaku dihotomiju skupa S postoji neka hipoteza iz H koja je indukuje. VC dimenzija skupa hipoteza H definisanih nad skupom instanci X je veličina najvećeg konačnog podskupa od X koga H razbija. Ako se proizvoljno veliki podskupovi od X mogu razbiti pomoću H, onda je VC dimenzija skupa H beskonačna.

Primer X=R H={A<x<B | A,B iz R} VC(H)=2 X=R
H={Ax+By+C>0 | A,B,C iz R} VC(H)=3

Primer H={x iz S | S iz P(X)} VC(H)=∞

Overfitting Visoka VC dimenzija skupa hipoteza znači veliku prilagodljivost hipoteza podacima. Ukoliko je VC(H) mala, nemamo dovoljno bogat skup hipoteza i pravi se značajna greška već na trening skupu.

Overfitting Ukoliko je VC(H) velika, skup je bogat i vrlo lako se nalazi hipoteza koja se dobro slaže sa podacima za trening. Hipoteza koja je previše prilagođena podacima za trening često ne generalizuje dobro, odnosno pravi veliku grešku na podacima koji su nepoznati u vreme treninga. Mogući razlozi Hipoteza je prilagođena šumu u podacima Hipoteza je prilagođena uzorku koji ne oslikava dovoljno dobro stvarnu distribuciju podatka (sampling bias) Ovaj problem je poznat pod nazivom overfitting.

Pristrasnost u indukciji
Da VC dimenzija prostora hipoteza ne bi bila prevelika potrebno je napraviti neke dodatne pretpostavke o prostoru hipoteza. Algoritam koji uči može napraviti dodatne pretpostavke. Ove pretpostavke dovode do takozvane pristrasnosti u indukciji (inductibe bias).

Primer Prilikom opisivanja dana koji su pogodni za bavljenje vodenim sportovima pretpostavljali smo da se dani mogu opisati konjunkcijama uslova nad određenim promenljivim. Algoritam Find-S pretpostavlja da je najspecifičnija hipoteza najbolja. Da smo dozvolili proizvoljne kombinacije konjunkcija, disjunkcija i negacija i da sve hipoteze koje su konzistentne sa podacima za trening glasaju o vrednosti ciljne funkcije potpuno bismo izgubili moć generalizacije.

VC dimenzija Koristeći VC dimenziju moguće je izvesti značajno bolje granice za broj primera za trening, koja je pri tom upotrebljiva i u slučaju beskonačnih prostora hipoteza.

Generalizacija Koristeći VC dimenziju moguće je i izvesti gornju granicu mogućnosti generalizacije koristeći neki prostor hipoteza. R(h) – Stvarni rizik, odnosno očekivanje greške generalizacije Remp (h) – Empirijski rizik, odnosno greška na trening skpu E – Širina intervala poverenja kada se statistika Remp uzme za ocenu vrednosti R. β – zahtevano poverenje. Gornja granica greške generalizacije može da se zapiše kao R<Remp+E(VC(H),β;n) Princip strukturalne minimizacije rizika kaže da hipotezu treba birati iz prostora hipoteza što manje VC dimenzije, a da se pri tom ne napravi prevelika greška na trening skupu.

Strukturalna minimizacija rizika

Mašinsko učenje Mladen Nikolić.

Παρόμοιες παρουσιάσεις

Παρουσίαση με θέμα: "Mašinsko učenje Mladen Nikolić."— Μεταγράφημα παρουσίασης:

Παρόμοιες παρουσιάσεις

Σχετικά με το έργο

Σχόλια

Είσοδος

Σύνδεση μέσω των κοινωνικών δικτύων:

Mašinsko učenje Mladen Nikolić.

Παρόμοιες παρουσιάσεις

Παρουσίαση με θέμα: "Mašinsko učenje Mladen Nikolić."— Μεταγράφημα παρουσίασης:

Παρόμοιες παρουσιάσεις

Σχετικά με το έργο

Σχόλια