Mašinsko učenje Mladen Nikolić.

Slides:



Advertisements
Παρόμοιες παρουσιάσεις
Napisala Borka Jadrijević
Advertisements

TEORIJA BETONSKIH KONSTRUKCIJA
Funkcionalno programiranje
Pritisak vazduha Vazduh je smeša gasova koja sadrži 80% azota, 18% kiseonika i 2% ugljen dioksida, drugih gasova i vodene pare. vazdušni (atmosferski)
Laboratorijske vežbe iz Osnova Elektrotehnike
MELITA MESARIĆ UČITELJICA MATEMATIKE Osnovna škola Svibovec
Ogledni čas iz matematike
PTP – Vježba za 2. kolokvij Odabir vrste i redoslijeda operacija
AOS
ELEKTROMAGNETNA POLJA NADZEMNIH VODOVA autori; Vlastimir Tasić
ZAGREVANJE MOTORA Važan kriterijum za izbor motora .
Kliknite ovde za unos prikaza časa u Word dokumentu!
RIZIK PORTFOLIA SHRPEOV MODEL
BROJ π Izradio: Tomislav Svalina, 7. razred, šk. god /2016.
NASLOV TEME: OPTICKE OSOBINE KRIVIH DRUGOG REDA
Digitalna logika i minimizacija logičkih funkcija
Čvrstih tela i tečnosti
VIŠESTRUKI LINEARNI REGRESIONI MODEL
Generator naizmenične struje
Toplotno sirenje cvrstih tela i tecnosti
POLINOMI :-) III℠, X Силвија Мијатовић.
PROPORCIONALNI-P REGULATOR
VREMENSKI ODZIVI SISTEMA
Unutarnja energija i toplina
Opšta metodologija uvod
Teorija Formalnih Jezika
Merni uređaji na principu ravnoteže
Metode za rešavanja kola jednosmernih struja
Ojlerovi uglovi Filip Luković 257/2010 Uroš Jovanović 62 /2010
Merni uređaji na principu ravnoteže
Vijetove formule. Rastavljanje kvadratnog trinoma na linearne činioce
TROUGΔO.
Vijetove formule. Rastavljanje kvadratnog trinoma na linearne činioce
Diskriminaciona analiza
JEDNAČINA PRAVE Begzada Kišić.
Viskoznost.
Podsetnik.
Obrada slika dokumenta
Elektronika 6. Proboj PN spoja.
MATEMATIČKI MODELI EFIKASNOSTI
BETONSKE KONSTRUKCIJE I
Ekonometrija 12 Ekonometrija, Osnovne studije
Metodologija - Ekonometrija 1D
Uredjeni skupovi i mreže
FORMULE SUMIRANJE.
Dimenziona analiza i teorija sličnosti
Normalna raspodela.
Kompleksne metode u TQM-u
MAKROEKONOMIJA Poglavlje 6 „TRŽIŠTE RADA”
Strujanje i zakon održanja energije
PRIJELAZ TOPLINE Šibenik, 2015./2016..
Mjerenje Topline (Zadaci)
Analiza uticaja zazora između elemenata na funkcionalni zazor (Z)
Izolovanje čiste kulture MO
Zašto neka tijela plutaju na vodi, a neka potonu?
UVOD Pripremio: Varga Ištvan HEMIJSKO-PREHRAMBENA SREDNJA ŠKOLA ČOKA
Polarizacija Procesi nastajanja polarizirane svjetlosti: a) refleksija
10. PLAN POMAKA I METODA SUPERPOZICIJE
Booleova (logička) algebra
Mongeova projekcija - teorijski zadaci
Deset zapovijedi – δεκα λογοι (Izl 34,28 Pnz 10,4)
Dan broja pi Ena Kuliš 1.e.
8 Opisujemo val.
8 GIBANJE I BRZINA Za tijelo kažemo da se giba ako mijenja svoj položaj u odnosu na neko drugo tijelo za koje smo odredili da miruje.
6. AKSIJALNO OPTEREĆENJE PRIZMATIČKIH ŠTAPOVA
Ivana Tvrdenić OŠ 22. lipnja SISAK.
Balanced scorecard slide 1
8 ODBIJANJE I LOM VALOVA Šibenik, 2015./2016..
-je elektromagnetsko zračenje koje je vidljivo ljudskom oku
OŠ ”Jelenje – Dražice” Valentina Mohorić, 8.b
Μεταγράφημα παρουσίασης:

Mašinsko učenje Mladen Nikolić

Šta je mašinsko učenje? Disciplina koja se bavi izgradnjom prilagodljivih računarskih sistema koji su sposobni da poboljšavaju svoje performanse učenjem. Disciplina koja se bavi proučavanjem generalizacije i konstrukcijom i analizom algoritama koji generalizuju.

Podaci Podaci na osnovu kojih se generalizuje se nezivaju podacima za trening, a njihov skup trening skup. Podaci na kojima se vrši generalizacija najčešće se nazivaju podaci za testiranje, a njihov skup test skup. Pojedinačne podatke nazivamo instancama. Instance ćemo označavati promenljivom x.

Primer Naučiti kakvi dani su pogodni za bavljenje vodenim sportovima. Podatci se, na primer, mogu pretstaviti kao konjunkcije uslova nad nekim promenljivim koje smatramo relevantnim. Na primer Oblačnost {Vedro, Oblačno} Temperatura vazduha {Toplo, Hladno} Vlažnost {Normalna, Visoka} Vetar {Jak, Slab} Temperatura vode {Toplo, Hladno} Prognoza {Promenljivo, Stabilno} U ovakvom slučaju jedna intanca može da bude (Toplo, Normalna, Slab, Toplo, Promenljivo)

Dizajn sistema koji uči Prilikom dizajna sistema koji uči bitno je učiniti sledeće izbore: Izbor formulacije problema učenja Definisanje ciljne funkcije Definisanje prostora hipoteza Izbor mere efikasnosti Izbor algoritma koji uči

Osnovne formulacije problema učenja Nadgledano učenje Zajedno sa trening podacima algoritmu koji uči pružaju se i željeni izlazi. Nenadgledano učenje Algoritmu koji uči se daju samo podaci bez izlaza.

Primer Oblačnost Vazduh Vlažnost Vetar Voda Prognoza Sport Vedro Toplo Normalna Jak Stabilno Da Visoka Oblačno Hladno Promenljivo Ne

Učenje kao aproksimiranje funkcija Učenje se najčešće može videti kao vid aproksimacije funkcija. Funkcija koju treba aproksimirati se naziva ciljna funkcija. Funkciju kojom aproksimiramo ciljnu, nazivamo hipotezom ili modelom podataka. Ciljnu funkciju ćemo označavati sa c. Hipotezu ćemo označavati sa h.

Prostor hipoteza Prostor hipoteza je skup svih dopustivih hipoteza. Izbor prostora hipoteza je presudan za kvalitet procesa učenja. Učenje se može videti kao pretraga prostora hipoteza vođena podacima. Prostor hipoteza ćemo označavati sa H.

Primer Ciljna funkcija, na primer, može biti zadata tabelom. Hipoteze mogu biti vektori vrednosti promenljivih kojima opisujemo dane. Dodaćemo dve specijalne vrednosti ? – svaka vrednost je prihvatljiva Ø – nijedna vrednost nije prihvatljiva Primer hipoteze koja kaže da je hladno vreme sa visokom vlažnošću pogodno za bavljenje vodenim sportovima <?,Hladno,Visoka,?,?,?>

Mera efikasnosti Mogući su različiti izbori. Od tog izbora dosta zavisi šta je to što će biti naučeno.

Primer Smatraćemo da je hipoteza koja se slaže sa svim podacima za trening dobra, a hipoteza koja se ne slaže sa bilo kojom instancom iz trening skupa, loša.

Algoritam učenja Postoji veliki broj algoritama učenja. Razlikuju se po domenima na koje su primenljivi, performansama, načinu pružanja podataka i slično.

Primer Koristićemo algoritam koji nalazi najspecifičniju hipotezu koja odgovara podacima. Find-S: Inicijalizovati h na < Ø, Ø, Ø, Ø, Ø, Ø> Za svaku pozitivnu instancu iz trening skupa Za svaku promenljivu Ai u h Ako uslov za Ai nije zadovoljen, zameniti postojeću vrednost sledećom opštijom vrednošću tako da x zadovoljava h. Vratiti h.

Primer Oblačnost Vazduh Vlažnost Vetar Voda Prognoza Sport Korak Vedro Toplo Normalna Jak Stabilno Da Visoka Oblačno Hladno Promenljivo Ne Korak Oblačnost Vazduh Vlažnost Vetar Voda Prognoza Ø 1 Vedro Toplo Normalna Jak Stabilno 2 ? 3

Neki problemi učenja Klasifikacija Regresija Odlučivanje Učenje jezika

Primer Problem određivanja da li je dan pogodan za vodene sportove je problem klasifikacije. Postoje dve klase 1 – Dan je pogodan 2 – Dan nije pogodan

Teorijski modeli učenja Algoritmi su dugo privlačili više pažnje od teorijskih modela. Teorijski modeli pokušavaju da odgovore pre svega na sledeća pitanja: Šta se može naučiti, koliko dobro i pod kojim uslovima? Kako se menja kvalitet učenja u zavisnosti od obima trening podataka?

Neki poznatiji modeli učenja Glodov model “graničnog učenja” (1964) Valiantov PAC model (1984) Statistička teorija učenja (Vapnik i drugi od šezdesetih do kraja devedesetih)

PAC model PAC – Probably approximately correct. Aproksimativnost podrazumeva definisanje greške. Greška hipoteze h u odnosu na ciljnu funkciju c i raspodelu D je verovatnoća da će h dodeliti pogrešnu vrednost instanci x izabranoj prema raspodeli D. E(h|D)=P(c(x)≠h(x))

PAC model C – skup ciljnih funkcija X – skup instanci kardinalnosti n L – algoritam koji uči Kažemo da je skup C PAC naučiv (PAC learnable) koristeći algoritam L i prostor hipoteza H ako za sve funkcije c iz skupa C, raspodele D nad X, 0< ε <½, 0< δ <½, L sa verovatnoćom bar 1-δ vraća hipotezu h iz H takvu da je E(h|D)≤ε u vremenu koje je polinomijalno u odnosu na 1/ε, 1/δ, n i složenost funkcije c. Složenost funkcije c je dužina njenog kodiranja u skupu C uzevši u obzir neku reprezentaciju.

PAC model Očigledno se zahteva da prostor hipoteza H sadrži hipotezu sa proizvoljno malom greškom za svaku ciljnu funkciju. To nije uvek moguće obezbediti. U tom slučaju od algoritma možemo zahtevati da nađe hipotezu sa najmanjom greškom.

Obim podataka za trening Podaci za trening često nisu lako dostupni. Stoga je zahtevnost za takvim podacima vrlo bitna. Pokazuje se da je za PAC učenje dovoljan broj instanci m dat sa: m≥(ln|H|+ln(1/δ))/2ε() Obično je dovoljno i mnogo manje instanci. Ova ocena je neprimenljiva u slučaju beskonačnog prostora hipoteza.

Primer S obzirom na moguće vrednosti koje možemo dodeliti promenljivim veličina prostora hipoteza je 4n gde je n broj promenljivih koje smatramo bitnim. Stoga je m≥(n*ln4+ln(1/δ))/2ε Ova ocena je polinomijalna u zavisnosti od n, 1/δ, 1/ε i nezavisna od složenosti ciljne funkcije.

Primer Vremenska složenost algoritma Find-S je linearna u odnosu na obim podataka za trening, a nezavisna od 1/δ, 1/ε i složenosti ciljne funkcije. Stoga je skup ciljnih funkcija u našem problemu PAC naučiv koristeći algoritam Find-S i odabrani prostor hipoteza.

Složenost prostora funkcija U formuli za veličinu uzorka složenost prostora funkcija se ogledala preko njegove kardinalnosti. Druga mera bi mogla biti njegova dimenzionalnost. Postoji bolja mera složenosti od obe pomenute koja potiče iz statističke teorije učenja.

VC dimenzija VC – Vapnik-Červonenkis X – skup svih mogućih instanci. S – skup instanci koje posmatramo. Neka su hipoteze diskretne funkcije koje uzimaju vrednosti iz skupa {0,1}. Moguća su uopštenja na proizvoljne funkcije. Svaka hipoteza indukuje jednu dihotomiju skupa S: {x iz S | h(x)=1} {x iz S | h(x)=0}

VC dimenzija Skup hipoteza H razbija skup instanci S ako i samo ako za svaku dihotomiju skupa S postoji neka hipoteza iz H koja je indukuje. VC dimenzija skupa hipoteza H definisanih nad skupom instanci X je veličina najvećeg konačnog podskupa od X koga H razbija. Ako se proizvoljno veliki podskupovi od X mogu razbiti pomoću H, onda je VC dimenzija skupa H beskonačna.

Primer X=R H={A<x<B | A,B iz R} VC(H)=2 X=R H={Ax+By+C>0 | A,B,C iz R} VC(H)=3

Primer H={x iz S | S iz P(X)} VC(H)=∞

Overfitting Visoka VC dimenzija skupa hipoteza znači veliku prilagodljivost hipoteza podacima. Ukoliko je VC(H) mala, nemamo dovoljno bogat skup hipoteza i pravi se značajna greška već na trening skupu.

Overfitting Ukoliko je VC(H) velika, skup je bogat i vrlo lako se nalazi hipoteza koja se dobro slaže sa podacima za trening. Hipoteza koja je previše prilagođena podacima za trening često ne generalizuje dobro, odnosno pravi veliku grešku na podacima koji su nepoznati u vreme treninga. Mogući razlozi Hipoteza je prilagođena šumu u podacima Hipoteza je prilagođena uzorku koji ne oslikava dovoljno dobro stvarnu distribuciju podatka (sampling bias) Ovaj problem je poznat pod nazivom overfitting.

Pristrasnost u indukciji Da VC dimenzija prostora hipoteza ne bi bila prevelika potrebno je napraviti neke dodatne pretpostavke o prostoru hipoteza. Algoritam koji uči može napraviti dodatne pretpostavke. Ove pretpostavke dovode do takozvane pristrasnosti u indukciji (inductibe bias).

Primer Prilikom opisivanja dana koji su pogodni za bavljenje vodenim sportovima pretpostavljali smo da se dani mogu opisati konjunkcijama uslova nad određenim promenljivim. Algoritam Find-S pretpostavlja da je najspecifičnija hipoteza najbolja. Da smo dozvolili proizvoljne kombinacije konjunkcija, disjunkcija i negacija i da sve hipoteze koje su konzistentne sa podacima za trening glasaju o vrednosti ciljne funkcije potpuno bismo izgubili moć generalizacije.

VC dimenzija Koristeći VC dimenziju moguće je izvesti značajno bolje granice za broj primera za trening, koja je pri tom upotrebljiva i u slučaju beskonačnih prostora hipoteza.

Generalizacija Koristeći VC dimenziju moguće je i izvesti gornju granicu mogućnosti generalizacije koristeći neki prostor hipoteza. R(h) – Stvarni rizik, odnosno očekivanje greške generalizacije Remp (h) – Empirijski rizik, odnosno greška na trening skpu E – Širina intervala poverenja kada se statistika Remp uzme za ocenu vrednosti R. β – zahtevano poverenje. Gornja granica greške generalizacije može da se zapiše kao R<Remp+E(VC(H),β;n) Princip strukturalne minimizacije rizika kaže da hipotezu treba birati iz prostora hipoteza što manje VC dimenzije, a da se pri tom ne napravi prevelika greška na trening skupu.

Strukturalna minimizacija rizika