Adaptabilné aktivačné funkcie pomocou splajnovej interpolácie

Autor práce: Tara Stefányi
Vedúci práce: RNDr. Viliam Kačala

Ciele práce

implementácia interpolačných a aproximačných splajnov typu C$^1$ aj C$^2$
návrh a implementácia neurónových sietí so splajnovou aktivačnou funkciou
porovnanie splajnov ako aproximátorov aktivačnej funkcie

Čo je splajn

spojitá hladká polynomická funkcia
definovaná po častiach
interpolačné a aproximačné

Neurónová sieť

- každá neurónova sieť sa skladá z vrstiev neurónov, ktoré obsahujú vstupný vektor a vektor váh - aby sa neurón dostal k svojej hodnote, vynásobí tieto dva vektory - tieto informácie sa po vložení do AF posúvajú cez siet doprednou propagáciou a tým získame odpoveď siete na vstup - aktivačna funkcia siete, môže byť spoločná pre celú sieť, pre vrstvy, alebo môže mať aj každý neurón vlastnu AF - pri inicializácii siete sa jej váhy určujú náhodne, čo sposobuje že sieť nič nevie, a potrebujeme ju naučiť ako vyriešť náš problém - preto ju trénujeme, napriklad spätnou propagáciou - Pri trenovani takejto siete sa na zaklade vstupneho vektora, vystupu siete a zelaneho vystupu postupne pocitaju gradienty chyby a tym upravuju vahy - k tomuto procesu potrebujeme sadu správnych vstupov a výstupov - Teoreticky ucenie v podobe zmeny vah staci na riesenie vsetkych vypocitatelnych problemov, no v praxi narazame na limity znamych algoritmov ucenia.

Rozšírené učenie

zlepšenie presnosti
úprava aktivačnej funkcie
nepraktická globálna úprava

Výber splajnu

B-splajn
Catmull-Rom splajn
Hermitov splajn + de Boor

- aproximacny BSplajn je hladky, no neprechadza kontrolnymi bodmi a teda je teda nepresny, co sa tazko napravuje, takze nieje velmi vhodny - Catmul rom splajn, standardne triedy c1 prechadza kontrolnymi bodmi, no je menej hladky - rozhodli ho vyuzit v sieti s c1 splajnom pretoze nepotrebujeme vediet jeho derivacie a tym je jeho vypocet jednoduchsi - Hermitov splajn je tiez standardne triedy C1, no na jeho vypocet potrebujeme vediet derivacie v kontrolnych bodoch, co ho cini narocnejsim na vypocet - splajn tohto typu vsak vieme celkom jednoducho povysit na triedu C2 pomocou de Boorovho algoritmu, ktory nam vypocita derivacie , pricom zaruci, ze aj druhe derivacie susednych segmentov budu rovnake - takto teda dostaneme splajn, ktory je hladky podobne ako Bsplajn, no je interpolacnym - tento splajn vyuzijeme v sieti s c2 splajnom - cielom prace je teda zistit, ci je vhodny, pricom v praci pracujeme iba so splajnami s rovnomernymi intervalmi

Testovanie siete

iteratívny prístup
rovnaké inicializačné váhy
prevencia proti náhodným správnym výsledkom

- Testovali sme najma na zaklade poctu vzoriek/epoch potrebnych na naucenie - okrem toho sme sa pozerali aj na priemerne chyby sieti - proces testu bol nasledovny: vyskusali naucit siete na x vzorkach/epochach - testujeme zaroven standardnu, c1 aj c2 siet pricom vahy vygenerujeme v jednej sieti a ostanym nastavime rovnake vahy - po 5tich vzorkach/epochach sme zistili ci je siet naucena - teda musela dat spravny vysledok na vstup, s chybou y percent - aby sme zamedzili nahodnemu spravnemu vysledku, sme takejto sieti este dali dalsich x testovacich vstupov a nasledne znova skontrolovali spravnost vystupu - po tom dvoch spravnych odpovediach po sebe sme povazovali siet za naucenu - zatial sme ako testovaciu sadu pouzivali dvojvstupovy xor a funkciu tanh

Výsledky

	STD	C$^1$	C$^2$
ÚSPEŠNOSŤ	100%	91,7%	92%
CHYBA ✓	3.94	1.29	1.61	×10$^{-3}$
CHYBA ×	0	0.24	0.21
VZORKY	50	43	30

Výsledky

	STD	C$^1$	C$^2$
ÚSPEŠNOSŤ	100%	100%	100%
CHYBA ✓	2.60	1.38	1.50	×10$^{-2}$
CHYBA ×	0	0	0
EPOCHY	1685	740	850

Ďakujem za pozornosť

Otázky?

Použitie splajnových aktivačných funkcií zníži potrebný počet iterácií učenia zhruba na polovicu. Splajny sú však náročnejšie na výpočet ako štandardné aktivačné funkcie. Aký to má vplyv na výsledný čas učenia?

‭ ‭

	STD	C$^1$	C$^2$
EPOCHY	1661	718	828
ČAS TRÉNOVANIA	803.3	4106.3	4730.2	ms
ČAS NA EPOCHU	0.48	5.72‬	5.71	ms

V práci uvažujete interpolačné splajny typu C$^1$ aj C$^2$. Vedeli by ste sa vyjadriť aj k aproximačným splajnom typu C$^2$, napr. B – splajnom?

Hermitov splajn = spojenie výhod interpolačných a aproximačných splajnov