Téma: Distribuované opakované získavanie objektov z internetových portálov
Vedúci práce: RNDr. Peter Gurský, PhD.
Autor práce: Rudolf Pavel
Ciele práce:
-
Návrh automatizovanej metódy na opakované crawlovanie a extrakciu objektov z internetových portálov minimalizujúcu počet stiahnutých stránok.
-
Návrh a implementácia distribuovaného systému na crawlovanie a extrakciu, ktorý vyu˛íva sie¯ Tor a VPN/Proxy servery s oh¾adom na politiku slušnosti.
-
Otestovanie vytvorenej aplikácie na reálnych webových portáloch.
Odporúčaná literatúra:
-
Tor Project, dostupný online na https://www.torproject.org/
Plán práce:
Hotové
-
Upravený aktuálny crawler
-
Crawlova¯ do databázy
-
Crawlova¯ klasicky
-
Crawlova¯ naším algoritmom
-
Simulova¯ z databázy
-
-
Upravený extraktor - odstráni¯ Selenium
-
Naštudovaná literatúra
-
Batch inserty do databazy
-
Vytvorenie connection pool pre databázu
Aktuálne sa pracuje
- Algoritmus na vytvaranie pravidiel pre odhalenie regiónov
V pláne
-
Klastrovanie stránok: marec 2019
-
Algoritmus štrukturálnej podobnosti
-
Algoritmus štylistickej podobnosti
-
Ich kombinácia
-
-
Distribuovaný systém: marec 2019
Kontakt:
-
Školský email: rudolf.pavel@student.upjs.sk