Diplomová práca

Téma: Distribuované opakované získavanie objektov z internetových portálov

Vedúci práce: RNDr. Peter Gurský, PhD.

Autor práce: Rudolf Pavel

 

Ciele práce:

  1. Návrh automatizovanej metódy na opakované crawlovanie a extrakciu objektov z internetových portálov minimalizujúcu počet stiahnutých stránok.

  2. Návrh a implementácia distribuovaného systému na crawlovanie a extrakciu, ktorý vyu˛íva sie¯ Tor a VPN/Proxy servery s oh¾adom na politiku slušnosti.

  3. Otestovanie vytvorenej aplikácie na reálnych webových portáloch.  

Odporúčaná literatúra:

  1. Tor Project, dostupný online na https://www.torproject.org/

  2. Y. Uemura, T. Itokawa, T. Kitasuka, M. Aritsugi: An Effectively Focused Crawling System. Innovations in Intell. Machines – 2, SCI 376, Springer, pp. 61–76., 2012

  3. S. Batsakis, E.G.M. Petrakis, E. Milios: Improving the performance of focused web crawlers. Data & Knowledge Engineering 68, Elsevier, pp. 1001-1013, 2009

  4. M.M.G. Farag, S. Lee, E.A. Fox: Focused crawler for events. International Journal on Digital Libraries, DOI 10.1007/s00799-016-0207-1, pp 1–17, 2017

Plán práce:

Hotové

Aktuálne sa pracuje

V pláne

Kontakt: