Diplomová práca

Škálovateľný proces získavania, extrakcie, deduplikácie a prezentácie webových dát

Ciele práce:

1. Vytvorenie a nasadenie automatického procesu opakovaného získavania, extrakcie, deduplikácie a prezentácie dát z internetových
obchodov s využitím príslušných nástrojov projektu Kapsa, realizujúcich príslušné operácie.
2. Realizácia výkonnostného testu a analýza úzkych miest nasadeného riešenia.
3. Návrh a realizácia škálovateľného distribuovaného spracovania odhalených úzkych miest v rámci automatického procesu a jeho porovnanie s pôvodným riešením.

Dokumenty:

«PDSI» prezentácia témy diplomovej práce
«PDSI» rozšírené zadanie diplomovej práce

Literatúra:

1. Apache Beam: An advanced unified programming model. Dostupné na webe: https://beam.apache.org/
2. Tyler Akidau et al.: The Dataflow Model: A Practical Approach to Balancing Correctness, Latency, and Cost in MassiveScale, Unbounded, OutofOrder Data Processing. Proceedings of the VLDB Endowment, Vol. 8, No. 12 (2015)
3. I. Holubová et al.: Big Data a NoSQL databáze. Praha: Grada, ISBN 9788024754666 (2015)