Informacje ogólne

Analiza danych w czasie rzeczywistym

Kod: 222890-S

Semestr zimowy 2022/2023, SGH Szkoła Główna Handlowa w Warszawie

Szczegółowy opis znajdziesz w sylabusie. Znajdziesz w nim opis wszystkich wykładów i ćwiczeń oraz proponowaną literaturę.

Inne książki zamieszczone zostały w zakładce książki

Kalendarz

Wykład

~~25-02-2023 (sobota) 08:00-09:30 - Wykład 1~~ Tematy reazlizowane na wykładzie:
- Dane ustrukturyzowane i nieustrukturyzowane
- Procesy generowania danych
- Big Data
- Modele przetwarzania danych OLTP, OLAP
- Biznesowe wymagania dla strumieni danych
- Definicje: Zdarzenie, strumień zdarzeń, analiza i przetwarzanie strumieni zdarzeń,
- Narzędzie i aplikacje przetwarzania strumieniowego
11-03-2023 (sobota) 08:00-09:30 - Wykład 2

ćwiczenia

~~25-03-2022 (sobota) 08:00-15:00 - G116 4 grupy~~
~~26-03-2022 (niedziela) 09:50-17.00 - G116 4 grupy~~

uruchomienie środowiska
dane ustrukturyzowane i nieustrukturyzowane

~~15-04-2022 (sobota) 08:00-15:00 - G116 4 grupy~~
~~16-04-2022 (niedziela) 09:50-17.00 - G116 4 grupy~~

sieci neuronowe dla danych nieustrukturyzowanych
Flask API
Programowanie obiektowe

~~06-05-2022 (sobota) 08:00-15:00 - G116 4 grupy~~
~~07-05-2022 (niedziela) 09:50-17.00 - G116 4 grupy~~

Spark Streaming

20-05-2022 (sobota) 08:00-15:00 - G116 4 grupy
21-05-2022 (niedziela) 09:50-17.00 - G116 4 grupy

homework
Nagranie

10-06-2022 (sobota) 08:00-15:00 - G116 4 grupy
11-06-2022 (niedziela) 09:50-17.00 - G116 4 grupy

Apache Kafka

Miejsce

Wykłady 1-2: G-Aula IV Laboratorium 1-5: 116 G

Zaliczenie i Egzamin

Wykłady zakończone zostaną testem (ostatnie zajęcia). Pozytywna ocena z testu (powyżej 13 pkt) upoważnia do realizacji ćwiczeń.

Po ćwiczeniach realizowane będą zadania domowe przekazywane za pośrednictwem platformy teams.
Zaliczenie wszystkich ćwiczeń i zadań upoważnia do realizacji projektu.

Projekt powinien być realizowany w grupach max 5 osobowych.

Wymagania projektu:

Projekt powinien przedstawiać BIZNESOWY PROBLEM, który można realizować wykorzystując informacje podawane w trybie online. (Nie oznacza to, że nie można korzystać z procesowania batchowego np w celu wygenerowania modelu).
Dane powinny być przesyłane do Apache Kafki i stamtąd poddawane dalszemu procesowaniu i analizie.
Język programowania jest dowolny - dotyczy każdego komponentu projektu.
Można wykorzystać narzędzia BI
Źródłem danych może być tabela, sztucznie generowane dane, IoT itp.

Technologie

Uczestnicząc w zajęciach musisz opanować i przynajmniej w podstawowym zakresie posługiwać się następującymi technologiami informatycznymi:

GIT
Python, Jupyter notebook, Jupyter lab, Colab
Docker
Apache Spark, Apache Flink, Apache Kafka, Apache Beam
Databricks Community edition Web page.