Informacje ogólne
Analiza danych w czasie rzeczywistym
Kod: 222890-D
Semestr letni 2024, SGH Szkoła Główna Handlowa w Warszawie
Podstawowe informacje znajdziesz w sylabusie.
Ciekawe książki i strony internetowe zamieszczone zostały w zakładce książki. Jeśli chciał(a)byś coś dodać prześlij informację przez MS teams.
Kalendarz
Wykład
Wykład jest realizowany w trybie stacjonarnym. Jest on NIEOBOWIĄZKOWY i odbywa się w Auli II bud G
26-02-2024 (poniedziałek) 09:50-11:30 - Wykład 1Tematy zrealizowane na wykładzie:
- Dane ustrukturyzowane i nieustrukturyzowane
- Procesy generowania danych
- Big Data
04-03-2024 (poniedziałek) 09:50-11:30 - Wykład 2Tematy zrealizowane:
- Modele przetwarzania danych OLTP, OLAP
- Szybkość podejmowania decyzji
- Definicje eventów, strumieni danych
- czas w strumieniach danych
11-03-2024 (poniedziałek) 09:50-11:30 - Wykład 3
Tematy zrealizowane:
18-03-2024 (poniedziałek) 09:50-11:30 - Wykład 4
25-03-2024 (poniedziałek) 09:50-11:30 - Wykład 5
- TEST 20 pytań! - 30 minut.
- Przygotowanie środowiska pracy
Test przeprowadzany jest za pośrednictwem MS Teams.
Laboratoria
08-04-2024 (poniedziałek) 08:00-13:20 - C2D 3 grupy09-04-2024 (wtorek) 09:50-17:00 - Sabinki 16 3 grupy
- Wprowadzenie do środowiska Python - API FLask
15-04-2024 (poniedziałek) 08:00-13:30 - C2D, 3 grupy16-04-2024 (wtorek) 09:50-17:00 - Sabinki 16, 3 grupy
- API Flask kontrola zapytań i odpowiedzi
- Producent Apache Kafka
22-04-2024 (poniedziałek) 08:00-13:30 - C2D, 3 grupy23-04-2024 (wtorek) 09:50-17:00 - Sabinki 16, 3 grupy
- Dane ustrukturyzowane i ich modelowanie
- Zadania: czyszczenie danych tabelarycznych
29-04-2024 (poniedziałek) 08:00-13:30 - C2D, 3 grupy30-04-2024 (wtorek) 09:50-17:00 - Sabinki 16, 3 grupy
- Godziny rektorskie
06-05-2024 (poniedziałek) 08:00-13:30 - C2D, 3 grupy07-05-2024 (wtorek) 09:50-17:00 - Sabinki 16, 3 grupy
Dane nieustrukturyzowane i ich modelowanie z wykorzystaniem sieci neuronowych
13-05-2024 (poniedziałek) 08:00-13:30 - C2B, 3 grupy14-05-2024 (wtorek) 09:50-17:00 - Sabinki 16, 3 grupy
Obiektowe podejście do kodowania w Pythonie. Perceptron i Adeline jako przykład sieci neuronowych.
20-05-2024 (poniedziałek) 08:00-13:30 - C2B, 3 grupy21-05-2024 (wtorek) 09:50-17:00 - Sabinki 16, 3 grupy
Producent i Konsument dla procesu wyszukiwania anomalii z modelem IsolationForest.
27-05-2024 (poniedziałek) 08:00-13:30 - C2B, 3 grupy28-05-2024 (wtorek) 09:50-17:00 - Sabinki 16, 3 grupy
Spark DataFrame, Streaming w oparciu o Spark DataFrame
- 03-06-2024 (poniedziałek) 08:00-13:30 - C2B, 3 grupy
- 04-06-2024 (wtorek) 11:40-17:00 - Sabinki 16, 3 grupy
Miejsce
Wykłady 1-5: G-Aula II Laboratorium 1-9: C2D, Sabinki 16
Zaliczenie i Egzamin
Wykłady zakończone zostaną testem (ostatnie zajęcia). Pozytywna ocena z testu (powyżej 13 pkt) upoważnia do realizacji ćwiczeń.
Po ćwiczeniach realizowane będą zadania domowe przekazywane za pośrednictwem platformy teams.
Zaliczenie wszystkich ćwiczeń i zadań upoważnia do realizacji projektu.
Projekt powinien być realizowany w grupach max 5 osobowych.
Wymagania projektu:
- Projekt powinien przedstawiać BIZNESOWY PROBLEM, który można realizować wykorzystując informacje podawane w trybie online. (Nie oznacza to, że nie można korzystać z procesowania batchowego np w celu wygenerowania modelu).
- Dane powinny być przesyłane do Apache Kafki i stamtąd poddawane dalszemu procesowaniu i analizie.
- Język programowania jest dowolny - dotyczy każdego komponentu projektu.
- Można wykorzystać narzędzia BI
- Źródłem danych może być tabela, sztucznie generowane dane, IoT itp.
Technologie
Uczestnicząc w zajęciach musisz opanować i przynajmniej w podstawowym zakresie posługiwać się następującymi technologiami informatycznymi: