Informacje ogólne
Analiza danych w czasie rzeczywistym
Kod: 222890-D
Semestr zimowy 2022/2023, SGH Szkoła Główna Handlowa w Warszawie
Podstawowe informacje znajdziesz w sylabusie.
Ciekawe książki i strony internetowe zamieszczone zostały w zakładce książki. Jeśli chciał(a)byś coś dodać prześlij informację przez MS teams.
Kalendarz
Wykład
Wykład jest realizowany w trybie hybrydowym. Jest on NIEOBOWIĄZKOWY i odbywa się w Auli I bud G
20-02-2023 (poniedziałek) 09:50-11:30 - Wykład 1Tematy zrealizowane na wykładzie:- Dane ustrukturyzowane i nieustrukturyzowane
- Procesy generowania danych
- Big Data
- Modele przetwarzania danych OLTP, OLAP
27-02-2023 (poniedziałek) 09:50-11:30 - Wykład 2Tematy zrealizowane na wykładzie:- Przetwarzanie wsadowe vs Przetwarzanie strumieni danych
- ETL
- Wzorzec MapReduce
- Biznesowe wymagania dla strumieni danych
- Definicje: Zdarzenie, strumień zdarzeń, analiza i przetwarzanie strumieni zdarzeń,
- Narzędzie i aplikacje przetwarzania strumieniowego
06-03-2023 (poniedziałek) 09:50-11:30 - Wykład 3Tematy reazlizowane na wykładzie:- Czas w przetwarzaniu danych strumieniowych
- Działanie systemu klient-serwer: REST API
- Czas w przetwarzaniu danych strumieniowych
13-03-2023 (poniedziałek) 09:50-11:30 - Wykład 4Tematy realizowane na wykładzie:- TEST 10 pytań!
- Działanie systemu pub-sub: Apache Kafka
- Architektura Lammbda i Kappa
Wykłady kończą się TESTEM: 10 pytań - 20 minut. Test przeprowadzany jest za pośrednictwem MS Teams.
Laboratoria
20-03-2023 (poniedziałek) 08:00-13:30 - C4D 3 grupy21-03-2023 (wtorek) 11:40-17:00 - C4D 3 grupy
- środowisko wirtualne python, tworzenie, przenoszenie, aktywacja
- środowisko docker, lokalne uruchomienie jupyter lab
27-03-2023 (poniedziałek) 08:00-13:30 - C4D, 3 grupy28-03-2023 (wtorek) 11:40-17:00 - C4D, 3 grupy
- Instalacja obrazu z jupyterlab, apache kafka, mongoDB
- Dane ustrukturyzowane i nieustrukturyzowane w pythonie
03-04-2023 (poniedziałek) 08:00-13:30 - C2B, 3 grupy04-04-2023 (wtorek) 11:40-17:00 - C2B, 3 grupy
- Dane nieustrukturyzowane w pythonie
- Sieci neuronowe dla danych nieustrukturyzowanych
- Obiektowy model danych w pakiecie scikit-learn
17-04-2023 (poniedziałek) 08:00-13:30 - C2B, 3 grupy18-04-2023 (wtorek) 11:40-17:00 - C2B, 3 grupy
- Obiektowe programowanie w pythonie
- Perceptron, Adeline klasy dla sieci neuronowych
24-04-2023 (poniedziałek) 08:00-13:30 - C2B, 3 grupy25-04-2023 (wtorek) 11:40-17:00 - C2B, 3 grupy
- Flask API
- Model ML w Flask API
08-05-2023 (poniedziałek) 08:00-13:30 - C2B, 3 grupy09-05-2023 (wtorek) 11:40-17:00 - C2B, 3 grupy
- Wprowadzenie do Apache Spark
- Apache Spark Streaming DStream i Ramki danych
15-05-2023 (poniedziałek) 08:00-13:30 - C2B, 3 grupy16-05-2023 (wtorek) 11:40-17:00 - C2B, 3 grupy
- Praca w domu nad projektem
22-05-2023 (poniedziałek) 08:00-13:30 - C2B, 3 grupy23-05-2023 (wtorek) 11:40-17:00 - C2B, 3 grupy
- Praca w domu nad projektem
- 29-05-2023 (poniedziałek) 08:00-13:30 - C2B, 3 grupy
- 30-05-2023 (wtorek) 11:40-17:00 - C2B, 3 grupy
- Apache Kafka i Apache Spark Streaming
- 05-06-2023 (poniedziałek) 08:00-13:30 - C2B, 3 grupy
- 06-06-2023 (wtorek) 11:40-17:00 - C2B, 3 grupy
- Apache Kafka i Apache Spark Streaming
Miejsce
Wykłady 1-5: G-Aula I Laboratorium 1-9: C2B
Zaliczenie i Egzamin
Wykłady zakończone zostaną testem (ostatnie zajęcia). Pozytywna ocena z testu (powyżej 13 pkt) upoważnia do realizacji ćwiczeń.
Po ćwiczeniach realizowane będą zadania domowe przekazywane za pośrednictwem platformy teams.
Zaliczenie wszystkich ćwiczeń i zadań upoważnia do realizacji projektu.
Projekt powinien być realizowany w grupach max 5 osobowych.
Wymagania projektu:
- Projekt powinien przedstawiać BIZNESOWY PROBLEM, który można realizować wykorzystując informacje podawane w trybie online. (Nie oznacza to, że nie można korzystać z procesowania batchowego np w celu wygenerowania modelu).
- Dane powinny być przesyłane do Apache Kafki i stamtąd poddawane dalszemu procesowaniu i analizie.
- Język programowania jest dowolny - dotyczy każdego komponentu projektu.
- Można wykorzystać narzędzia BI
- Źródłem danych może być tabela, sztucznie generowane dane, IoT itp.
Technologie
Uczestnicząc w zajęciach musisz opanować i przynajmniej w podstawowym zakresie posługiwać się następującymi technologiami informatycznymi: