Informacje ogólne

Analiza danych w czasie rzeczywistym

Kod: 222890-S

Semestr letni 2024, SGH Szkoła Główna Handlowa w Warszawie

Szczegółowy opis znajdziesz w sylabusie. Znajdziesz w nim opis wszystkich wykładów i ćwiczeń oraz proponowaną literaturę.

Inne książki zamieszczone zostały w zakładce książki

Kalendarz

Wykład

  1. 02-03-2024 (sobota) 08:00-09:30 - Wykład 1 - G Aula VI Tematy reazlizowane na wykładzie:
    • Dane ustrukturyzowane i nieustrukturyzowane
    • Procesy generowania danych
    • Big Data
    • Modele przetwarzania danych OLTP, OLAP
    • Biznesowe wymagania dla strumieni danych
  2. 16-03-2024 (sobota) 08:00-09:30 - Wykład 2 - G Aula VI Tematy:
    • Definicje: Zdarzenie, strumień zdarzeń, analiza i przetwarzanie strumieni zdarzeń,
    • Narzędzie i aplikacje przetwarzania strumieniowego
    • API klient-serwer, Pub-Sub i Apache Kafka

laboratorium

  1. 06-04-2024 (sobota) 08:00-15:00 - G116 4 grupy
  2. 07-04-2024 (niedziela) 09:50-17.00 - G116 4 grupy
  • Wprowadzenie do środowiska Python
  • Flask API
  1. 20-04-2024 (sobota) 08:00-15:00 - G116 4 grupy
  2. 21-04-2024 (niedziela) 09:50-17.00 - G116 4 grupy
  • dane ustrukturyzowane
  • dane nieustrukturyzowane
  • obiektowe podejście do modelowania danych
  • podłączenie do bazy relacyjnej (sqlite)
  • podłączenie do bazy nierelacyjnej (mongodb)
  1. 04-05-2024 (sobota) 08:00-15:00 - G116 4 grupy

  2. 05-05-2024 (niedziela) 09:50-17.00 - G116 4 grupy

  3. 25-05-2024 (sobota) 08:00-15:00 - G116 4 grupy

  4. 26-05-2024 (niedziela) 09:50-17.00 - G116 4 grupy

  5. 08-06-2022 (sobota) 08:00-15:00 - G116 4 grupy

  6. 09-06-2022 (niedziela) 09:50-17.00 - G116 4 grupy

Miejsce

Wykłady 1-2: G-Aula VI Laboratorium 1-5: 116 G

Zaliczenie i Egzamin

Wykłady zakończone zostaną testem. Pozytywna ocena z testu (powyżej 13 pkt) upoważnia do realizacji ćwiczeń.

Po ćwiczeniach realizowane będą zadania domowe przekazywane za pośrednictwem platformy teams.
Zaliczenie wszystkich ćwiczeń i zadań upoważnia do realizacji projektu.

Projekt powinien być realizowany w grupach max 5 osobowych.

Wymagania projektu:

  • Projekt powinien przedstawiać BIZNESOWY PROBLEM, który można realizować wykorzystując informacje podawane w trybie online. (Nie oznacza to, że nie można korzystać z procesowania batchowego np w celu wygenerowania modelu).
  • Dane powinny być przesyłane do Apache Kafki i stamtąd poddawane dalszemu procesowaniu i analizie.
  • Język programowania jest dowolny - dotyczy każdego komponentu projektu.
  • Można wykorzystać narzędzia BI
  • Źródłem danych może być tabela, sztucznie generowane dane, IoT itp.

Technologie

Uczestnicząc w zajęciach musisz opanować i przynajmniej w podstawowym zakresie posługiwać się następującymi technologiami informatycznymi:

  1. GIT
  2. Python, Jupyter notebook, Jupyter lab, Colab
  3. Docker
  4. Apache Spark, Apache Flink, Apache Kafka, Apache Beam
  5. Databricks Community edition Web page.