Informacje ogólne

Analiza danych w czasie rzeczywistym

Kod: 222890-S

Semestr zimowy 2022/2023, SGH Szkoła Główna Handlowa w Warszawie

Szczegółowy opis znajdziesz w sylabusie. Znajdziesz w nim opis wszystkich wykładów i ćwiczeń oraz proponowaną literaturę.

Inne książki zamieszczone zostały w zakładce książki

Kalendarz

Wykład

  1. 25-02-2023 (sobota) 08:00-09:30 - Wykład 1 Tematy reazlizowane na wykładzie:
    • Dane ustrukturyzowane i nieustrukturyzowane
    • Procesy generowania danych
    • Big Data
    • Modele przetwarzania danych OLTP, OLAP
    • Biznesowe wymagania dla strumieni danych
    • Definicje: Zdarzenie, strumień zdarzeń, analiza i przetwarzanie strumieni zdarzeń,
    • Narzędzie i aplikacje przetwarzania strumieniowego
  2. 11-03-2023 (sobota) 08:00-09:30 - Wykład 2

ćwiczenia

  1. 25-03-2022 (sobota) 08:00-15:00 - G116 4 grupy
  2. 26-03-2022 (niedziela) 09:50-17.00 - G116 4 grupy
  • uruchomienie środowiska
  • dane ustrukturyzowane i nieustrukturyzowane
  1. 15-04-2022 (sobota) 08:00-15:00 - G116 4 grupy
  2. 16-04-2022 (niedziela) 09:50-17.00 - G116 4 grupy
  • sieci neuronowe dla danych nieustrukturyzowanych
  • Flask API
  • Programowanie obiektowe
  1. 06-05-2022 (sobota) 08:00-15:00 - G116 4 grupy
  2. 07-05-2022 (niedziela) 09:50-17.00 - G116 4 grupy
  • Spark Streaming
  1. 20-05-2022 (sobota) 08:00-15:00 - G116 4 grupy
  2. 21-05-2022 (niedziela) 09:50-17.00 - G116 4 grupy
  • homework
  • Nagranie
  1. 10-06-2022 (sobota) 08:00-15:00 - G116 4 grupy
  2. 11-06-2022 (niedziela) 09:50-17.00 - G116 4 grupy
  • Apache Kafka

Miejsce

Wykłady 1-2: G-Aula IV Laboratorium 1-5: 116 G

Zaliczenie i Egzamin

Wykłady zakończone zostaną testem (ostatnie zajęcia). Pozytywna ocena z testu (powyżej 13 pkt) upoważnia do realizacji ćwiczeń.

Po ćwiczeniach realizowane będą zadania domowe przekazywane za pośrednictwem platformy teams.
Zaliczenie wszystkich ćwiczeń i zadań upoważnia do realizacji projektu.

Projekt powinien być realizowany w grupach max 5 osobowych.

Wymagania projektu:

  • Projekt powinien przedstawiać BIZNESOWY PROBLEM, który można realizować wykorzystując informacje podawane w trybie online. (Nie oznacza to, że nie można korzystać z procesowania batchowego np w celu wygenerowania modelu).
  • Dane powinny być przesyłane do Apache Kafki i stamtąd poddawane dalszemu procesowaniu i analizie.
  • Język programowania jest dowolny - dotyczy każdego komponentu projektu.
  • Można wykorzystać narzędzia BI
  • Źródłem danych może być tabela, sztucznie generowane dane, IoT itp.

Technologie

Uczestnicząc w zajęciach musisz opanować i przynajmniej w podstawowym zakresie posługiwać się następującymi technologiami informatycznymi:

  1. GIT
  2. Python, Jupyter notebook, Jupyter lab, Colab
  3. Docker
  4. Apache Spark, Apache Flink, Apache Kafka, Apache Beam
  5. Databricks Community edition Web page.