Analiza Danych w czasie rzeczywistym kurs dla studentów SGH

Egzamin - zagadnienia

Python

  1. Zmienne w pythonie
  2. Podstawowe typy danych wykorzystywane w analizach danych
  3. Obiektowe własności typów padstawowych __dir__(), __add__()
  4. Lista python, pętle w listach składanych
  5. Tablice numpy i ich podstawowe operacje
  6. Tabelaryczny i ustrukturyzowany typ DataFrame Pandas
  7. Podstawowe metody informacyjne, filtrowanie danych, funkcje na kolumnach
  8. Dane z baz danych SQL - wersja funkcyjna i obiektowa
  9. Tensory - obiekty biblioteki PyTorch i Tensorflow
  10. Dane ustrukturyzowane z sklearn, generowanie danych
  11. Pipeline, GridSearch - transformacje i modelowanie danych w sklearn
  12. Pickle obiektów i zapisywanie modeli i transformacjei
  13. Nieustrukturyzowane dane - tensory zdjęc i video. JSON, tekst
  14. Dane pobierane z sieci www
  15. Tworzenie REST API z wykorzystaniem modelu - serwer www we FLask, odpytywanie API z wynikami modelu.
  16. Obiekty python - kostka do gry, błądzenie losowe 2d,
  17. Proste sieci neuronowe Perceptron, Adeline - jak działają, jakie problemy rozwiązują
  18. Transformers sklearn - własne klasy dla transformacji danych

Apache Spark

  1. Uruchomienie Apache Sparka w konsoli
  2. Powołanie obiektu SparkContext i SparkSession
  3. Tworzenie obiektu RDD
  4. akcje na RDD
  5. transformacje na RDD
  6. Ramki Danych