Szkolenie PySpark wprowadza do narzędzia Apache Spark zaimplementowanego dla języka programowania Python (PySpark). Uczestnik w czasie kursu zapozna się z architekturą i sposobem działania narzędzia, a przez ćwiczenia praktyczna nauczy się przetwarzania danych w oparciu o funkcje wbudowane i moduł Spark SQL. Zostaną również poruszone kwestie z zakresu Delta Lake i formatu delta.
Grupa docelowa: Analitycy danych, Inżynierowie Danych, Data Scientist, Developerzy
Środowisko pracy: maszyna wirtualna z systemem operacyjnym typu Linux, kontener Jupyter Notebook, Azure Databricks
Wymagana wiedza: znajomość składni SQL, dobra znajomość języka Python
Po przejściu tego szkolenia uczestnicy zyskają pełne zrozumienie architektury Apache Spark i sposobu przetwarzania danych w tym narzędziu. Obejmiemy kluczowe elementy, takie jak RDDs (Resilient Distributed Datasets) i operacje transformacyjne, pozwalając uczestnikom zobaczyć, jak dane przemieszczają się w obrębie klastra Spark. Praktyczne ćwiczenia pomogą w zrozumieniu, jak efektywnie przygotować środowisko pracy do pracy z PySpark.
Uczestnicy nauczą się zakładania sesji PySpark, tworzenia DataFrame’ów i manipulowania nimi za pomocą wbudowanych funkcji. Będą w stanie wyświetlać dane, definiować schematy, a także pracować z kolekcjami danych. Poprzez stworzenie pierwszego programu, zyskają praktyczne umiejętności niezbędne do rozpoczęcia pracy z Apache Spark w języku Python.
Uczestnicy nauczą się, jak odczytywać dane z plików CSV, dokonywać konwersji typów danych, sortować oraz filtrować dane. Przećwiczą techniki manipulacji danymi, co pozwoli im na efektywne selekcjonowanie informacji. Ponadto, będą w stanie pracować z różnymi formatami danych, co zwiększy ich elastyczność w obszarze przetwarzania danych.
W tym punkcie szkolenia uczestnicy zdobędą umiejętności grupowania danych, wykorzystywania funkcji agregujących i łączenia różnych zbiorów danych. Nauczą się, jak efektywnie analizować dane w kontekście bardziej zaawansowanych scenariuszy, co obejmuje również przegląd technik pracy z danymi w kontekście relacyjnym.
Poniższy program obejmuje główne tematy poruszane podczas szkolenia PySpark. Dzięki tym punktom uczestnicy zdobędą wiedzę teoretyczną i praktyczne umiejętności potrzebne do pracy z PySpark.
Po każdym ukończonym szkoleniu otrzymujesz certyfikat, który potwierdza ukończenie szkolenia w danym terminie oraz dokumentuje ramowy zakres ukończonego szkolenia, a tym samym posiadane umiejętności.
Na przestrzeni 10 lat współpracowaliśmy z największymi firmami i instytucjami w Polsce, przez co nasze certyfikaty są rozpoznawane w całym kraju.
To szkolenie realizujemy w formie szkolenia zamkniętego. Program szkolenia możemy dopasować do specyfiki pracy Twojej organizacji, poziomu uczestników oraz celów, jakie chcesz osiągnąć. Termin realizacji ustalamy indywidualnie, tak aby był wygodny dla całego zespołu.
Szkolenie może odbyć się w siedzibie Twojej firmy, w naszej sali szkoleniowej lub w formie zdalnej – na żywo z trenerem. W przypadku szkoleń realizowanych w firmie możemy również zapewnić laptopy oraz pełne zaplecze szkoleniowe.
Szkolenie może być realizowane w standardowym trybie 8 godzin dziennie lub w krótszych blokach, np. 4 godziny dziennie. Istnieje także możliwość organizacji indywidualnego szkolenia 1 na 1 z trenerem.
Skontaktuj się z nami, aby ustalić szczegóły współpracy, zakres szkolenia oraz dogodny termin realizacji.
Zajmujemy się również organizowaniem szkoleń zamkniętych, na wyłączność, dla osób lub firm, w miejscu wskazanym przez zamawiającego. Wystarczy się z nami skontaktować i ustalić szczegóły.