Krajowy Fundusz Szkoleniowy 2026 – SPRAWDŹ WARUNKI i wyślij zapytanie!

Expose > Szkolenia > Szkolenia IT > Programowanie i DevOps > DevOps > Kurs PySpark

Wróć

Kursy DevOps

Kursy Programowanie i DevOps

Kurs PySpark

Czas trwania

24 godziny

Uzyskany certyfikat

Expose

Najbliższy termin

ustalany indywidualnie

o szkoleniu

Opis szkolenia

Szkolenie PySpark wprowadza do narzędzia Apache Spark zaimplementowanego dla języka programowania Python (PySpark). Uczestnik w czasie kursu zapozna się z architekturą i sposobem działania narzędzia, a przez ćwiczenia praktyczna nauczy się przetwarzania danych w oparciu o funkcje wbudowane i moduł Spark SQL. Zostaną również poruszone kwestie z zakresu Delta Lake i formatu delta.

Grupa docelowa: Analitycy danych, Inżynierowie Danych, Data Scientist, Developerzy

Środowisko pracy: maszyna wirtualna z systemem operacyjnym typu Linux, kontener Jupyter Notebook, Azure Databricks

Wymagana wiedza: znajomość składni SQL, dobra znajomość języka Python

Czego Cię nauczymy?

Architektura Apache Spark i Data Flow

Po przejściu tego szkolenia uczestnicy zyskają pełne zrozumienie architektury Apache Spark i sposobu przetwarzania danych w tym narzędziu. Obejmiemy kluczowe elementy, takie jak RDDs (Resilient Distributed Datasets) i operacje transformacyjne, pozwalając uczestnikom zobaczyć, jak dane przemieszczają się w obrębie klastra Spark. Praktyczne ćwiczenia pomogą w zrozumieniu, jak efektywnie przygotować środowisko pracy do pracy z PySpark.

Pierwszy program z użyciem PySpark

Uczestnicy nauczą się zakładania sesji PySpark, tworzenia DataFrame’ów i manipulowania nimi za pomocą wbudowanych funkcji. Będą w stanie wyświetlać dane, definiować schematy, a także pracować z kolekcjami danych. Poprzez stworzenie pierwszego programu, zyskają praktyczne umiejętności niezbędne do rozpoczęcia pracy z Apache Spark w języku Python.

Efektywne przetwarzanie danych

Uczestnicy nauczą się, jak odczytywać dane z plików CSV, dokonywać konwersji typów danych, sortować oraz filtrować dane. Przećwiczą techniki manipulacji danymi, co pozwoli im na efektywne selekcjonowanie informacji. Ponadto, będą w stanie pracować z różnymi formatami danych, co zwiększy ich elastyczność w obszarze przetwarzania danych.

Grupowanie, funkcje agregujące i łączenie zbiorów

W tym punkcie szkolenia uczestnicy zdobędą umiejętności grupowania danych, wykorzystywania funkcji agregujących i łączenia różnych zbiorów danych. Nauczą się, jak efektywnie analizować dane w kontekście bardziej zaawansowanych scenariuszy, co obejmuje również przegląd technik pracy z danymi w kontekście relacyjnym.

Program szkolenia

Poniższy program obejmuje główne tematy poruszane podczas szkolenia PySpark. Dzięki tym punktom uczestnicy zdobędą wiedzę teoretyczną i praktyczne umiejętności potrzebne do pracy z PySpark.

1. Wprowadzenie

Architektura Apache Spark
Data flow
Przygotowanie środowiska pracy

2. Pierwszy program

Utworzenie sesji
Stworzenie DataFrame
Wyświetlanie danych i schematu
Tworzenie schematu danych
Kolekcje danych

3. Selekcja danych i pliki csv

Odczyt danych z pliku CSV
Konwersja typu danych
Sortowanie
Filtrowanie danych

4. Grupowanie i zbiory

Funkcje agregujące
Grupowanie danych
Łączenie zbiorów

5. UDF, SQL, Map

Tworzenie funkcji użytkownika (UDF)
Wykorzystywanie modułu Spark SQL
Mapowanie danych/zbiorów danych

6. Format danych i optymalizacja

Praca z plikami JSON
Praca z plikami XML
Praca z formatami: parquet, avro
Cache i persistent w DataFrame

7. Delta Table

Architektura Delta Lake
Wprowadzenie do formatu delta
Transakcje i operacje CRUD
Optymalizacja i zarządzanie plikami

Pliki do pobrania

Prospekt informacyjny

Formularz zgłoszeniowy [PDF]

Formularz zgłoszeniowy [DOCX]

Wybierz rodzaj szkolenia

Szkolenie grupowe

Szkolenie indywidualne

Cena szkolenia:

2 990 PLN /netto

W cenie szkolenia:

Samodzielne stanowisko komputerowe (nie musisz przychodzić z własnym laptopem)

Zajęcia w kameralnych grupach

Przerwy kawowe oraz lunch

Certyfikat ukończenia kursu

Konsultacje online z trenerem po szkoleniu

Materiały szkoleniowe

Wybierz termin

Masz pytania?
Skontaktuj się z nami!