Data Engineer
Data Engineer jest odpowiedzialny za projektowanie, rozwój i utrzymanie rozwiązań integracji danych wspierających procesy biznesowe i analityczne. Rola ta polega na pracy nad procesami ETL/ELT, zapewniając, że dane są dokładnie i efektywnie pobierane, transformowane i ładowane z różnych systemów źródłowych do systemów docelowych.
Kluczowe obowiązki:
- Rozwój i optymalizacja przepływów danych: Projektowanie, budowanie i utrzymywanie wydajnych, skalowalnych i niezawodnych potoków danych ETL/ELT w celu pozyskiwania, przetwarzania i przekształcania dużych ilości ustrukturyzowanych i nieustrukturyzowanych danych z różnych źródeł
- Modelowanie i architektura danych: Projektowanie i wdrażanie modeli danych w celu ich optymalnego przechowywania i wyszukiwania. Odgrywanie kluczowej roli w architekturze, projektowaniu i wdrażaniu naszych rozwiązań data lake i lakehouse, zapewniając skalowalność, wydajność i bezpieczeństwo
- Hurtownie danych i technologie Big Data: Opracowywanie i zarządzanie rozwiązaniami wykorzystującymi nowoczesne platformy hurtowni danych i technologie Big Data (np. Apache Spark, hurtownie danych w chmurze, systemy przetwarzania rozproszonego). Doświadczenie z technologiami takimi jak Snowflake lub Databricks jest bardzo cenne
- Full-Stack Development dla aplikacji danych: Opracowywanie i utrzymywanie interfejsów API umożliwiających dostęp do danych i integrację z innymi aplikacjami i usługami
- Jakość danych i zarządzanie danymi: Wdrażanie kontroli jakości danych, procesów walidacji i monitorowania w celu zapewnienia dokładności, spójności i niezawodności danych. Przestrzeganie najlepszych praktyk w zakresie zarządzania danymi
- Dostrajanie i optymalizacja wydajności: Monitorowanie i optymalizacja wydajności potoków danych, zapytań i systemów przechowywania danych
Kwalifikacje:
- Co najmniej 5 lat doświadczenia w rozwoju ETL, integracji danych lub inżynierii danych
- Doświadczenie w projektach integracji systemów, obejmujących wiele źródeł i docelowych systemów danych
- Biegłość w języku Python (opcjonalnie Java lub Scala) oraz dialekty SQL
- Znajomość frameworków związanych z procesowaniem danych np. Apache Spark, Apache Flink
- Znajomość rozwiązań chmurowych do przechowywania danych np. Snowflake, Databricks, Amazon Redshift, Google Big Querry, Azure Synapse Analytics lub podobnych
- Znajomość rożnych technologii magazynów danych (relacyjne i NoSQL DB, obiektowe: S3 ,Blob Storage)
- Umiejętność tworzenia (REST) API oraz integrowania danych
- Silne umiejętności rozwiązywania problemów i dbałość o szczegóły
- Doskonałe umiejętności komunikacyjne i współpracy
- Zdolność do samodzielnej pracy oraz pracy w zespole w dynamicznym środowisku
- Doświadczenie w narzędziach ETL/ELT
- Doświadczenie z platformami integracji danych w chmurze
- Biegłość w języku Python