Senior Databricks Data Engineer / Dezvoltator DWH (Data Warehouse) cu Expertiză Databricks
Euro-Testing Software Solutions
- București
- Permanent
- Full-time
- Software Testing (manual testing, testing automation, performance testing, outsourcing, training and certification, etc.)
- Cyber Security
- DevOps/DevSecOps
- Implementation and Customization of Atlassian & OpenText products (MicroFocus) and other niche products/solutions
- AI based Decision Intelligence solutions.
- Databricks Platform: Experiență demonstrată, de nivel expert, cu întregul ecosistem Databricks (Workspace, Cluster Management, Notebooks, Databricks SQL).
- Apache Spark: Cunoștințe aprofundate ale arhitecturii Spark (RDD, DataFrames, Spark SQL) și a tehnicilor avansate de optimizare.
- Delta Lake: Expertiză în implementarea și administrarea Delta Lake (ACID properties, Time Travel, Merge, Optimize, Vacuum).
- Limbaje de Programare: Python (cu PySpark) și/sau Scala (cu Spark) la nivel avansat/expert.
- SQL: Competențe avansate/expert în SQL și Data Modeling (Dimensional, 3NF, Data Vault).
- Cloud: Experiență solidă cu o platformă Cloud majoră (AWS, Azure sau GCP), în special cu serviciile de stocare (S3, ADLS Gen2, GCS) și rețelistică.
- Unity Catalog: Experiență practică cu implementarea și administrarea Unity Catalog.
- Lakeflow: Experiență cu Delta Live Tables (DLT) și Databricks Workflows.
- Noțiuni de ML/AI: Înțelegerea conceptelor de bază MLOps și experiență cu MLflow pentru a facilita integrarea cu echipele de Data Science.
- DevOps: Experiență cu Terraform sau echivalent pentru Infrastructure as Code (IaC).
- Certificări: Certificările Databricks (ex: Databricks Certified Data Engineer Professional) reprezintă un avantaj semnificativ.
- Educație: Licență în Informatică, Inginerie, Matematică sau un domeniu tehnic relevant.
- Experiență Profesională: Minimum 5+ ani de experiență în Data Engineering, dintre care cel puțin 3+ ani cu Databricks și Spark la scară largă.
- Proiectare și Implementare Avansată: Proiectarea și implementarea de pipeline-uri de date ETL/ELT robuste, scalabile și de înaltă performanță utilizând PySpark/Scala și Databricks SQL pe platforma Databricks.
- Delta Lake: Expertiză în implementarea și optimizarea arhitecturii Medallion (Bronze, Silver, Gold) folosind Delta Lake pentru a asigura calitatea, coerența și istoricitatea datelor.
- Lakehouse Platform: Implementarea eficientă a arhitecturii Lakehouse pe Databricks, combinând cele mai bune practici din DWH și Data Lake.
- Optimizarea Performanței: Optimizarea clusterelor Databricks, a operațiunilor Spark și a tabelelor Delta (ex: Z-ordering, Compaction, Tuning Queries) pentru a reduce latența și costurile de calcul.
- Streamare: Proiectarea și implementarea de soluții de procesare a datelor în timp real/cvasireal (streaming) folosind Spark Structured Streaming și Delta Live Tables (DLT).
- Unity Catalog: Implementarea și administrarea Unity Catalog pentru guvernanța centralizată a datelor, securitate fină (row/column-level security) și lineage de date.
- Calitatea Datelor (Data Quality): Definirea și implementarea standardelor și a regulilor de calitate a datelor (ex: folosind DLT sau Great Expectations) pentru a menține integritatea datelor.
- Orchestrare: Dezvoltarea și gestionarea fluxurilor de lucru (workflows) complexe folosind Databricks Workflows (Jobs) sau instrumente externe (ex: Azure Data Factory, Airflow) pentru automatizarea pipeline-urilor.
- DevOps/CI/CD: Integrarea pipeline-urilor Databricks în procese de CI/CD folosind instrumente precum Git, Databricks Repos și Bundles.
- Colaborare: Lucrul îndeaproape cu Data Scientists, Analisti și Arhitecți pentru a înțelege cerințele de business și pentru a oferi soluții tehnice optime.
- Mentorat: Oferirea de îndrumare tehnică (mentorship) dezvoltatorilor juniori și promovarea celor mai bune practici.
Hipo.ro