Het ideale data warehouse biedt gebruikers de mogelijkheid om verschillende soorten data vanuit allerlei bronnen te verzamelen, te visualiseren, rapportages te draaien en geavanceerde analyses te maken. Een term die steeds vaker naar voren komt als het gaat over data analytics is Azure Databricks. Maar wat is Databricks en hoe werkt het? Saskia van Doormalen werkt als data scientist bij HSO en is onder andere expert op het gebied van Databricks. In onderstaande Q&A legt ze uit wat Databricks is en wat je ermee kunt doen.

Q: Saskia, om met de deur in huis te vallen, wat is Databricks?

A: “Databricks is een open source platform waarop data uit alle verschillende bronnen worden samengebracht, zodat data-engineers en data-analisten deze kunnen bewerken en er modellen en algoritmes op los kunnen laten.”

Q: Kun je iets vertellen over de technologie van Databricks?

A: “Databricks maakt gebruik van Apache Spark. Spark is een hele snelle unified analytics engine voor big data en machine learning. Spark is ontwikkeld om grote hoeveelheden data gedistribueerd (dus verdeeld over meerdere machines) te verwerken. Databricks is de workspace waarin je vervolgens deze data bijvoorbeeld kunt bewerken, door middel van coderen.”

Q: Wat voegt Microsoft met Azure Databricks hieraan toe?

A: “Met Azure Databricks kun je heel snel die workspace inrichten om met big data aan de slag te gaan, kun je gemakkelijk op- of afschalen en werk je in een veilige omgeving. Je omgeving is bovendien gemakkelijk te koppelen aan Azure Datalake (blog storage) en bijvoorbeeld aan Power BI. Onderstaand plaatje maakt het duidelijker.”

Azure Databricks: onmisbaar voor big data-analyse en AI toepassingen

Q: Dus, wat zijn voor ons en onze klanten de vijf grootste voordelen van Azure Databricks?

A: “We maken bij onze klanten al gebruik van Azure Databricks en de eerste ervaringen zijn heel positief. Dat komt in elk geval door deze 5 pluspunten:

  • Databricks is ontworpen in samenwerking met de oprichters van Apache Spark, een supersnelle open-source engine voor grootschalige dataverwerking, dus de basis is top;
  • Databricks is heel gemakkelijk op te zetten en in te richten;
  • Data-scientists, data-engineers en business analysts kunnen er gezamenlijk op werken;
  • Databricks is volledig geïntegreerd met Azure services, denk aan Power BI, SQL DQ, Cosmos DB en Blob Storage;
  • Security is Enterprise niveau in Azure goed geregeld, denk aan integratie met Active Directory, compliance en enterprise-grade SLA’s.”

Meer weten over Databricks of de diensten van HSO Analytics?

Neem contact op