Apache Spark is een open-source, gedistribueerd verwerkingssysteem dat wordt gebruikt voor big data-workloads. Het maakt gebruik van in-memory caching en geoptimaliseerde query-uitvoering voor snelle query’s in big data. Met andere woorden: Apache Spark is een hele snelle engine voor grootschalige dataverwerking.

Apache Spark is snel en breed toepasbaar

Omdat Apache Spark draait op geheugen (RAM) is het systeem heel snel. Bovendien kent het systeem meerdere toepassingen, zoals het uitvoeren van gedistribueerde SQL, het creëren van data pipelines, het invoeren van gegevens in een database, het uitvoeren van Machine Learning algoritmen, het werken met grafieken en data streams.

Apache Spark kan taken verdelen over meerdere computers, wat relevant is als je werkt met big data en machine learning, die immers veel rekenkracht vragen. Dankzij de gebruiksvriendelijke API is de programmeerlast bovendien relatief klein.

Meer lezen over Apache Spark?

Lees hier meer praktische informatie over Apache Spark, bijvoorbeeld in Azure HDInsight. Het HSO Analytics team heeft veel kennis van en ervaring met het implementeren van big data, IoT en Advanced Analytics (AI) oplossingen.

Meer over Advanced Analytics     Terug naar FAQ

Geen duidelijk antwoord op je vraag? Start eens een chat!