Apache Spark
Schulung & Kurs

Einführung in Apache Spark, die leistungsstärkste Computing-Engine für Big Data.

Einführung in Apache Spark, die derzeit leistungsfähigste Open-Source-Plattform für Data Engineering, Data Science, maschinelles Lernen und KI-Pipelines. Zwei Tage intensives Eintauchen in Spark-Kernkonzepte, Funktionen und Best Practices. Mit Scala und Python werden wir sicherstellen, dass Sie Ihre Fähigkeiten aufbauen, um Ihre Reise mit Spark zu beginnen.

Kurse für Teams:

Gerne führen wir zugeschnittene Kurse für euer Team durch - vor Ort, remote oder in unseren Kursräumen.

In-House Kurs Anfragen

 

Kursinhalt:


Apache Spark ist eine mehrsprachige Engine für die Ausführung von Data Engineering-, Data Science- und Machine Learning-Aufgaben. Tausende von Unternehmen, darunter 80 % der Fortune 500, nutzen Apache Spark™. Spark kann Daten in Batches und Streams verarbeiten und kann auf einem einzelnen Knoten oder in Clustern ausgeführt werden. Das Open-Source-Projekt Spark hat über 2.000 Mitwirkende aus Industrie und Wissenschaft.

Wir werden alle Grundlagen abdecken, damit Sie bereit sind, Ihre nächsten Big-Data-Verarbeitungspipelines zu betreiben.

Neben vielen anderen Themen werden wir die Spark-Architektur, die Verwendung von Scala, Python, R und SQL, Datenquellen, DataFrames, Datasets, Joins, Aggregationen, Spark-Typen, SparkUI, MLlib usw. behandeln.


Disclaimer: Der effektive Kursinhalt kann, abhängig vom Trainer, Durchführung, Dauer und Konstellation der Teilnehmer:innen von obigen Angaben abweichen.

Ob wir es Schulung, Kurs, Workshop, Seminar oder Training nennen, wir möchten Teilnehmer/innen an ihrem Punkt abholen und mit dem nötigen praktischen Wissen ausstatten, damit sie die Technologie nach der Schulung direkt anwenden und eigenständig vertiefen können.

Ziel:

Am Ende des Kurses werden die Teilnehmer die Kernkonzepte und Funktionen von Spark verstehen, um ihr nächstes Big-Data-Engineering- und Analyseprojekt durchzuführen. 


Form:

Die meiste Zeit wird mit der Arbeit an echtem Programmcode verbracht. 


Zielgruppe:

Software-Ingenieure, Daten-Ingenieure und Datenwissenschaftler, die mit Big Data arbeiten und Spark als Ergänzung zu ihrem Werkzeugkasten suchen. 


Voraussetzungen:

Jeder Teilnehmer erhält nach der Anmeldung einen Fragebogen mit einer Installationsanleitung. Anhand der Antworten senden wir ein individuelles Feedback.


Vorbereitung:

Grundkenntnisse in den Bereichen (Big) Data, Statistik und Programmierung in Sprachen wie Java, Scala, Python oder R usw.

In-House Kurs anfragen:

In-House Kurs Anfragen

Trage dich in die Warteliste ein für weitere öffentliche Kurs-Termine. Sobald wir genügend Personen auf der Warteliste haben, klären wir einen möglichst für alle passenden Termin ab und schalten einen neuen Termin auf. Falls du direkt mit zwei Kollegen oder Kolleginnen teilnehmen möchtest, können wir sogar direkt einen öffentlichen Kurs für euch planen.

Warteliste

(Falls ihr bereits mehr 3 Teilnehmer:innen oder mehr habt, klären wir mit euch direkt euren Wunschtermin ab und schreiben den Kurs aus.)

Mehr über Apache Spark



Apache Spark ist ein verteiltes Computing-System für Big Data-Verarbeitung, das In-Memory-Computing und DAG-basierte Ausführung kombiniert. Es bietet High-Level APIs in Scala, Java, Python und R sowie eine optimierte Engine, die automatisch verteilte Datenverarbeitung und Fehlertoleranz handhabt.




History


Spark wurde 2009 von Matei Zaharia an der UC Berkeley's AMPLab entwickelt. Das Projekt entstand aus der Erkenntnis, dass MapReduce für iterative Algorithmen und interaktive Datenanalysen ineffizient war. Die erste Version wurde 2010 als Open-Source-Projekt veröffentlicht.


Die Entwicklung wurde maßgeblich von der Gründung von Databricks durch Zaharia, Ali Ghodsi, Ion Stoica und anderen AMPLab-Mitgliedern beeinflusst. 2013 wurde Spark an die Apache Software Foundation übergeben. Die Einführung von DataFrames in Spark 1.3 und der strukturierten Streaming-API in Spark 2.0 waren wichtige Meilensteine.


Heute ist Spark das größte Open-Source-Projekt im Bereich Big Data-Verarbeitung und wird von Unternehmen wie Netflix, Yahoo und Alibaba eingesetzt. Es hat die Art und Weise, wie Unternehmen große Datenmengen verarbeiten, grundlegend verändert und neue Standards für verteilte Datenverarbeitung gesetzt. Die Integration mit Cloud-Plattformen und die Unterstützung für Deep Learning haben Spark's Position als universelle Engine für Big Data-Analytics weiter gestärkt.





Share by: