Apache Spark

De la Wikipedia, enciclopedia liberă.
Salt la navigare Salt la căutare

Apache Spark este un cadru open source pentru calcul distribuit dezvoltat de Universitatea din California AMPlab și donat ulterior Apache Software Foundation .

Descriere

Spre deosebire de paradigma MapReduce , care se bazează pe discul pe două niveluri Hadoop, primitivele „in-memory” pe mai multe niveluri ale lui Spark oferă performanțe de până la 100 de ori mai bune pentru anumite aplicații [1] . Acest lucru permite agenților utilizator să încarce date într-un grup de amintiri și să le interogheze în mod repetat, Spark este special conceput pentru algoritmi de învățare automată [2] .

Spark necesită un manager de cluster și un sistem de stocare distribuit. Pentru primul suportă în mod nativ un cluster Spark (modul „independent”, în care este posibil să lansezi un cluster manual sau prin scripturi speciale de lansare), dar și Hadoop YARN sau Apache Mesos, pentru al doilea Spark poate interfața cu Hadoop Distributed File System (HDFS), Apache Cassandra [3] , OpenStack Swift , Amazon S3 , Apache Kudu , dar și soluții personalizabile. Spark suportă, de asemenea, soluții pseudo-distribuite în modul local, de obicei utilizate în scopuri de dezvoltare sau testare, în cazul în care stocarea distribuită nu este necesară și este utilizat sistemul de fișiere local; într-un astfel de scenariu, Spark rulează pe o singură mașină.

Apache Spark versiunea 2.4.5 a fost lansată pe 8 februarie 2020. [4]

Interfețele

Primele interfețe care au fost dezvoltate pentru utilizarea Apache Spark sunt seturi de date cu reziliență (în limba engleză Resilient Distributed Dataset, RDD). Aceste interfețe au controale asupra tipurilor , dar nu sunt optimizate.

Ulterior, au fost introduse alte interfețe, numite cadre de date (în engleză data frame ) care pot fi optimizate de motorul Apache Spark și au performanțe mult mai mari, dar nu au controale asupra tipurilor de date. Acest lucru duce la posibilitatea de a avea erori multiple în timpul rulării.

Cele mai noi interfețe sunt numite seturi de date și încearcă să combine optimizarea și verificările de tip la momentul compilării.

Notă

  1. ^ (EN) Reynold Xin, Josh Rosen, Matei Zaharia, Michael Franklin, Scott Shenker și Ion Stoica, Association for Computing Machinery, Shark: SQL and Rich Analytics at Scale (PDF), SIGMOD '13, New York, 22-27 iunie 2013 . Adus pe 29 august 2017 (Arhivat din original la 9 august 2017) .
  2. ^ Matei Zaharia, Spark: In-Memory Cluster Computing for Iterative and Interactive Applications , on youtube.com , Invited Talk at NIPS 2011 Big Learning Workshop: Algorithms, Systems, and Tools for Learning at Scale.
  3. ^ Doan, DuyHai, Re: cassandra + spark / pyspark , la mail-archives.apache.org , 10-09-2014. Adus pe 12 februarie 2017 .
  4. ^ Descărcări | Apache Spark , la spark.apache.org . Adus pe 29 martie 2018 .

linkuri externe

Informatică Portal IT : accesați intrările Wikipedia care se ocupă cu IT