Home » Technology » Big Data » Spark en Hadoop: wat een CIO moet weten

Spark en Hadoop: wat een CIO moet weten

Tech Page One

Spark en Hadoop: wat een CIO moet weten

 

Het wordt over het algemeen aangenomen dat er slechts één geschikt platform is voor Big Data. Hadoop is zo synoniem geworden met de technologie, dat de termen bijna onderling uitwisselbaar zijn.

Tenminste, tot voor kort. De laatste paar jaar is een andere technologie, Apache Spark, steeds meer in opkomst geraakt, en het lijkt erop dat dit mogelijk het Big Data-framework van de toekomst is. Hoe verhouden de twee technologieën zich tot elkaar, en welke is beter?

Deze vraag is niet eenvoudig te beantwoorden, omdat Hadoop en Spark niet zijn gemaakt voor dezelfde taak. Ze kunnen samenwerken, en dat doen ze vaak ook. Ze kunnen niet echt concurrerend worden genoemd, omdat het beide open source-platforms zijn. Er is dus geen sprake van commerciële druk. Bedrijven omarmen de producten wel, maar veel bedrijven vinden het prima om ze allebei te ondersteunen.

Er is dus niet echt sprake van rivaliteit. Op een Hadoop-conferentie in maart van dit jaar gaf een van de co-ontwikkelaars van Hadoop, Matt Cutting, zelfs aan dat de rol van Hadoop in de toekomst kleiner zou worden, en de rol van Spark zou groeien. Zijn visie was dat Spark MapReduce, de software voor batchverwerking, zou vervangen, maar dat Spark en Hadoop in dit scenario zouden samenwerken.

Gedistribueerde storage

Spark en Hadoop: wat een CIO moet wetenEen van de problemen met Spark is dat het geen eigen gedistribueerd storagesysteem heeft. Hierdoor is het lastig te implementeren in veel Big Data-projecten, omdat hiermee enorme datasets van meerdere petabytes kunnen worden verwerkt op normale harde schijven, zonder dat er aangepaste apparaten nodig zijn. Aan de andere kant kan Spark veel beter omgaan met realtime verwerking en zelflerende machines dan Hadoop. Dit betekent dat Spark veel meer voordelen heeft voor de applicaties waarvan bedrijven de data onmiddellijk willen verwerken dan Hadoop.

Dit is slechts een voorbeeld van de verschillende functies van Hadoop en Spark. Ze kunnen apart van elkaar werken, maar samen geïmplementeerd worden. Het is voornamelijk belangrijk te beseffen dat een framework zoals Hadoop of Spark vooral het proces van informatieverzameling moet aansturen.

Snellere verwerking

Moderne bedrijven willen meer nauwkeurige informatie. Ze willen dit snel en op een kosteneffectieve manier, en ze kiezen voor de methode die hen daar het beste mee helpt. Wanneer u bijvoorbeeld een bedrijf bent dat te maken heeft met grote datasets, die zich allemaal bevinden in gestructureerde, op SQL gebaseerde databases, is Hadoop een geschikt framework. Wanneer u echter rekening moet houden met sociale media of videoclips, met andere woorden, ongestructureerde data moet verwerken, kijkt u wellicht eerder naar Spark.

Het is het verhaal van de schoenmaker en de leest: het belangrijkste aan beide platformen is dat ze nodig zijn om Big Data-projecten te ondersteunen, iets wat in de toekomst van cruciaal belang is voor de meeste organisaties.

 

 

Maxwell Cooter

Maxwell Cooter

Max is een freelance journalist en schrijft over een breed scala aan IT- onderwerpen. Hij was de oprichtende redacteur van Cloud Pro, een van de eerste cloud publicaties. Hij heeft ook IDG's Techworld opgericht en daarvoor was hij redacteur van het Netwerk Week. Als freelancer, heeft hij bijgedragen aan de IDG Direct, SC Magazine, Computer Weekly, Computer Reseller News, Internet tijdschrift, PC Business World en vele anderen. Hij heeft ook gesproken op vele conferenties en als commentator gewerkt voor BBC, ITN en computer TV-zender CNBC.

Laatste Artikels:

 

Tags: Big Data, Technology