Cloudera wil Spark en Hadoop één platform, dat werkt

Cloudera uitgeroepen tot enige tijd geleden dat het zag Apache Spark als de toekomst van Big Data. Voorspeld, en vastbesloten om te helpen brengen, een wereld waar de meeste Hadoop ecosysteem componenten zou lopen op de memory-centric Spark processing engine en zou zich te ontdoen van hun afhankelijkheid van MapReduce.

Sinds die tijd heeft de Spark project genoten enorme industrie adoptie. Producten zoals clearstory Gegevens en Paxata gebruiken Spark als moedertaal motoren. IBM kondigde zijn eigen $ 300.000.000 inzet voor Spark – met inbegrip van de toewijding van 3500 onderzoekers en de oprichting van een Spark Technology Center in San Francisco – bij Spark top van afgelopen juni. En net vorige week, SAP kondigde haar eigen Spark gebaseerde HANA Vora technologie.

Dat is allemaal goed en wel, maar kritiek op de Spark, als niet klaar voor productie in de onderneming, is blijven bestaan. Ik heb zelf problemen van de schaal, fouttolerantie en preventie van gegevensverlies verhoogd, evenals klachten rond gebrek aan stabiliteit gehoord in het algemeen. De meeste leveranciers hebben soldiered op, een abonnement op een algemeen optimistisch overtuiging dat het knikken zal worden uitgewerkt.

Just do it, Iemand moet actie wel te nemen. Op woensdag Cloudera kondigde het ene platform Initiative, die zeer specifiek heeft tot doel de tekortkomingen Spark aan te pakken met een oog naar waardoor het niet alleen robuust en betrouwbaar, maar de primaire uitvoering motor in de Hadoop ecosysteem. Als Cloudera heeft zijn weg, zal elk nieuw Hadoop project Spark gebruiken en afzien van MapReduce.

Social Enterprise; LinkedIn onthult haar nieuwe blogging platform; Big Data Analytics, Is dit de leeftijd van Big OLAP;? Big Data Analytics; DataRobot gericht op low-opknoping fruit van de gegevens wetenschap te automatiseren; Big Data Analytics; MapR oprichter John Schroeder treden naar beneden, COO te vervangen

Ik sprak met Eli Collins, Cloudera Chief Technologist, die vrij specifiek over wat Cloudera wordt waarin te doen. Hij legde de algemene “pijlers” van het ene platform Initiative: verbetering van het management interfaces Spark, de veiligheid, de schaalbaarheid en de streaming data mogelijkheden.

The One Platform Initiative streeft naar Spark veel dieper integreren met Hadoop. Cloudera wil Spark om te draaien op Hadoop’s YARN resource management layer meer adeptly en veel meer profiteren van Hadoop Distributed File System (HDFS).

De to-do lijst, Cloudera zegt dat het heeft reeds mogelijkheden om Spark zoals data plaats (waar compute nodes werken op gegevens die al lokaal is opgeslagen), integratie met HDFS caching en, voor een betere perimeter veiligheid, integratie met Kerberos ook.

Nu Cloudera wil om dingen te doen, zoals het verbeteren van Spark webinterface voor een betere debugging ervaring en voeg auto-tuning van de baan parameters, gebaseerd op data volume veranderingen en beschikbare cluster middelen. Zij wil ook Spark integreren met Cloudera Manager en Cloudera Navigator.

Gevestigde belangen; Cloudera weet dat een pittig, memory-bevooroordeelde systeem zoals Spark is noodzakelijk om de aandacht van een markt gewend aan OLAP en Data Warehouse systemen vast te leggen. Dergelijke technologieën, hoewel gericht op kleinere datavolumes dan Hadoop, zijn niettemin analytics-georiënteerd en sneller reageren dan batch-gebaseerde systemen zoals MapReduce.

Maar Cloudera weet ook haar klanten nodig hebben technologie die de aard van de pasvorm, afwerking, schaalbaarheid en betrouwbaarheid die louter early-adopter technologieën niet voorzien heeft. Deze klanten moeten ook integreren met de Hadoop opslagmedia en ecosysteemcomponenten ze al in geïnvesteerd. The One Platform-initiatief is zeer voorzichtig gericht op het bevorderen van de functionaliteit Spark en Hadoop integratie, die zeer zakelijke klanten tevreden te stellen.

De doelstellingen van de One Platform initiatief zijn onaantastbaar en het publiek inzet voor hen is behulpzaam op zich. Het is echt een van de meer zinnige initiatieven te komen van een big data vendor. De sector heeft ondersteund Spark bijna religieus, heeft de One Platform initiatief om succesvol te zijn. De kans is groot dat het zal worden.

LinkedIn onthult haar nieuwe blogging platform

Is dit de leeftijd van Big OLAP?

DataRobot streeft naar laaghangend fruit van data science automatiseren

MapR oprichter John Schroeder treden naar beneden, COO te vervangen