5 maart 2024
0 Reactie(s)

5 maart 2024

Hoe ziet een volgende generatie hybrid data lakehouse eruit?

Kunst­ma­tige intel­li­gentie (AI) gaat de wijze waarop bijna elke organi­satie opereert opnieuw vormgeven. Uit recent onder­zoek van Cloudera blijkt dat ruim een derde (36%) van de onder­vraagde organi­sa­ties in de VS zich al in de oriën­ta­tie­fase voor een AI-imple­men­tatie bevindt. Maar ondanks de snelle opkomst van AI is het benutten daarvan voor veel organi­sa­ties een flinke uitda­ging. AI en alle andere analyses, zijn namelijk zo goed of slecht als de data waarop ze zijn gebaseerd en daarmee worstelen veel organisaties.

Organi­sa­ties hebben moeite met de toegang tot en het verza­melen van alle data, vaak uiteen­lo­pende soorten en in silo’s opgeslagen, die nodig zijn om AI aan te drijven. Hierdoor zijn veel organi­sa­ties niet in staat de zakelijke inzichten en waarde te creëren waarop ze hadden gehoopt. Worste­lend met unieke uitda­gingen rond gedis­tri­bu­eerde data-infra­struc­turen, gover­nance en toene­mende cyber­drei­gingen, hebben organi­sa­ties deskun­dige onder­steu­ning nodig om de voordelen van AI te kunnen benutten.

Om de data‑, AI- en analy­se­be­hoeften van organi­sa­ties te onder­steunen, onthult Cloudera de volgende generatie van haar open data lakehouse. Deze bevat verschil­lende verbe­te­ringen om zakelijke AI snel te kunnen opschalen en meer bedrijfs­waarde te leveren. Een belang­rijke is dat het open data lakehouse nu Apache Iceberg biedt voor de cloud enon-premises. Volgens IDC wordt momen­teel ongeveer de helft van alle produc­tie­data van bedrijven in de wereld nog op locatie beheerd. 

Het nieuwe generatie Cloudera-platform biedt organi­sa­ties uitge­breide mogelijk­heden om dezelfde open data lakehouse-functi­o­na­li­teit vanuit de cloud naar hun datacen­ters te brengen. Het platform is namelijk volledig klaar om de complexi­teit van het beheer van uiterst gevoe­lige en bedrijfs­kri­ti­sche data aan te pakken en tegelij­ker­tijd de meeste waarde uit het gebruik ervan te halen. 

Apache Iceberg

De toevoe­ging van Apache Iceberg-onder­steu­ning aan het Cloudera-platform ontgren­delt mogelijk­heden om kriti­sche data te gebruiken voor AI en het verbe­teren van foutge­voe­lige processen. Dit maakt het mogelijk om nieuwe toepas­singen te imple­men­teren, presta­ties te optima­li­seren en de kosten te verlagen. Iceberg levert het open tabel­for­maat, zodat organi­sa­ties AI in de lokale omgeving aan hun data kunnen laten werken. Deze aanpak maakt nieuwe verwer­kingen mogelijk, zoals met Spark, Flink, Impala en NiFi, waardoor gelijk­tij­dige toegang en verwer­king van datasets binnen Iceberg mogelijk wordt.

Met functies zoals time travel, schema evolu­tion en gestroom­lijnde data disco­very stelt Iceberg organi­sa­ties in staat hun data lake-beheer te verbe­teren en tevens de data-integri­teit te handhaven. Mogelijk­heden voor in-place schema evolu­tion en ACID-trans­ac­ties op het data lakehouse zijn cruciale onder­delen voor organi­sa­ties die willen voldoen aan de Algemene Veror­de­ning Gegevens­be­scher­ming (AVG) en andere regel­ge­ving. De Shared Data Experience (SDX) laag voor databe­vei­li­ging en ‑beheer, is een funda­men­teel onder­deel van het open data lakehouse, zowel in het datacenter als in de cloud.

Apache Ozone

Naarmate AI en andere geavan­ceerde analyses meer worden toege­past, moeten de presta­ties en gegevens­op­slag natuur­lijk meegroeien. Speci­fiek voor het datacenter levert Apache Ozone een grotere schaal­baar­heid tegen lagere kosten, waardoor organi­sa­ties nog meer bedrijfs­waarde kunnen genereren. Na de laatste update biedt het Cloudera-platform aan organi­sa­ties de tools die ze nodig hebben om meer bevei­li­ging te integreren en de bedrijfs­ge­reed­heid te versterken. Zoals Ozone-functies die de  repli­catie en quota’s voor volumes verbe­teren, buckets om cloud-native archi­tec­turen te vereen­vou­digen  en snapshots, die nu ook gegevens­op­slag op bucket- en volume­ni­veau ondersteunen.

Upgrades zonder downtime

Behalve verbe­te­ringen van Iceberg en Ozone beschikt het volgende generatie platform ook over Zero Downtime Upgrade (ZDU). ZDU biedt organi­sa­ties een eenvou­di­gere manier om te upgraden. Rolling upgrades worden nu onder­steund voor HDFS, Hive, HBase, Kudu, Kafka, Ranger, YARN en Ranger KMS. ZDU zorgt ervoor dat organi­sa­ties minimale versto­ringen van workflows ervaren en daarmee langdu­rige en kostbare downtime reduceren of zelfs volledig elimineren.

De toevoe­ging van ZDU geeft organi­sa­ties een krach­tige produc­ti­vi­teits­im­puls met mogelijk­heden zoals upgrades in één fase en automa­ti­sche upgrades van grote clusters. Voor platform compo­nenten waarvan nog steeds wordt verwacht dat ze downtime kunnen ervaren, zorgt deze update ervoor dat ze worden geopti­ma­li­seerd via Cloudera Manager en snel opnieuw zijn op te starten. Dat is een grote verbe­te­ring ten opzichte van eerdere itera­ties waarbij sommige services, zoals Queue Manager, onder­delen waren die als eerste uitvielen en als laatsten weer opnieuw opstarten. Deze services kunnen nu binnen enkele minuten weer aan de slag, direct aan het begin van de ZDU.

AI wordt snel een belang­rijke sleutel voor het genereren van de maximale waarde uit bedrijfs­ge­ge­vens. Om die waarde te bereiken, moeten we echter de data en analyses gebruiken in de omgeving waarvoor ze het meest geschikt zijn. Dat maakt een hybride aanpak cruciaal. Het nieuwe Cloudera-platform biedt verplaats­bare, cloud-native analyses die over alle infra­struc­turen zijn in te zetten, terwijl een consis­tent databe­heer en ‑bevei­li­ging behouden blijven. Beschik­baar voor in de cloud en het datacenter.

Wim Stoop

Wim Stoop

Wim Stoop is senior director, hybrid data platform bij Cloudera

0 Reactie(s)

Loading

0 Reactie(s)

0 reacties

Reacties gesloten

De reactiemogelijkheid is verlopen. (14 dagen)

Nieuwsbrief

Huidige abonnees: 35

Pin It on Pinterest

Share This