27 september 2024
0 Reactie(s)

27 september 2024

Cloudflare verbetert AI-inferentieplatform met krachtige GPU-upgrade, snellere inferentie, grotere modellen, observeerbaarheid en verbeterde vectordatabase

Cloud­flare heeft nieuwe mogelijk­heden aange­kon­digd voor Workers AI en de beschik­bare bouwstenen voor het ontwik­kelen van AI-apps. Workers AI is het server­loze AI-platform waarmee ontwik­ke­laars nu nog snellere, krach­ti­gere en beter preste­rende AI-apps kunnen maken. Apps die op Workers AI zijn gemaakt, profi­teren onder andere van snellere inferentie, grotere modellen en betere presta­tie­sta­tis­tieken. Workers AI is het eenvou­digste platform om wereld­wijde AI-apps te maken en AI-inferentie dichter bij de gebruiker uit te voeren, waar ter wereld die zich ook bevindt.

Netwerklatentie verminderen

Aange­zien large language models (LLM’s) kleiner en sneller worden, is de netwerk­snel­heid het knelpunt voor klanten die de LLM’s willen gaan gebruiken en naadloze inter­ac­ties met AI willen ervaren. Cloudflare’s wereld­wijde netwerk helpt netwerk­la­tentie te vermin­deren. Het onder­scheidt zich hiermee van andere netwerken die meestal uit gecon­cen­treerde bronnen in een beperkt aantal datacen­ters bestaan. Cloudflare’s server­loze inferen­tie­plat­form, Workers AI, beschikt nu over GPU’s in meer dan 180 steden in de hele wereld. Het is gemaakt voor wereld­wijde toegan­ke­lijk­heid, zodat eindge­brui­kers van over de hele wereld van een lage latentie kunnen profi­teren. Met dit netwerk van GPU’s is Workers AI een van de grootste wereld­wijde AI-platforms. Workers AI is ontworpen om AI-inferentie lokaal en zo dicht mogelijk bij de gebruiker uit te voeren, zodat klant­ge­ge­vens dichter in de buurt blijven.

“Terwijl AI het afgelopen jaar populair werd, dacht niemand dat netwerk­snel­heden tot AI-latentie zouden leiden. Het ging hierbij immers om nieuwe, experi­men­tele inter­ac­ties. Maar naarmate AI een steeds grotere rol in ons dagelijks leven speelt, worden het netwerk en milli­se­conden van cruciaal belang”, zegt Matthew Prince, medeop­richter en CEO van Cloud­flare. “Terwijl AI-workloads van training naar inferentie opschuiven, worden de presta­ties en regio­nale beschik­baar­heid van essen­tieel belang om de volgende fase van AI te onder­steunen. Cloud­flare is het meest wereld­wijde AI-platform op de markt. GPU’s in steden overal ter wereld zullen AI van een nieuw technisch snufje omvormen tot een onder­deel van ons dagelijks leven, net zoals sneller internet dat voor smartphones heeft gedaan.

Cloud­flare intro­du­ceert ook nieuwe mogelijk­heden waarmee Workers AI het eenvou­digste platform wordt om AI-apps mee te maken:

  • Betere presta­ties en onder­steu­ning voor grotere modellen: Cloud­flare breidt zijn wereld­wijde netwerk nu uit met krach­ti­gere GPU’s, zodat Workers AI sneller de AI-inferentie kan uitvoeren op aanzien­lijk grotere modellen, zoals Llama 3.1 70B en de collectie Llama 3.2‑modellen met 1B, 3B, 11B (en binnen­kort 90B). Dankzij onder­steu­ning voor grotere modellen, snellere respons­tijden en grotere context­ven­sters, kunnen AI-apps die op Workers AI van Cloud­flare zijn gemaakt complexere taken effici­ënter uitvoeren. Dit resul­teert in natuur­lijke, naadloze ervaringen voor eindgebruikers.
  • Verbe­terde controle en optima­li­se­ring van AI-gebruik met perma­nente logs: Dankzij nieuwe perma­nente logs in AI Gateway, beschik­baar in open bèta, kunnen ontwik­ke­laars prompts van gebrui­kers en antwoorden van modellen langer opslaan. Daardoor kunnen ze beter analy­seren en begrijpen hoe hun app presteert. Perma­nente logs bieden ontwik­ke­laars uitge­breid inzicht op basis van gebrui­ker­s­er­va­ringen, bijvoor­beeld in de kosten en duur van verzoeken. Dit stelt hen in staat om hun app te verbe­teren. Sinds de lance­ring van afgelopen jaar heeft AI Gateway al meer dan twee miljard verzoeken verwerkt.
  • Snellere en betaal­baar­dere zoekop­drachten: Vector­da­ta­bases maken het makke­lijker voor modellen om eerdere inputs te onthouden. Zo kan machine learning praktisch worden ingezet voor zoekfunc­ties, aanbe­ve­lingen en tekst­ge­ne­ratie. De vector­da­ta­base van Cloud­flare, Vecto­rize, is nu algemeen beschik­baar. Sinds augustus 2024 onder­steunt deze database indexen van maximaal vijf miljoen vectoren, ten opzichte 200.000 daarvoor. De gemid­delde latentie van zoekop­drachten is nu nog maar 31 milli­se­conden (ms), ten opzichte van 549 ms in het verleden. Dankzij deze verbe­te­ringen kunnen AI-apps snel relevante infor­matie vinden, terwijl ze minder gegevens hoeven te verwerken. Dit zorgt er ook voor dat AI-apps betaal­baarder worden. 
Redactie@DCpedia

Redactie@DCpedia

0 Reactie(s)

7 weergaven

0 Reactie(s)

0 reacties

Een reactie versturen

Je e-mailadres wordt niet gepubliceerd. Vereiste velden zijn gemarkeerd met *

Reacties gesloten

De reactiemogelijkheid is verlopen. (14 dagen)

Nieuwsbrief

Pin It on Pinterest

Share This