No Tiene Nombre podcast show image

No Tiene Nombre

elbruno

Podcast

Episodes

Listen, download, subscribe

NTN 520 - Escalar IA Duele

Servir un LLM no es como escalar una web app normal. Hablamos de tokens, GPUs, KV cache, latencia, costos y por qué “agregar más pods” ya no salva a nadie. Fuentes: • https://www.dheeth.blog/llm-serving-is-not-normal-web-serving/ • https://arxiv.org/abs/2309.06180 • https://kubernetes.io/docs/concepts/workloads/autoscaling/horizontal-pod-autoscale/

No Tiene Nombre RSS Feed


Share: TwitterFacebook

Powered by Plink Plink icon plinkhq.com