No Tiene Nombre
elbruno
Podcast
Episodes
Listen, download, subscribe
NTN 520 - Escalar IA Duele
Servir un LLM no es como escalar una web app normal. Hablamos de tokens, GPUs, KV cache, latencia, costos y por qué “agregar más pods” ya no salva a nadie. Fuentes: • https://www.dheeth.blog/llm-serving-is-not-normal-web-serving/ • https://arxiv.org/abs/2309.06180 • https://kubernetes.io/docs/concepts/workloads/autoscaling/horizontal-pod-autoscale/
No Tiene Nombre RSS Feed
