Alejandro Rivero
10 dic 20242 Min. de lectura
Llama 400B en agustina
He estado preparando una demo para correr el fp16 del Llama3.1 grande en nuestro fragmento de tarjetas L40s. Es basicamente el ejemplo que aparece en https://github.com/NVIDIA/TensorRT-LLM/tree/main/examples/llama con algunos detallitos que es facil saltarse. Lo primero es decidir la paralelizacion. Usando 24 GPUs me ha dado ocasionalmente problemas de vRAM asi que por ir a lo […]






