36 meses de ChatGPT
- Alejandro Rivero
- 19 ago 2025
- 2 Min. de lectura
Antes de ChatGPT ya se habían producido algunos traumas: la decision de no liberar los pesos de GPT3, publicado en mayo del 2020 (año de la pandemia) y la fundación de Anthropic en 2021 (con pasta de FTX en el 2022!).
La referencia basica de tamaños es davinci-001, gpt3, con 96 capas y 12K de ancho, total 175B parametros. Se rumoreó que gpt3.5-turbo era más estrecho, con hidden size de poco más de 4K.
Finalmente en agosto de 2025 OpenAI ha liberado otros dos modelos, gpt-oss-120B y gpt-oss-20B, de 36 y 24 capas respectivamente, y un ancho («residual stream») de tan solo 2880. Usan respectivamente 128 y 32 expertos, manteniendo activos 4. Eso es más que los 8 ó 16 que se dijo para gpt4, pero vete a saber en gpt5. Mantienen el sistema de bandas pares e impares que ya empleaba GPT3 y antes uno de los reconocedores de imagen -y que hacia razonable esperar un reconocedor de imagen en GPT4, claro-. En este caso la ventana es de 128 tokens. Es una opcion que pocos modelos libres han escogido, tan solo los gemma y el clon libre de GPT3, GPT-Neo.
Es asombroso cómo han conseguido mantener el secreto sobre los parámetros de cada modelo; se sospecha que 4o es cuatro veces más pequeño que 4, pero quizas solo ocurre que tiene menos expertos activos. De los gpt5 no se ha filtrado nada.
Tampoco se entiende el salto en la ELO de la versión actual de 4o, puede tenga que ver con el escándalo del peloteo, pero está dando más alto que la versión de noviembre en todas las benchmarks. También cuesta un 50% más por millón de tokens, porque solo se puede acceder con el endpoint de chat. En las model release notes dijeron que planeaban «incorporar las mejoras en un modelo con fecha durante las próximas semanas», algo que no anuncian en todos los updates de chat. Podría ser uno de los gpt5 si fuera cierto que no todos vienen de un nuevo modelo. El update anterior de 4o, en enero, incluía entrenamiento extendido hasta junio del 2024.



Comentarios