Skip to content

Modelos de Lenguaje (LLMs)

¿Qué es un LLM?

Un Large Language Model (Modelo de Lenguaje Grande) es un sistema entrenado con miles de millones de textos que predice cuál es la siguiente palabra (token) más probable dado un contexto.

No “entiende” español. No “razona” como humanos. Es un motor de predicción de tokens absurdamente sofisticado.

Pero ese motor de predicción, cuando se escala a cientos de miles de millones de parámetros, produce comportamientos que parecen inteligencia: razonar, crear, corregir, traducir, programar.

Conceptos clave

Tokens

Un token es la unidad mínima que procesa el modelo. En español, ~1 token ≈ 1-2 caracteres.

"Hola mundo" → ["Ho", "la", " mun", "do"] → 4 tokens

Context Window (Ventana de Contexto)

Es la cantidad de tokens que el modelo puede “recordar” en una sola conversación. Si exceeds este límite, el modelo olvida los mensajes anteriores.

[!IMPORTANT] La context window NO es lo mismo que la longitud de salida. Un modelo con 128K de contexto puede “leer” un libro, pero su respuesta individual sigue siendo limitada.

Temperature

Controla la aleatoriedad de las respuestas:

ValorComportamientoUso ideal
0.0Siempre la misma respuestaCódigo, datos factuales
0.3Mayormente deterministaAnálisis, resúmenes
0.7BalanceadoConversación general
1.0CreativoEscritura creativa, brainstorming
1.5+CaóticoExperimentación (poco práctico)

Top-p (Nucleus Sampling)

Alternativa a temperature: en lugar de ajustar la aleatoriedad global, limita el conjunto de tokens candidatos. Un top_p=0.9 significa que el modelo solo considera tokens que cubren el 90% de la probabilidad acumulada.

System Prompt

Instrucción que define el comportamiento del modelo para toda la conversación. Va antes de los mensajes del usuario.

System: Eres un experto en Python que responde en español, con ejemplos de código.
User: ¿Cómo ordenar una lista?
Assistant: [responde según el system prompt]

Los modelos principales (2025)

ModeloEmpresaContext WindowGratis?MultimodalMejor para
GPT-4oOpenAI128KLimitado (ChatGPT Free)Sí (texto, imagen, audio)General, código, análisis
GPT-4o-miniOpenAI128KSí (ChatGPT Free)Tareas rápidas y ligeras
Gemini 2.5 ProGoogle1M+Sí (AI Studio)Sí (texto, imagen, video, audio)Documentos largos, análisis
Gemini 2.0 FlashGoogle1M+Rápido, barato, bueno
Claude Sonnet 4Anthropic200KSí (claude.ai Free)Sí (texto, imagen)Escritura, código, análisis
DeepSeek V3DeepSeek128KSí (deepseek.com)Texto principalmenteRazónamiento, código
DeepSeek R1DeepSeek128KTextoRazónamiento con cadena de pensamiento
Llama 4Meta128K-10MSí (varios hosts)Dependiendo versiónOpen source, customizable
Grok 3xAI128K+Sí (x.com)General, humor
Mistral LargeMistral128KParcialEuropeo, compliance

[!NOTE] Los modelos gratuitos cambian frecuentemente. Esta tabla refleja las condições a mediados de 2025. Verifica siempre en el sitio oficial.

Cómo se entrenan (resumen simplificado)

  1. Pre-entrenamiento: Se le dan terabytes de texto de internet. Aprende a predecir el siguiente token. Costo: millones de dólares en GPU.

  2. Fine-tuning supervisado (SFT): Se le muestran ejemplos de “pregunta → buena respuesta”. Aprende el formato de diálogo.

  3. RLHF (Reinforcement Learning from Human Feedback): Humanos califican respuestas. El modelo aprende a preferir respuestas útiles, seguras y honestas.

Pre-entrenamiento (trillones de tokens)
→ SFT (miles de ejemplos calidad)
→ RLHF (miles de comparaciones humanas)
→ Modelo final

RAG: Dándole memoria a los LLMs

RAG (Retrieval-Augmented Generation) es la técnica de buscar información relevante en una base de datos antes de generar una respuesta.

Sin RAG: Pregunta → LLM → Respuesta (puede ser alucinada)
Con RAG: Pregunta → [Buscar documentos relevantes] → LLM + Documentos → Respuesta fundamentada

Ejemplo con código:

# RAG simple con LangChain
from langchain.vectorstores import Chroma
from langchain.embeddings import OpenAIEmbeddings
# 1. Indexar documentos
vectorstore = Chroma.from_documents(docs, OpenAIEmbeddings())
# 2. Buscar contexto relevante
context = vectorstore.similarity_search("¿Cuál es la política de devoluciones?")
# 3. Pasar al LLM junto con la pregunta
answer = llm.predict(f"Contexto: {context}\nPregunta: ¿Cuál es la política de devoluciones?")

Fine-tuning vs Prompt Engineering vs RAG

Necesitas…Usa…CostoEsfuerzo
Cambiar el comportamientoPrompt Engineering$0Minutos
Contexto específico y actualizadoRAGBajoHoras
Estilo o dominio muy especializadoFine-tuningAltoDías

[!TIP] Siempre empieza con prompt engineering. El 80% de los problemas se resuelven con mejores prompts, no con más tecnología.

Servir un LLM: APIs y alternativas

APIs (pago por token)

Terminal window
# OpenAI
curl https://api.openai.com/v1/chat/completions \
-H "Authorization: Bearer $OPENAI_API_KEY" \
-d '{"model":"gpt-4o-mini","messages":[{"role":"user","content":"Hola"}]}'
# OpenRouter (agrega acceso a 300+ modelos)
curl https://openrouter.ai/api/v1/chat/completions \
-H "Authorization: Bearer $OPENROUTER_API_KEY" \
-d '{"model":"google/gemini-2.0-flash-exp:free","messages":[{"role":"user","content":"Hola"}]}'

Local (gratis, pero necesitas GPU)

  • Ollama: ollama run llama3 — método más simple
  • LM Studio: Interfaz gráfica para descargar y correr modelos
  • llama.cpp: Compilación optimizada para CPU consumer

En el siguiente capítulo aprenderemos prompt engineering, la habilidad más importante para sacar provecho de cualquier LLM.