Otros Agregadores

Más allá de OpenRouter y NanoBanana

Existen otros agregadores y proveedores de inferencia que ofrecen tiers gratuitos o precios ultra bajos. Conocerlos te da más opciones y flexibilidad.

Comparativa rápida

Servicio	Modelos	Tier Gratis	Velocidad	Precio	Mejor para
Together AI	200+	$5 crédito	Rápida	Bajo	Open source, fine-tuning
Fireworks	50+	Free tier	Muy rápida	Muy bajo	Inferencia rápida
Groq	~15	Free tier	Ultra rápida	Bajo	Latencia mínima
Cerebras	~10	Free tier	Ultra rápida	Bajo	Inferencia speed
Hugging Face	Miles	Free tier	Variable	Gratuito/hosted	Experimentación
Replicate	100+	Gratis (lento)	Variable	Pay-per-use	Generación multimedia

Groq: Velocidad extrema

Groq usa chips LPU (Language Processing Units) diseñados específicamente para inferencia de LLMs.

Velocidad comparativa

Proveedor	Tokens/segundo (aprox.)
OpenAI API	50-80
Anthropic API	60-100
Together AI	100-200
Groq	300-800
Cerebras	500-2000

Uso

from openai import OpenAI

client = OpenAI(
    base_url="https://api.groq.com/openai/v1",
    api_key="TU_GROQ_API_KEY"
)

# Llama 3.1 a 800+ tokens/segundo
response = client.chat.completions.create(
    model="llama-3.3-70b-versatile",
    messages=[{"role": "user", "content": "Hola"}]
)

Cuándo usar Groq

Chatbots en tiempo real que necesitan respuestas instantáneas
Procesamiento masivo de texto donde la velocidad importa
Aplicaciones de voz donde la latencia es crítica

[!TIP] Groq es ideal cuando la velocidad importa más que el modelo más potente. Llama 3.1 70B a 800 tokens/seg es impresionante para tareas generales.

Together AI: El ecosistema open source

Together AI se especializa en modelos open source con opciones de fine-tuning y deployment.

Características

200+ modelos incluyendo todos los open source populares
Fine-tuning con un clic
Deployment de modelos custom
$5 crédito gratis al registrarse

Uso

curl https://api.together.xyz/v1/chat/completions \
  -H "Authorization: Bearer $TOGETHER_API_KEY" \
  -d '{
    "model": "meta-llama/Llama-3.3-70B-Instruct-Turbo",
    "messages": [{"role": "user", "content": "Hola"}]
  }'

Cuándo usar Together AI

Necesitas fine-tuning de modelos open source
Quieres hosted models de Llama, Mistral, etc.
Prototipos con créditos gratis

Cerebras: Inferencia ultrarrápida

Similar a Groq pero con chips WSE (Wafer-Scale Engine). Reclaman ser la inferencia más rápida del mundo.

from openai import OpenAI

client = OpenAI(
    base_url="https://api.cerebras.ai/v1",
    api_key="TU_CEREBRAS_API_KEY"
)

response = client.chat.completions.create(
    model="llama-3.3-70b",
    messages=[{"role": "user", "content": "Explica la relatividad"}]
)

Cuándo usar Cerebras

When every millisecond matters
Real-time applications
High-throughput batch processing

Hugging Face: El playground de IA

Hugging Face no es un enrutador per se, sino el ecosistema más grande de modelos open source.

Inference API (gratuito)

from huggingface_hub import InferenceClient

client = InferenceClient(token="TU_HF_TOKEN")

# Gratis, pero con rate limits estrictos
response = client.chat_completion(
    model="meta-llama/Llama-3.3-70B-Instruct",
    messages=[{"role": "user", "content": "Hola"}]
)

Cuándo usar Hugging Face

Experimentación con modelos nuevos
Tareas específicas (clasificación, NER, traducción)
Modelos especializados que no están en otros lados

Fireworks: Rapidez y economía

Fireworks ofrece inferencia rápida para modelos open source con precios agresivos.

Velocidad: ★★★★☆
Precio: ★★★★★
Variedad: ★★★☆☆
Facilidad: ★★★★☆

Cuándo usar Fireworks

Producción con modelos open source
Necesitas latencia baja pero no ultra-baja
Presupuesto ajustado

Guía de decisión rápida

¿Necesitas el modelo más rápido posible? → Groq o Cerebras
¿Necesitas fine-tuning? → Together AI
¿Necesitas un modelo especializado? → Hugging Face
¿Necesitas variedad + simplicidad? → OpenRouter
¿Necesitas solo los básicos gratis? → NanoBanana
¿Necesitas producción barata? → Fireworks