Skip to content

Otros Agregadores

Más allá de OpenRouter y NanoBanana

Existen otros agregadores y proveedores de inferencia que ofrecen tiers gratuitos o precios ultra bajos. Conocerlos te da más opciones y flexibilidad.

Comparativa rápida

ServicioModelosTier GratisVelocidadPrecioMejor para
Together AI200+$5 créditoRápidaBajoOpen source, fine-tuning
Fireworks50+Free tierMuy rápidaMuy bajoInferencia rápida
Groq~15Free tierUltra rápidaBajoLatencia mínima
Cerebras~10Free tierUltra rápidaBajoInferencia speed
Hugging FaceMilesFree tierVariableGratuito/hostedExperimentación
Replicate100+Gratis (lento)VariablePay-per-useGeneración multimedia

Groq: Velocidad extrema

Groq usa chips LPU (Language Processing Units) diseñados específicamente para inferencia de LLMs.

Velocidad comparativa

ProveedorTokens/segundo (aprox.)
OpenAI API50-80
Anthropic API60-100
Together AI100-200
Groq300-800
Cerebras500-2000

Uso

from openai import OpenAI
client = OpenAI(
base_url="https://api.groq.com/openai/v1",
api_key="TU_GROQ_API_KEY"
)
# Llama 3.1 a 800+ tokens/segundo
response = client.chat.completions.create(
model="llama-3.3-70b-versatile",
messages=[{"role": "user", "content": "Hola"}]
)

Cuándo usar Groq

  • Chatbots en tiempo real que necesitan respuestas instantáneas
  • Procesamiento masivo de texto donde la velocidad importa
  • Aplicaciones de voz donde la latencia es crítica

[!TIP] Groq es ideal cuando la velocidad importa más que el modelo más potente. Llama 3.1 70B a 800 tokens/seg es impresionante para tareas generales.

Together AI: El ecosistema open source

Together AI se especializa en modelos open source con opciones de fine-tuning y deployment.

Características

  • 200+ modelos incluyendo todos los open source populares
  • Fine-tuning con un clic
  • Deployment de modelos custom
  • $5 crédito gratis al registrarse

Uso

Terminal window
curl https://api.together.xyz/v1/chat/completions \
-H "Authorization: Bearer $TOGETHER_API_KEY" \
-d '{
"model": "meta-llama/Llama-3.3-70B-Instruct-Turbo",
"messages": [{"role": "user", "content": "Hola"}]
}'

Cuándo usar Together AI

  • Necesitas fine-tuning de modelos open source
  • Quieres hosted models de Llama, Mistral, etc.
  • Prototipos con créditos gratis

Cerebras: Inferencia ultrarrápida

Similar a Groq pero con chips WSE (Wafer-Scale Engine). Reclaman ser la inferencia más rápida del mundo.

from openai import OpenAI
client = OpenAI(
base_url="https://api.cerebras.ai/v1",
api_key="TU_CEREBRAS_API_KEY"
)
response = client.chat.completions.create(
model="llama-3.3-70b",
messages=[{"role": "user", "content": "Explica la relatividad"}]
)

Cuándo usar Cerebras

  • When every millisecond matters
  • Real-time applications
  • High-throughput batch processing

Hugging Face: El playground de IA

Hugging Face no es un enrutador per se, sino el ecosistema más grande de modelos open source.

Inference API (gratuito)

from huggingface_hub import InferenceClient
client = InferenceClient(token="TU_HF_TOKEN")
# Gratis, pero con rate limits estrictos
response = client.chat_completion(
model="meta-llama/Llama-3.3-70B-Instruct",
messages=[{"role": "user", "content": "Hola"}]
)

Cuándo usar Hugging Face

  • Experimentación con modelos nuevos
  • Tareas específicas (clasificación, NER, traducción)
  • Modelos especializados que no están en otros lados

Fireworks: Rapidez y economía

Fireworks ofrece inferencia rápida para modelos open source con precios agresivos.

Velocidad: ★★★★☆
Precio: ★★★★★
Variedad: ★★★☆☆
Facilidad: ★★★★☆

Cuándo usar Fireworks

  • Producción con modelos open source
  • Necesitas latencia baja pero no ultra-baja
  • Presupuesto ajustado

Guía de decisión rápida

¿Necesitas el modelo más rápido posible? → Groq o Cerebras
¿Necesitas fine-tuning? → Together AI
¿Necesitas un modelo especializado? → Hugging Face
¿Necesitas variedad + simplicidad? → OpenRouter
¿Necesitas solo los básicos gratis? → NanoBanana
¿Necesitas producción barata? → Fireworks