Otros Agregadores
Más allá de OpenRouter y NanoBanana
Existen otros agregadores y proveedores de inferencia que ofrecen tiers gratuitos o precios ultra bajos. Conocerlos te da más opciones y flexibilidad.
Comparativa rápida
| Servicio | Modelos | Tier Gratis | Velocidad | Precio | Mejor para |
|---|---|---|---|---|---|
| Together AI | 200+ | $5 crédito | Rápida | Bajo | Open source, fine-tuning |
| Fireworks | 50+ | Free tier | Muy rápida | Muy bajo | Inferencia rápida |
| Groq | ~15 | Free tier | Ultra rápida | Bajo | Latencia mínima |
| Cerebras | ~10 | Free tier | Ultra rápida | Bajo | Inferencia speed |
| Hugging Face | Miles | Free tier | Variable | Gratuito/hosted | Experimentación |
| Replicate | 100+ | Gratis (lento) | Variable | Pay-per-use | Generación multimedia |
Groq: Velocidad extrema
Groq usa chips LPU (Language Processing Units) diseñados específicamente para inferencia de LLMs.
Velocidad comparativa
| Proveedor | Tokens/segundo (aprox.) |
|---|---|
| OpenAI API | 50-80 |
| Anthropic API | 60-100 |
| Together AI | 100-200 |
| Groq | 300-800 |
| Cerebras | 500-2000 |
Uso
from openai import OpenAI
client = OpenAI( base_url="https://api.groq.com/openai/v1", api_key="TU_GROQ_API_KEY")
# Llama 3.1 a 800+ tokens/segundoresponse = client.chat.completions.create( model="llama-3.3-70b-versatile", messages=[{"role": "user", "content": "Hola"}])Cuándo usar Groq
- Chatbots en tiempo real que necesitan respuestas instantáneas
- Procesamiento masivo de texto donde la velocidad importa
- Aplicaciones de voz donde la latencia es crítica
[!TIP] Groq es ideal cuando la velocidad importa más que el modelo más potente. Llama 3.1 70B a 800 tokens/seg es impresionante para tareas generales.
Together AI: El ecosistema open source
Together AI se especializa en modelos open source con opciones de fine-tuning y deployment.
Características
- 200+ modelos incluyendo todos los open source populares
- Fine-tuning con un clic
- Deployment de modelos custom
- $5 crédito gratis al registrarse
Uso
curl https://api.together.xyz/v1/chat/completions \ -H "Authorization: Bearer $TOGETHER_API_KEY" \ -d '{ "model": "meta-llama/Llama-3.3-70B-Instruct-Turbo", "messages": [{"role": "user", "content": "Hola"}] }'Cuándo usar Together AI
- Necesitas fine-tuning de modelos open source
- Quieres hosted models de Llama, Mistral, etc.
- Prototipos con créditos gratis
Cerebras: Inferencia ultrarrápida
Similar a Groq pero con chips WSE (Wafer-Scale Engine). Reclaman ser la inferencia más rápida del mundo.
from openai import OpenAI
client = OpenAI( base_url="https://api.cerebras.ai/v1", api_key="TU_CEREBRAS_API_KEY")
response = client.chat.completions.create( model="llama-3.3-70b", messages=[{"role": "user", "content": "Explica la relatividad"}])Cuándo usar Cerebras
- When every millisecond matters
- Real-time applications
- High-throughput batch processing
Hugging Face: El playground de IA
Hugging Face no es un enrutador per se, sino el ecosistema más grande de modelos open source.
Inference API (gratuito)
from huggingface_hub import InferenceClient
client = InferenceClient(token="TU_HF_TOKEN")
# Gratis, pero con rate limits estrictosresponse = client.chat_completion( model="meta-llama/Llama-3.3-70B-Instruct", messages=[{"role": "user", "content": "Hola"}])Cuándo usar Hugging Face
- Experimentación con modelos nuevos
- Tareas específicas (clasificación, NER, traducción)
- Modelos especializados que no están en otros lados
Fireworks: Rapidez y economía
Fireworks ofrece inferencia rápida para modelos open source con precios agresivos.
Velocidad: ★★★★☆Precio: ★★★★★Variedad: ★★★☆☆Facilidad: ★★★★☆Cuándo usar Fireworks
- Producción con modelos open source
- Necesitas latencia baja pero no ultra-baja
- Presupuesto ajustado
Guía de decisión rápida
¿Necesitas el modelo más rápido posible? → Groq o Cerebras¿Necesitas fine-tuning? → Together AI¿Necesitas un modelo especializado? → Hugging Face¿Necesitas variedad + simplicidad? → OpenRouter¿Necesitas solo los básicos gratis? → NanoBanana¿Necesitas producción barata? → Fireworks