Audio y Voz con IA (Gratis)
La IA no solo genera texto — también crea voz, música y transcribe audio. Estas son las herramientas gratuitas.
Text-to-Speech (TTS)
| Herramienta | Gratis? | Calidad | Idiomas | Uso |
|---|
| Edge TTS | Sí (ilimitado) | ★★★★☆ | 100+ | Voz natural, Microsoft Edge |
| gTTS | Sí (ilimitado) | ★★★☆☆ | 20+ | Simple, Python |
| OpenAI TTS | Limitado | ★★★★★ | <10 | Velas, Alloy, etc. |
| ElevenLabs | 10K chars/mes | ★★★★★ | 30+ | Clonación de voz |
| Bark | Sí (local) | ★★★★☆ | Multilingual | Open source |
Edge TTS: La opción gratuita más completa
async def generate_speech():
communicate = edge_tts.Communicate(
"Hola, esta es una prueba de texto a voz con Edge TTS.",
"es-MX-JorgeNeural" # Voz masculina mexicana
await communicate.save("output.mp3")
asyncio.run(generate_speech())
# Listar voces disponibles
Voces en español disponibles
| Voz | Género | Estilo |
|---|
| es-MX-JorgeNeural | Masculino | Natural, conversacional |
| es-MX-DaliaNeural | Femenino | Natural, cálido |
| es-ES-AlvaroNeural | Masculino | España, formal |
| es-ES-ElviraNeural | Femenino | España, amable |
Speech-to-Text (STT)
| Herramienta | Gratis? | Precisión | Idiomas | Uso |
|---|
| Whisper (local) | Sí | ★★★★★ | 100+ | Mejor precisión, requiere GPU |
| Whisper (API) | $0.006/min | ★★★★★ | 100+ | Sin GPU necesaria |
| Google STT | 60 min/mes | ★★★★☆ | 125+ | Fácil de usar |
| Vosk | Sí (local) | ★★★☆☆ | 20+ | Offline, ligero |
Whisper local (mejor opción gratuita)
pip install openai-whisper
whisper audio.mp3 --model medium --language Spanish
# Modelos disponibles (precisión vs velocidad)
# tiny: Más rápido, menos preciso (39M params)
# base: Rápido, aceptable (74M)
# small: Buen balance (244M)
# medium: Bueno (769M) <-- recomendado para español
# large: Mejor precisión (1550M) <-- mejor pero lento
[!TIP]
Para español, el modelo medium ofrece el mejor balance entre precisión y velocidad. large es marginalmente mejor pero 2x más lento.
Generación Musical
| Herramienta | Gratis? | Estilos | Duración | Calidad |
|---|
| Suno AI | 50 créditos/día | Todos | 2-4 min | ★★★★★ |
| Udio | 10 canciones/día | Todos | 2-4 min | ★★★★★ |
| MusicGen (local) | Sí (ilimitado) | Variedad | 30 seg | ★★★☆☆ |
| Stable Audio | Limitado | Instrumental | 30 seg | ★★★★☆ |
Suno AI: La mejor opción gratuita
- Ve a suno.com
- Crea cuenta (Google, Discord, o email)
- 50 créditos gratis por día (≈ 10 canciones)
Prompt para canción:
Style: Reggaeton mexicano con toques de cumbia
Lyrics: Una canción sobre aprender a programar con IA,
con humor pero inspiradora. Coro pegadizo.
MusicGen local (para automation)
from audiocraft.models import MusicGen
from audiocraft.data.audio import audio_write
model = MusicGen.get_pretrained('small') # 'medium' o 'large' para más calidad
model.set_generation_params(duration=15) # segundos
wav = model.generate(['Happy upbeat tropical house with steel drums'])
audio_write('output', wav[0].cpu(), model.sample_rate, strategy="loudness")
Automatización de Audio con Python
# Pipeline completo: Audio → Texto → Resumen → Audio
model = whisper.load_model("medium")
text = model.transcribe("meeting.mp3")["text"]
# 2. (Aquí enviarías 'text' a un LLM para resumir)
summary = "Resumen de la reunión: ..." # resultado del LLM
# 3. Generar audio del resumen
async def text_to_speech(text, output_path):
communicate = edge_tts.Communicate(text, "es-MX-JorgeNeural")
await communicate.save(output_path)
asyncio.run(text_to_speech(summary, "resumen.mp3"))
Consejos prácticos
- Para TTS en español: Edge TTS con voces Neural es la mejor opción gratuita
- Para transcripción: Whisper medium es el sweet spot para español
- Para música: Suno AI free tier es impresionantemente bueno
- Para automation: Combina Whisper + Edge TTS + un LLM para pipelines de audio
- Calidad de audio: Siempre usa audio de 16kHz+ para transcripción