Skip to content

Audio y Voz con IA

Audio y Voz con IA (Gratis)

La IA no solo genera texto — también crea voz, música y transcribe audio. Estas son las herramientas gratuitas.

Text-to-Speech (TTS)

HerramientaGratis?CalidadIdiomasUso
Edge TTSSí (ilimitado)★★★★☆100+Voz natural, Microsoft Edge
gTTSSí (ilimitado)★★★☆☆20+Simple, Python
OpenAI TTSLimitado★★★★★<10Velas, Alloy, etc.
ElevenLabs10K chars/mes★★★★★30+Clonación de voz
BarkSí (local)★★★★☆MultilingualOpen source

Edge TTS: La opción gratuita más completa

# Instalar
pip install edge-tts
# Uso básico
import asyncio
import edge_tts
async def generate_speech():
communicate = edge_tts.Communicate(
"Hola, esta es una prueba de texto a voz con Edge TTS.",
"es-MX-JorgeNeural" # Voz masculina mexicana
)
await communicate.save("output.mp3")
asyncio.run(generate_speech())
# Listar voces disponibles
# edge-tts --list-voices

Voces en español disponibles

VozGéneroEstilo
es-MX-JorgeNeuralMasculinoNatural, conversacional
es-MX-DaliaNeuralFemeninoNatural, cálido
es-ES-AlvaroNeuralMasculinoEspaña, formal
es-ES-ElviraNeuralFemeninoEspaña, amable

Speech-to-Text (STT)

HerramientaGratis?PrecisiónIdiomasUso
Whisper (local)★★★★★100+Mejor precisión, requiere GPU
Whisper (API)$0.006/min★★★★★100+Sin GPU necesaria
Google STT60 min/mes★★★★☆125+Fácil de usar
VoskSí (local)★★★☆☆20+Offline, ligero

Whisper local (mejor opción gratuita)

Terminal window
# Instalar
pip install openai-whisper
# Transcribir audio
whisper audio.mp3 --model medium --language Spanish
# Modelos disponibles (precisión vs velocidad)
# tiny: Más rápido, menos preciso (39M params)
# base: Rápido, aceptable (74M)
# small: Buen balance (244M)
# medium: Bueno (769M) <-- recomendado para español
# large: Mejor precisión (1550M) <-- mejor pero lento

[!TIP] Para español, el modelo medium ofrece el mejor balance entre precisión y velocidad. large es marginalmente mejor pero 2x más lento.

Generación Musical

HerramientaGratis?EstilosDuraciónCalidad
Suno AI50 créditos/díaTodos2-4 min★★★★★
Udio10 canciones/díaTodos2-4 min★★★★★
MusicGen (local)Sí (ilimitado)Variedad30 seg★★★☆☆
Stable AudioLimitadoInstrumental30 seg★★★★☆

Suno AI: La mejor opción gratuita

  1. Ve a suno.com
  2. Crea cuenta (Google, Discord, o email)
  3. 50 créditos gratis por día (≈ 10 canciones)

Prompt para canción:

Style: Reggaeton mexicano con toques de cumbia
Lyrics: Una canción sobre aprender a programar con IA,
con humor pero inspiradora. Coro pegadizo.

MusicGen local (para automation)

# Instalar
pip install audiocraft
# Generar música
from audiocraft.models import MusicGen
from audiocraft.data.audio import audio_write
model = MusicGen.get_pretrained('small') # 'medium' o 'large' para más calidad
model.set_generation_params(duration=15) # segundos
wav = model.generate(['Happy upbeat tropical house with steel drums'])
audio_write('output', wav[0].cpu(), model.sample_rate, strategy="loudness")

Automatización de Audio con Python

# Pipeline completo: Audio → Texto → Resumen → Audio
import whisper
import edge_tts
import asyncio
# 1. Transcribir
model = whisper.load_model("medium")
text = model.transcribe("meeting.mp3")["text"]
# 2. (Aquí enviarías 'text' a un LLM para resumir)
summary = "Resumen de la reunión: ..." # resultado del LLM
# 3. Generar audio del resumen
async def text_to_speech(text, output_path):
communicate = edge_tts.Communicate(text, "es-MX-JorgeNeural")
await communicate.save(output_path)
asyncio.run(text_to_speech(summary, "resumen.mp3"))

Consejos prácticos

  1. Para TTS en español: Edge TTS con voces Neural es la mejor opción gratuita
  2. Para transcripción: Whisper medium es el sweet spot para español
  3. Para música: Suno AI free tier es impresionantemente bueno
  4. Para automation: Combina Whisper + Edge TTS + un LLM para pipelines de audio
  5. Calidad de audio: Siempre usa audio de 16kHz+ para transcripción