Audio y Voz con IA

Audio y Voz con IA (Gratis)

La IA no solo genera texto — también crea voz, música y transcribe audio. Estas son las herramientas gratuitas.

Text-to-Speech (TTS)

Herramienta	Gratis?	Calidad	Idiomas	Uso
Edge TTS	Sí (ilimitado)	★★★★☆	100+	Voz natural, Microsoft Edge
gTTS	Sí (ilimitado)	★★★☆☆	20+	Simple, Python
OpenAI TTS	Limitado	★★★★★	<10	Velas, Alloy, etc.
ElevenLabs	10K chars/mes	★★★★★	30+	Clonación de voz
Bark	Sí (local)	★★★★☆	Multilingual	Open source

Edge TTS: La opción gratuita más completa

# Instalar
pip install edge-tts

# Uso básico
import asyncio
import edge_tts

async def generate_speech():
    communicate = edge_tts.Communicate(
        "Hola, esta es una prueba de texto a voz con Edge TTS.",
        "es-MX-JorgeNeural"  # Voz masculina mexicana
    )
    await communicate.save("output.mp3")

asyncio.run(generate_speech())

# Listar voces disponibles
# edge-tts --list-voices

Voces en español disponibles

Voz	Género	Estilo
es-MX-JorgeNeural	Masculino	Natural, conversacional
es-MX-DaliaNeural	Femenino	Natural, cálido
es-ES-AlvaroNeural	Masculino	España, formal
es-ES-ElviraNeural	Femenino	España, amable

Speech-to-Text (STT)

Herramienta	Gratis?	Precisión	Idiomas	Uso
Whisper (local)	Sí	★★★★★	100+	Mejor precisión, requiere GPU
Whisper (API)	$0.006/min	★★★★★	100+	Sin GPU necesaria
Google STT	60 min/mes	★★★★☆	125+	Fácil de usar
Vosk	Sí (local)	★★★☆☆	20+	Offline, ligero

Whisper local (mejor opción gratuita)

# Instalar
pip install openai-whisper

# Transcribir audio
whisper audio.mp3 --model medium --language Spanish

# Modelos disponibles (precisión vs velocidad)
# tiny:   Más rápido, menos preciso (39M params)
# base:   Rápido, aceptable (74M)
# small:  Buen balance (244M)
# medium: Bueno (769M) <-- recomendado para español
# large:  Mejor precisión (1550M) <-- mejor pero lento

[!TIP] Para español, el modelo medium ofrece el mejor balance entre precisión y velocidad. large es marginalmente mejor pero 2x más lento.

Generación Musical

Herramienta	Gratis?	Estilos	Duración	Calidad
Suno AI	50 créditos/día	Todos	2-4 min	★★★★★
Udio	10 canciones/día	Todos	2-4 min	★★★★★
MusicGen (local)	Sí (ilimitado)	Variedad	30 seg	★★★☆☆
Stable Audio	Limitado	Instrumental	30 seg	★★★★☆

Suno AI: La mejor opción gratuita

Ve a suno.com
Crea cuenta (Google, Discord, o email)
50 créditos gratis por día (≈ 10 canciones)

Prompt para canción:

Style: Reggaeton mexicano con toques de cumbia
Lyrics: Una canción sobre aprender a programar con IA,
con humor pero inspiradora. Coro pegadizo.

MusicGen local (para automation)

# Instalar
pip install audiocraft

# Generar música
from audiocraft.models import MusicGen
from audiocraft.data.audio import audio_write

model = MusicGen.get_pretrained('small')  # 'medium' o 'large' para más calidad
model.set_generation_params(duration=15)  # segundos

wav = model.generate(['Happy upbeat tropical house with steel drums'])
audio_write('output', wav[0].cpu(), model.sample_rate, strategy="loudness")

Automatización de Audio con Python

# Pipeline completo: Audio → Texto → Resumen → Audio
import whisper
import edge_tts
import asyncio

# 1. Transcribir
model = whisper.load_model("medium")
text = model.transcribe("meeting.mp3")["text"]

# 2. (Aquí enviarías 'text' a un LLM para resumir)
summary = "Resumen de la reunión: ..."  # resultado del LLM

# 3. Generar audio del resumen
async def text_to_speech(text, output_path):
    communicate = edge_tts.Communicate(text, "es-MX-JorgeNeural")
    await communicate.save(output_path)

asyncio.run(text_to_speech(summary, "resumen.mp3"))

Consejos prácticos

Para TTS en español: Edge TTS con voces Neural es la mejor opción gratuita
Para transcripción: Whisper medium es el sweet spot para español
Para música: Suno AI free tier es impresionantemente bueno
Para automation: Combina Whisper + Edge TTS + un LLM para pipelines de audio
Calidad de audio: Siempre usa audio de 16kHz+ para transcripción