Probé 3 modelos AI de texto a voz para ver cuál es mejor: escuchar mis resultados

agosto 6, 2025

44

Tabla de contenido

Takeaways de clave de conectamentado

Hay varias herramientas de IA disponibles que pueden ocasionar un discurso humano.
Algunas voces de IA pueden susurrar, reír y realizar otras hazañas expresivas.
Las herramientas TTS varían en términos de nivel de realismo y su audiencia prevista.

Las voces sintéticas generadas por la inteligencia fabricado se están convirtiendo, para acertadamente o se vuelven comunes. Mientras tanto, el número de empresas que desarrollan esta tecnología está creciendo rápidamente.

Las innovaciones recientes en IA, como la cimentación del transformador, que forma la columna vertebral de muchas herramientas generativas de IA, incluidos los modelos de idiomas grandes, las redes adversas generativas (GAN) y los modelos de difusión, han llevado al aumento de los sistemas de IA que pueden convertir las indicaciones de texto en discursos artificiales que suenan naturales. Ahora hay una amplia variedad de estos sistemas de texto a voz (TTS) disponibles, cada uno con sus beneficios y deficiencias particulares.

Para obtener un sentido más claro que son los más avanzados, probé tres de las herramientas TTS gratuitas más populares actualmente en el mercado.

Merienda

https://www.youtube.com/watch?v=OTZ1FFG5-3W

ElevenLabs es ampliamente considerado un líder de la industria en realismo de voz, y descubrí que esta es una evaluación razonablemente precisa en mis propios experimentos con la utensilio TTS de la compañía. Pero ese realismo se siente más estrechamente formado con la voz de un actor de voz entrenado o podcaster profesional que con una conversación humana ordinaria: es casi un poco asimismo pulido. En ese sentido, sin confiscación, tiende a ser la opción preferida para muchas empresas y profesionales que buscan una narración automatizada confiable. Todavía admite más de 20 idiomas, ampliando aún más el significación y el atractivo de la plataforma.

LEER Los mejores navegadores seguros para la privacidad en 2025: experto probado

La compañía asimismo publicó un nuevo maniquí de texto a voz llamado V3 como una horizonte previa de investigación el mes pasado. Admite más de 70 idiomas, y los usuarios pueden darle vida a su diálogo generado por IA con etiquetas de audio que hacen que se ría, suspira o acento en un susurro, por nombrar solo algunos ejemplos.

Encima: el nuevo asistente de voz de IA de ElevenLabs puede automatizar sus tareas favoritas, y puede probarlo gratuito

Puede registrarse para obtener una cuenta gratuita con ElevenLabs, y automáticamente recibirá 10,000 créditos gratuitos. Seleccione la opción «Text to Speech» en «Playground» en el menú de la izquierda, y será redirigido a una página donde puede ingresar un mensaje personalizado, desea que el sistema AI narrará, seleccione entre una variedad de voces personalizadas y ajuste los parámetros como la velocidad y la estabilidad. Las indicaciones se limitan a 5,000 caracteres, y cada personaje en cada iteración de una coexistentes de voz usa un solo crédito.

Hume ai

https://www.youtube.com/watch?v=clhsd8fucq8

El maniquí TTS de Hume AI es otro contendiente para la utensilio de coexistentes de voz más realista. La compañía ha posicionado su interfaz de voz empática patentada (EVI) como un sistema de IA que puede capturar y aparentar las sutilezas del acento humana, imbuyendo con una capa más profunda de credibilidad. Al igual que ElevenLabs, Hume ofrece un amplio conjunto de personajes de voz de IA prefabricados, cada uno con sus propias peculiaridades expresivas. Todavía puede ocasionar voces personalizadas describiéndolas en indicaciones en idioma natural.

Para probarlo, hice todo lo posible para describir la voz de Samwise Gamgee de «The Lord of the Rings», como se retrató en las películas de Sean Astin. Mi mensaje: «Hobbit amable pero robusto, con una clase trabajadora, West Country British, posiblemente con un toque de acento galeses. Debería sonar asustado pero resuelto completar su ocupación».

LEER Cómo obtener otros 15 GB de almacenamiento de Gmail de forma gratuita (y sin perder archivos antiguos)

Todavía: Este nuevo maniquí AI de texto a voz entiende lo que está diciendo: cómo probarlo gratuito

Posteriormente de pedirle que afirmar una famosa tangente de la película, «Si doy un paso más, será el más alejado de casa que he estado», produjo tres muestras, variando en tono y ceremonia. Todos ellos fueron impresionantes; Para mi aurícula, contenían un calidad de realismo y profundidad emocional que no es replicable por sus competidores. No se parecían mucho al Sam de Astin, pero eso fue sin duda un reflexiva de la descripción ciertamente imperfecta que utilicé como un aviso.

Todavía puede pimentar las pausas agregando «(pausa)» a su aviso, o anexar infusiones jodigosas como «todos ustedes» para mejorar la credibilidad de sus voces personalizadas.

Descripción

Si está buscando una utensilio de coexistentes de voz de IA que ofrezca una tono de funciones de estampado, Descript es el que debe designar.

El maniquí TTS de la compañía genera archivos de audio en un formato de forma de onda, que puede editar tal como lo haría en Adobe Audition o en una plataforma similar. Puede designar entre una biblioteca de voces de IA prefabricadas o expedir una reproducción breve de su propia voz, y el sistema lo clonará para usted.

Probé la función de clonación de voz pidiéndole al sistema que leyera un breve mensaje: «Los veranos en la ciudad de Nueva York se están volviendo brutales, y necesito cambiar en un flato acondicionado más de incorporación calidad». (Lo cual es cierto.) La primera vez, la interpretación generada por IA de mi voz definitivamente sonaba como yo, pero asimismo había una cualidad mecánica que le resta valía al realismo.

Decidí intentarlo otro intento y retornar a memorizar mi voz, esta vez quitando mis auriculares Bluetooth y leyendo el estandarte de modo más lenta y deliberada. Los resultados esta vez fueron mucho más realistas: una simulación más convincente de mi voz, en mi opinión, que una característica similar de clonación de voz ofrecida por Hume.

LEER Cómo restablecer la fábrica de su teléfono Android sin desbloquearlo primero

Encima: hablé con una interpretación de AI de mí mismo, gracias a la utensilio gratuita de Hume – Cómo probarla

Todavía puede ajustar cada dormitorio de audio generado por IA editando directamente su mensaje escrito. No era consumado, por supuesto; Mis amigos cercanos y familiares probablemente podrían detectar la diferencia, pero probablemente engañaría a mis conocidos más lejanos. Puedo imaginar fácilmente usar la utensilio para relatar mis propios artículos o para un caso de uso similar.

Para los podcasters y otros creadores de contenido que buscan pulir rápidamente sus grabaciones de audio, Descript asimismo ofrece una característica de IA que identifica y elimina las palabras de relleno, las pausas innecesarias, «UMMS» y «Uhhs», y otros fragmentos de audio no deseados.

Consejo de Zdnet

Es importante tener en cuenta que estos son solo tres de una gran cantidad de modelos TTS actualmente disponibles, y que cada afortunado tendrá sus propias preferencias basadas en su rol profesional, sabor tecnológico, presupuesto, etc. Ayer de designar una plataforma y ejecutarla, pase unos minutos jugando con diferentes opciones para ver qué interfaces de afortunado se sienten más intuitivas y cuáles ofrecen características que se alinean más estrechamente con sus objetivos creativos. Recuerde asimismo que los servicios varían en cómo usan sus datos.

Todavía: texto a voz con sentimiento: este nuevo maniquí de IA hace todo pero derrama una lamento

Independientemente de la plataforma que termines usando, vigile la velocidad a la que esta tecnología continúa evolucionando. Muy pronto, es probable que vivamos en un mundo harto de voces de IA, y algunos de ellos podrían sonar como el tuyo.

¿Quieres más historias sobre AI? Confirmar Tabla de clasificación de IAnuestro boletín semanal.

Etiquetas
Softwire y aplicaciones

Artículo anterior

Trend Micro confirma la explotación activa de los defectos críticos de Apex One en los sistemas locales

Artículo siguiente

AI recorta cargas de trabajo para VCISO en un 68% a medida que las SMB demandan más: revela un nuevo informe

Probé 3 modelos AI de texto a voz para ver cuál es mejor: escuchar mis resultados

Takeaways de clave de conectamentado

Merienda

Hume ai

Descripción

Consejo de Zdnet

Artículos relacionados

CISA confirma la explotación activa de la vulnerabilidad FileZen CVE-2026-25108

Cómo crear una lista desplegable en Excel en segundos y ahorrar...

SolarWinds parchea 4 fallas críticas de Serv-U 15.5 que permiten la...

DEJA UNA RESPUESTA Cancelar respuesta

Últimos artículos

CISA confirma la explotación activa de la vulnerabilidad FileZen CVE-2026-25108

Cómo crear una lista desplegable en Excel en segundos y ahorrar...

SolarWinds parchea 4 fallas críticas de Serv-U 15.5 que permiten la...

La mejor oferta de AT&T para el Samsung Galaxy S26 Ultra...

Los procesos manuales están poniendo en riesgo la seguridad nacional