19.9 C
Madrid
miércoles, octubre 22, 2025
spot_img
spot_img

CNTXT AI Lanza Munsit: el sistema de reconocimiento de voz en árabe más preciso jamás construido

En un momento esencial para la inteligencia industrial en el idioma árabe, CNTXT AI ha presentado Munsit, un maniquí de agradecimiento de voz en árabe de próxima concepción que no solo es el más preciso quia creado para el árabe, sino que supera decisivamente a los gigantes globales como Openai, Meta, Microsoft y Olevenlabs en compartimentos típico. Desarrollado en los EAU y adaptado para el árabe desde cero, Munsit representa un poderoso paso delante en lo que CNTXT claridad «IA soberana», tecnología construida en la región, para la región, pero con competitividad total.

Las bases científicas de este logro se establecen en el artículo recién publicado del equipo, «Avance del agradecimiento de voz en árabe a través del estudios a gran escalera débilmente supervisado«que introduce un método de entrenamiento escalable y capaz en datos que aborde la escasez de larga data de los datos del deje árabe etiquetados. Ese método, el estudios supervisado con el agitador, ha permitido al equipo construir un sistema que establezca una nueva mostrador para la calidad de la transcripción en el árabe típico actual (MSA) y más de 25 dialectos regionales.

Aventajar la sequía de datos en árabe asr

El árabe, a pesar de ser uno de los idiomas más hablados a nivel mundial y un idioma oficial de las Naciones Unidas, ha sido considerado durante mucho tiempo un idioma de descenso bienes en el campo del agradecimiento del deje. Esto se deriva tanto de su complejidad morfológica como de la errata de conjuntos de datos de deje grandes, diversos y etiquetados. A diferencia del inglés, que se beneficia de innumerables horas de datos de audio transcritos manualmente, la riqueza dialectal del árabe y la presencia digital fragmentada han planteado desafíos significativos para construir sistemas robustos de agradecimiento de voz necesario (ASR).

LEER  Cómo AI está volviendo a dibujar los mapas de electricidad del mundo: ideas del informe de la IEA

En emplazamiento de esperar el proceso gradual y costoso de transcripción manual para alcanzar, CNTXT AI siguió un camino radicalmente más escalable: la supervisión débil. Su enfoque comenzó con un corpus masivo de más de 30,000 horas de audio árabe no etiquetado recolectado de diversas fuentes. A través de una tubería de procesamiento de datos personalizada, este audio en bruto se limpió, segmentó y se etiquetó automáticamente para producir un conjunto de datos de capacitación de 15,000 horas de reincorporación calidad, uno de los corpus de deje árabe más espacioso y representativo quia reunido.

Este proceso no dependía de la anotación humana. En cambio, CNTXT desarrolló un sistema de etapas múltiples para crear, evaluar y filtrar hipótesis de múltiples modelos ASR. Estas transcripciones se transmitieron cruzadas utilizando la distancia de Levenshtein para escoger las hipótesis más consistentes, luego pasaron a través de un maniquí de idioma para evaluar su plausibilidad gramatical. Los segmentos que no cumplieron con los umbrales de calidad definidos se descartaron, asegurando que incluso sin la comprobación humana, los datos de capacitación se mantuvieron confiables. El equipo refinó esta tubería a través de múltiples iteraciones, cada vez que restablecimiento la precisión de la ceremonial al retornar a conectar el sistema ASR y alimentarla nuevamente en el proceso de etiquetado.

Powering Munsit: la inmueble conformador

En el corazón de Munsit se encuentra el maniquí conformador, una inmueble de red neuronal híbrida que combina la sensibilidad restringido de las capas convolucionales con las capacidades de modelado de secuencia total de los transformadores. Este diseño hace que el conformador sea particularmente entendido en el manejo de los matices del jerga hablado, donde tanto las dependencias de dadivoso ámbito (como la estructura de la oración) como los detalles fonéticos de espinilla fino son cruciales.

LEER  Cómo la conducción PHI-4 redefine el razonamiento de la IA al desafiar el mito de "más grande es mejor"

CNTXT AI implementó una gran reforma del conformador, entrenándolo desde cero utilizando espectrogramas MEL de 80 canales como entrada. El maniquí consta de 18 capas e incluye aproximadamente 121 millones de parámetros. El entrenamiento se realizó en un clúster de suspensión rendimiento utilizando ocho GPU A100 NVIDIA con precisión BFLOAT16, lo que permite un manejo capaz de tamaños de lotes masivos y espacios de características de reincorporación dimensión. Para manejar la tokenización de la estructura morfológicamente rica del árabe, el equipo utilizó un tokenizador de oraciones entrenado específicamente en su corpus personalizado, lo que resultó en un vocabulario de 1.024 unidades de subvenciones.

A diferencia del entrenamiento ASR supervisado convencional, que generalmente requiere que cada clip de audio se combine con una ceremonial cuidadosamente transcrita, el método de CNTXT funcionó completamente en etiquetas débiles. Estas etiquetas, aunque más ruidosas que las verificadas humanas, se optimizaron a través de un circuito de feedback que priorizó el consenso, la coherencia gramatical y la plausibilidad léxica. El maniquí fue entrenado utilizando la función de pérdida de clasificación temporal Connectionist (CTC), que es muy adecuada para el modelado de secuencia no afiliado, crítico para tareas de agradecimiento de voz donde el momento de las palabras habladas es variable e impredecible.

Dominando los puntos de relato

Los resultados hablan por sí mismos. Munsit fue probado contra modelos ASR de código destapado y de código destapado en seis conjuntos de datos árabes de relato: SADA, Common Voice 18.0, MASC (honesto y ruidoso), MGB-2 y Casablanca. Estos conjuntos de datos colectivamente abarcan docenas de dialectos y acentos en todo el mundo árabe, desde Arabia Saudita hasta Marruecos.

En todos los puntos de relato, Munsit-1 logró una tasa de error de palabra promedio (WER) de 26.68 y una tasa de error de carácter (CER) de 10.05. En comparación, la lectura de mejor rendimiento de OpenAI’s Whisper registró un promedio de 36.86 y CER de 17.21. La costura de Meta, otro maniquí multilingüe de última concepción, llegó aún más suspensión. Munsit superó a todos los demás sistemas en datos limpios y ruidosos, y demostró una robustez particularmente esforzado en condiciones ruidosas, un ejecutor crítico para aplicaciones del mundo verdadero como centros de llamadas y servicios públicos.

LEER  El surgimiento de las imágenes de IA giblificado: preocupaciones de privacidad y riesgos de datos

La brecha era igualmente marcada contra los sistemas patentados. Munsit superó a los modelos ASR árabe de Microsoft Azure, ElevenLabs Scribe e incluso la función de transcripción GPT-4O de OpenAI. Estos resultados no son ganancias marginales: representan una restablecimiento relativa promedio de 23.19% en WER y 24.78% en CER en comparación con la serie de colchoneta abierta más esforzado, estableciendo Munsit como el claro líder en el agradecimiento de voz árabe.

Una plataforma para el futuro de la voz árabe ai

Si acertadamente Munsit-1 ya está transformando las posibilidades de transcripción, subtitulación y atención al cliente en los mercados de deje árabe, CNTXT AI ve este propagación como el eclosión. La compañía prevé un conjunto completo de tecnologías de voz en jerga árabe, que incluyen texto a voz, asistentes de voz y sistemas de traducción en tiempo verdadero, todos basados ​​en infraestructura soberana e IA regionalmente relevante.

«Munsit es más que un gran avance en el agradecimiento de voz», dijo Mohammad Abu Sheikh, CEO de CNTXT AI. «Es una información que el árabe pertenece a la vanguardia de la IA total. Hemos demostrado que la IA de clase mundial no necesita importarse, se puede construir aquí, en árabe, para el árabe».

Con el surgimiento de modelos específicos de la región como Munsit, la industria de la IA está entrando en una nueva era, una en la que la relevancia filología y cultural no se sacrifica en la búsqueda de la excelencia técnica. De hecho, con Munsit, Cntxt Ai ha demostrado que son lo mismo.

spot_img

Artículos relacionados

spot_img

DEJA UNA RESPUESTA

Por favor ingrese su comentario!
Por favor ingrese su nombre aquí

Últimos artículos