We introduce LatinX, a multilingual speech-to-speech/voice-cloning system that preserves a speaker’s vocal identity across languages. The model is aligned using Direct Preference Optimization (DPO), which significantly improves intelligibility (lower WER) and voice preservation in human judgments.
Apresentamos o LatinX, um sistema multilíngue de fala-para-fala/clonagem de voz que preserva a identidade vocal do falante entre idiomas. O modelo é alinhado com Direct Preference Optimization (DPO), melhorando significativamente a inteligibilidade (WER menor) e a preservação de voz em avaliações humanas.
Showcase: One Voice, Six Languages (EN prompt)
Demonstração: Uma voz, seis idiomas (prompt EN)
Single English reference → outputs in EN/PT/ES/FR/IT/RO. Notice the consistent voice timbre.
Uma referência em inglês → saídas em EN/PT/ES/FR/IT/RO. Note a consistência do timbre.
Showcase: One Voice, Six Languages (PT prompt)
Demonstração: Uma voz, seis idiomas (prompt PT)
Single Portuguese reference → outputs in EN/PT/ES/FR/IT/RO.
Uma referência em português → saídas em EN/PT/ES/FR/IT/RO.
Audio Demonstrations
1) Intelligibility — very low WER
The DPO alignment provides a substantial, consistent
reduction in WER. Below are two pairs from a low-resource
source (Romanian).
Note: include short transcripts
near each audio if feasible.
2) Voice Similarity — preferred by human listeners
Objective metrics can miss perceptual similarity. In our tests, listeners consistently preferred LatinX for voice preservation.
English (en → en)
Spanish (es → es)
French (fr → fr)
Italian (it → it)
Portuguese (pt → pt)
Romanian (ro → ro)
3) Naturalness — competitive cross-lingual synthesis
Abstract
Resumo
We introduce LatinX, a multilingual speech-to-speech translation system capable of generating audio in a target language while preserving the original speaker's voice characteristics. Our approach utilizes a decoder-only Transformer model that synthesizes discrete audio tokens conditioned on phonetic and acoustic prompts. We detail a three-stage training strategy: initial pre-training for text-to-audio mapping, supervised fine-tuning for voice cloning, and a final alignment stage using Direct Preference Optimization (DPO). The DPO stage refines the model by learning from a preference dataset automatically labeled based on Word Error Rate (WER) and speaker similarity metrics, significantly enhancing both intelligibility and voice preservation.
Apresentamos o LatinX, um sistema multilíngue de fala-para-fala capaz de gerar áudio no idioma-alvo preservando as características da voz do falante original. Nossa abordagem utiliza um Transformer somente-decodificador que sintetiza tokens de áudio discretos condicionados por prompts fonéticos e acústicos. Detalhamos três estágios de treinamento: (i) pré-treino para mapeamento texto→áudio, (ii) fine-tuning supervisionado para clonagem de voz e (iii) alinhamento por preferências via Direct Preference Optimization (DPO). O estágio de DPO refina o modelo a partir de um conjunto de preferências rotulado automaticamente com base em WER e métricas de similaridade de locutor, melhorando significativamente a inteligibilidade e a preservação de voz.
Supplementary Data
Dados Suplementares
Detailed cross-lingual results, including full Word Error Rate (WER) and Similarity MOS (SMOS) matrices, are available on a separate page for detailed analysis.
Resultados detalhados, incluindo as matrizes completas de Word Error Rate (WER) e Similarity MOS (SMOS), estão disponíveis em uma página separada para análise.
Download all samples
Baixar todos os áudios
A single ZIP with the exact same files used in this page.
Um único ZIP com os mesmos arquivos desta página.
Consent & Licensing
Consentimento & Licenças
Reference utterances are shown for research demo purposes; subjective ratings were collected via a controlled web interface following ITU-T P.808 guidance. Please cite the paper when reusing these samples academically.
As falas de referência são exibidas apenas para fins de demonstração científica; as avaliações subjetivas foram coletadas por uma interface web controlada, seguindo as recomendações da ITU-T P.808. Por favor, cite o trabalho ao reutilizar estas amostras em contexto acadêmico.
How to Cite
Como Citar
@misc{chary2025latinxaligningmultilingualtts, title = {LatinX: Aligning a Multilingual TTS Model with Direct Preference Optimization}, author = {Luis Felipe Chary and Miguel Arjona Ramirez}, year = {2025}, eprint = {2509.05863}, archivePrefix= {arXiv}, primaryClass = {cs.CL}, "url": "https://arxiv.org/abs/2509.05863", "sameAs": ["https://arxiv.org/abs/2509.05863"] }