LatinX: Aligning a Multilingual TTS Model with Direct Preference Optimization

LatinX: Alinhando um Modelo TTS Multilíngue com DPO

Luís Felipe Chary & Miguel Arjona Ramírez
Universidade de São Paulo

Language:

We introduce LatinX, a multilingual speech-to-speech/voice-cloning system that preserves a speaker’s vocal identity across languages. The model is aligned using Direct Preference Optimization (DPO), which significantly improves intelligibility (lower WER) and voice preservation in human judgments.

Apresentamos o LatinX, um sistema multilíngue de fala-para-fala/clonagem de voz que preserva a identidade vocal do falante entre idiomas. O modelo é alinhado com Direct Preference Optimization (DPO), melhorando significativamente a inteligibilidade (WER menor) e a preservação de voz em avaliações humanas.

Showcase: One Voice, Six Languages (EN prompt)

Demonstração: Uma voz, seis idiomas (prompt EN)

Single English reference → outputs in EN/PT/ES/FR/IT/RO. Notice the consistent voice timbre.

Uma referência em inglês → saídas em EN/PT/ES/FR/IT/RO. Note a consistência do timbre.

Reference (English, source prompt)

LatinX (DPO) — Target: English
LatinX (DPO) — Target: Spanish (Español)
LatinX (DPO) — Target: French (Français)
LatinX (DPO) — Target: Italian (Italiano)
LatinX (DPO) — Target: Portuguese (Português)
LatinX (DPO) — Target: Romanian (Română)

Showcase: One Voice, Six Languages (PT prompt)

Demonstração: Uma voz, seis idiomas (prompt PT)

Single Portuguese reference → outputs in EN/PT/ES/FR/IT/RO.

Uma referência em português → saídas em EN/PT/ES/FR/IT/RO.

Reference (Portuguese, source prompt)

LatinX (DPO) — Target: English
LatinX (DPO) — Target: Spanish (Español)
LatinX (DPO) — Target: French (Français)
LatinX (DPO) — Target: Italian (Italiano)
LatinX (DPO) — Target: Portuguese (Português)
LatinX (DPO) — Target: Romanian (Română)

Audio Demonstrations

1) Intelligibility — very low WER

The DPO alignment provides a substantial, consistent reduction in WER. Below are two pairs from a low-resource source (Romanian).
Note: include short transcripts near each audio if feasible.

Romanian → Spanish see Table 2 (WER)

Reference (ro, source prompt)
LatinX (DPO) output (es)

Romanian → Portuguese see Table 2 (WER)

Reference (ro, source prompt)
LatinX (DPO) output (pt)

2) Voice Similarity — preferred by human listeners

Objective metrics can miss perceptual similarity. In our tests, listeners consistently preferred LatinX for voice preservation.

English (en → en)

Reference voice
LatinX (DPO) output

Spanish (es → es)

Reference voice
LatinX (DPO) output

French (fr → fr)

Reference voice
LatinX (DPO) output

Italian (it → it)

Reference voice
LatinX (DPO) output

Portuguese (pt → pt)

Reference voice
LatinX (DPO) output

Romanian (ro → ro)

Reference voice
LatinX (DPO) output

3) Naturalness — competitive cross-lingual synthesis

Spanish → Portuguese see Table 6 (MOS)

Original Spanish speaker
LatinX (fine-tuned) output (pt)

Abstract

Resumo

We introduce LatinX, a multilingual speech-to-speech translation system capable of generating audio in a target language while preserving the original speaker's voice characteristics. Our approach utilizes a decoder-only Transformer model that synthesizes discrete audio tokens conditioned on phonetic and acoustic prompts. We detail a three-stage training strategy: initial pre-training for text-to-audio mapping, supervised fine-tuning for voice cloning, and a final alignment stage using Direct Preference Optimization (DPO). The DPO stage refines the model by learning from a preference dataset automatically labeled based on Word Error Rate (WER) and speaker similarity metrics, significantly enhancing both intelligibility and voice preservation.
Apresentamos o LatinX, um sistema multilíngue de fala-para-fala capaz de gerar áudio no idioma-alvo preservando as características da voz do falante original. Nossa abordagem utiliza um Transformer somente-decodificador que sintetiza tokens de áudio discretos condicionados por prompts fonéticos e acústicos. Detalhamos três estágios de treinamento: (i) pré-treino para mapeamento texto→áudio, (ii) fine-tuning supervisionado para clonagem de voz e (iii) alinhamento por preferências via Direct Preference Optimization (DPO). O estágio de DPO refina o modelo a partir de um conjunto de preferências rotulado automaticamente com base em WER e métricas de similaridade de locutor, melhorando significativamente a inteligibilidade e a preservação de voz.

Supplementary Data

Dados Suplementares

Detailed cross-lingual results, including full Word Error Rate (WER) and Similarity MOS (SMOS) matrices, are available on a separate page for detailed analysis.

Resultados detalhados, incluindo as matrizes completas de Word Error Rate (WER) e Similarity MOS (SMOS), estão disponíveis em uma página separada para análise.

View Detailed Results Ver Resultados Detalhados

Download all samples

Baixar todos os áudios

A single ZIP with the exact same files used in this page.

Um único ZIP com os mesmos arquivos desta página.

latinx_samples.zip

How to Cite

Como Citar

@misc{chary2025latinxaligningmultilingualtts,
  title        = {LatinX: Aligning a Multilingual TTS Model with Direct Preference Optimization},
  author       = {Luis Felipe Chary and Miguel Arjona Ramirez},
  year         = {2025},
  eprint       = {2509.05863},
  archivePrefix= {arXiv},
  primaryClass = {cs.CL},
  "url": "https://arxiv.org/abs/2509.05863",
  "sameAs": ["https://arxiv.org/abs/2509.05863"]
}