Habibi: Laying the Open-Source Foundation of Unified-Dialectal Arabic Speech Synthesis

Abstract  A notable gap persists in speech synthesis research and development for Arabic dialects, particularly from a unified modeling perspective. Despite its high practical value, the inherent linguistic complexity of Arabic dialects, further compounded by a lack of standardized data, benchmarks, and evaluation guidelines, steers researchers toward safer ground. To bridge this divide, we present Habibi, a suite of specialized and unified text-to-speech models that harnesses existing open-source ASR corpora to support a wide range of high- to low-resource Arabic dialects through linguistically-informed curriculum learning. Our approach outperforms the leading commercial service in generation quality, while maintaining extensibility through effective in-context learning, without requiring text diacritization. We are committed to open-sourcing the model, along with creating the first systematic benchmark for multi-dialect Arabic speech synthesis. Furthermore, by identifying the key challenges in and establishing evaluation standards for the process, we aim to provide a solid groundwork for subsequent research.

Figure 1  Our open-source unified-dialectal model (Habibi) outperforms ElevenLabs' commercial TTS service: the latest Eleven v3 (alpha) (11Labs-3a).
WER-O and WER-S are the word error rates evaluated using Meta Omnilingual-ASR-LLM-7B and dialect-specific ASR models, respectively.

This page is for research demonstration purposes only.

Zero-Shot Speech Synthesis Performance

ID Prompt 11Labs-3a Habibi (Ours)
MSA انتهاكات نجد لها مثيلا في بلد آخر لا صوت يعلو فيه هذه الأيام فوق صوت الرصاص ودوي القذائف والغارات
SAU Najdi

اعزمك انت والاهل كلهم والاسرة الكريمة تجون على ملكة ولدي فهد على بنت اخوي عبد الله ان شاء الله الجمعة الجاية والله يحييكم تشرفونا
Hijazi

سلمى يا حلوة انتي اكتشفتي الحلا بس شميته ما اكلتيه ليه ما اكلتي من الحلويات سلمى
Gulf

اداوم من الصبح وارجع الساعة ثنتين وما بعد الساعة ثنتين هذا وقت ملكي انا بروحي
UAE لا تظنون أن العقل شيء سيء بل على العكس تماما هو أهم ما يملك الإنسان لكن اللي نريد أن نقوله في هذه الحلقة
ALG لكن المشكل تاعو أننا نلقاو هاد لمعالج في هواتف أرخص شوية، هذا فقط العيب اللي فيه لكن هاتف محترم ويستحق الشراء.
IRQ ما معلوم ااا أشقد الوقت بالضبظ لأنه هناك لجان تفتيش راح تجي وراح تبدأ التحقيقات أيضا، فأعتقد يحتاج شوية وقت.
EGY مش عشان يلاقوا يقين يخصها بل عشان زي ما تقولوا كده همّ بيحبوا عدم اليقين، بيرتاحوا في قلة الراحة
MAR أو جوج ملاعق ديال سكر سنيدة غادي نضيفهم على الخليط كيفما كتشوفو معايا

This page is for research demonstration purposes only.