AI builder Thai Text-to-Speech with Tacotron by Prim

รัชสุรางค์ วงศ์กระแสมงคล (พริม)
Ms. Prim Rajasurang Wongkrasaemongkol
- โมเดล Text-to-speech ภาษาไทย open source
- เทรนด้วย dataset TSync2 (AI for Thai ของ NECTEC) จำนวนทั้งหมด 5 ชั่วโมง
- preprocess ข้อมูลด้วยการตัด silence หน้าและหลังเสียงออก
- เทรนด้วยสถาปัตยกรรม Tacotron 2 โดยใช้ open source จาก NVIDIA
- ได้ทำการทดลองเทรน LJSpeech ทั้งแบบ cold start และ warm start ละได้นำ pretrained จาก LJSpeech มา train ภาษาไทยต่อ
- มีการทำการทดลองถึงความแตกต่างระหว่างการใช้ full stop และ ไม่มี full stop
- ได้เทรน model ไปจำนวนทั้งหมด 10,000 steps
- วัดผลด้วย mean opinion score ได้คะแนน 3.13 +- 1.12 โดยเสียงมนุษย์ได้อยู่ที่ 4.3
อ่านรายละเอียดเพิ่มเติม: bit.ly/3jHNuWu
ทดลองใช้บน colab notebook: colab.research.google.com/.......
Github repository: github.com/Prim9000/Thai_TTS
วีดีโอนำเสนอผลงาน (นาทีที่ 0:38:00): fb.watch/v/3a5rzR_Cx/

Пікірлер: 1

  • @ff-tw6wv
    @ff-tw6wv2 ай бұрын

    ใช้gpuรุ่นอะไรเทรนคับ 36epochs 10kstep ของผมใช้ 2060 20epochsกว่าล่อไป20k เลย😂

Келесі