ปัญญาประดิษฐ์อ่านน้ำเสียงคนได้แล้ว "ชุดข้อมูลและโมเดลจำแนกอารมณ์จากเสียงพูดภาษาไทย" ผลงานอาจารย์จุฬาฯ เปิดให้ดาวน์โหลดฟรี

28 May 2021

คณะวิศวฯ และคณะอักษรฯ จุฬาฯ ร่วมพัฒนา "ชุดข้อมูลและโมเดลจำแนกอารมณ์จากเสียงพูดภาษาไทย" ปัญญาประดิษฐ์แยกแยะอารมณ์จากเสียงพูด เปิดให้ดาวน์โหลดฟรี หวังเสริมประสิทธิภาพงานขายและระบบบริการที่ต้องเข้าถึงใจลูกค้า

ปัญญาประดิษฐ์อ่านน้ำเสียงคนได้แล้ว "ชุดข้อมูลและโมเดลจำแนกอารมณ์จากเสียงพูดภาษาไทย" ผลงานอาจารย์จุฬาฯ เปิดให้ดาวน์โหลดฟรี

เทคโนโลยีด้านเสียงก้าวขึ้นไปอีกขั้น จากเดิมที่เราคุ้นเคยกับการใช้เสียงพูดเพื่อป้อนข้อมูลหรือออกคำสั่งกับหุ่นยนต์ปัญญาประดิษฐ์ บังคับการทำงานของอุปกรณ์ภายในรถยนต์หรือระบบบ้านอัจฉริยะ โปรแกรมแปลภาษาหรือถอดคำพูดเป็นตัวอักษรโดยใช้เสียง ฯลฯ ตอนนี้ปัญญาประดิษฐ์ได้รับการพัฒนาให้เข้าใจและจำแนกอารมณ์จากเสียงและตอบสนองข้อมูลด้านความรู้สึกของมนุษย์ผู้สื่อสารได้ดียิ่งขึ้น

โมเดลจำแนกอารมณ์จากเสียงพูดภาษาไทย (Thai Speech Emotion Recognition Model)ปัญญาประดิษฐ์สุดล้ำโดยอาจารย์จุฬาฯ ที่เปิดให้ผู้สนใจดาวน์โหลดเพื่อใช้งานแล้ววันนี้ เป็นฝีมือการทำงานวิจัยข้ามศาสตร์ระหว่าง อ.ดร.เอกพล ช่วงสุวนิช นักวิชาการด้านวิศวกรรมคอมพิวเตอร์จากคณะวิศวกรรมศาสตร์ จุฬาฯ และ ผศ.ดังกมล ณ ป้อมเพชร พร้อมด้วย อ.ภัสสร์ศุภางค์ คงบำรุง สองนักวิชาการด้านศิลปะการละครจากคณะอักษรศาสตร์ จุฬาฯ

"การสร้างปัญญาประดิษฐ์ที่สามารถตีความอารมณ์จากเสียงพูดได้นั้นนำไปพัฒนาต่อยอดได้หลายทาง เช่น ระบบคอลเซ็นเตอร์ที่สามารถประเมินอารมณ์ลูกค้าที่โทรศัพท์เข้ามารับบริการว่ามีอารมณ์เช่นไร โกรธหรือหงุดหงิด แล้วบันทึกความรู้สึกจากน้ำเสียงตลอดการพูดคุยเป็นสถิติได้ว่ามีลูกค้าที่ไม่พอใจการให้บริการจำนวนเท่าใด หรือสร้างเป็นระบบปัญญาประดิษฐ์ที่สามารถแสดงอารมณ์ขณะการสื่อสารกับผู้ใช้ ได้อย่างเป็นธรรมชาติมากขึ้น แทนที่จะพูดด้วยน้ำเสียงเรียบๆ แบบโมโนโทนที่เราคุ้นเคย" อ.ดร.เอกพล เผยเป้าหมายการพัฒนาผลงานซึ่งพัฒนาร่วมกับสถาบันวิทยสิริเมธี (VISTEC) และได้รับการสนับสนุนงบประมาณจากสำนักงานส่งเสริมเศรษฐกิจดิจิทัล (depa) และบริษัท แอดวานซ์ อิน โฟร์ เซอร์วิส (AIS)

คลังข้อมูลเสียงหลากอารมณ์จากนักแสดง
ก่อนจะทำโมเดลจำแนกอารมณ์ จำเป็นต้องมีคลังข้อมูลเสียงเสียก่อน และตรงนี้เองที่ศาสตร์การละครเข้ามาช่วยได้เป็นอย่างดีในการทำชุดข้อมูลจำแนกอารมณ์จากเสียงพูดภาษาไทย (Thai Speech Emotion Dataset)

นักแสดงจำนวน 200 คน ทั้งหญิงและชายเป็นต้นเสียงสื่ออารมณ์ 5 แบบ ได้แก่ อารมณ์โกรธ เศร้า หงุดหงิด สุข และน้ำเสียงยามปกติ โดยนักแสดงแต่ละคนจะบันทึกเสียงที่แสดงอารมณ์ทั้ง 5 อารมณ์ แบบ พูดเดี่ยว และแบบโต้ตอบเป็นบทสนทนา

"เสียงที่นำไปใช้งานได้จะต้องเป็นเสียงที่แสดงอารมณ์จริงเหมือนที่เกิดขึ้นในชีวิตประจำวันของเรา ไม่ใช่การใช้เสียงที่ล้นเกินกว่าอารมณ์ในความเป็นจริง ดังนั้นจึงต้องมีทีมกำกับการแสดงช่วยแนะนำเพื่อให้นักแสดงรู้สึกตามอารมณ์นั้นๆ อย่างแท้จริง" ผศ.ดังกมล เล่ารายละเอียดการบันทึกเสียงเพื่อทำชุดข้อมูล

"นอกจากนี้เมื่อต้องเปลี่ยนเสียงสำหรับบันทึกอารมณ์อีกแบบ แต่อารมณ์ของนักแสดงบางคนยังคง ติดค้างกับอารมณ์เดิมอยู่ ฝ่ายกำกับการแสดงจะทำหน้าที่กำกับอารมณ์ใหม่กระทั่งนักแสดงสื่ออารมณ์นั้นออกมาในน้ำเสียงดูสมจริงที่สุด"

จากน้ำเสียงนักแสดง สู่โมเดลจำแนกเสียงสารพัดอารมณ์

หลังจากเก็บบันทึกเสียงนักแสดงทั้งหมดไว้แล้ว ชุดข้อมูลเสียงจะถูกนำไปสร้างเป็นรูปแบบเสียงของอารมณ์ทั้ง 5 ประเภท เพื่อนำไปพัฒนาเป็นโมเดลจำแนกอารมณ์จากเสียงพูด ซึ่ง อ.ดร.เอกพล นักวิชาการด้านวิศวกรรมคอมพิวเตอร์กล่าวว่ามีความแม่นยำถึง 60-70%

"เรารับรู้อารมณ์ของผู้พูดโดยสังเกตจากองค์ประกอบของเสียงพูด ทั้งน้ำเสียง ความดังของเสียง จังหวะการพูด เสียงสะอื้น เสียงหัวเราะ ปัญญาประดิษฐ์ก็มีลักษณะการทำงานที่คล้ายๆ กันกับการรับรู้อารมณ์ของเรา" อ.ดร.เอกพลอธิบาย

"ปัญญาประดิษฐ์มีหน้าที่แยกเสียงพูดที่ป้อนเข้าไปว่าตรงกับความรู้สึกใด โดยเทียบเคียงกับน้ำเสียงมาตรฐานแต่ละอารมณ์ พอปัญญาประดิษฐ์ได้เรียนรู้จากชุดข้อมูลที่ป้อนให้ ก็จะจับรูปแบบได้ เสียงเศร้า มีระดับเสียงค่อนข้างเบากว่าน้ำเสียงปกติ เสียงมีความสุขก็จะมีเสียงหัวเราะปนอยู่ ขณะที่เสียงโกรธก็จะมีระดับเสียงดังกว่าปกติ"

AI จำแนกอารมณ์ ต่อยอดอย่างไรได้บ้าง
อ.ดร.เอกพล ชี้โอกาสการนำโมเดลจำแนกอารมณ์จากเสียงพูดไปใช้ในหลายประเภทงานตาม แต่จินตนาการของผู้ใช้ว่าต้องการเข้าถึงอารมณ์ผู้พูดเพื่ออะไร

"การนำไปใช้งานไม่จำกัดว่าจะต้องเป็นคนทำงานด้านคอมพิวเตอร์เท่านั้น ต้องมองว่าผู้ใช้อยากเอาการประเมินอารมณ์ไปใช้ทำอะไร เช่น เอาไปใช้ใน call center เพื่อประเมินอารมณ์ลูกค้าที่โทรเข้ามาแล้วอารมณ์เสีย อารมณ์เสียเรื่องอะไรมากที่สุด แล้วก็ไปดูว่าคนที่อารมณ์เสียพูดถึงอะไร หรือนำไปพัฒนาทำให้ อวาตาร์หรือหุ่นยนต์ปัญญาประดิษฐ์ที่เป็นหน้าคนขยับปากพูดได้ ก็ทำให้มีสีหน้าและแสดงอารมณ์ออกมาตอบสนองให้เข้ากับผู้ใช้งานก็ได้"

นอกจากนั้น อ.ดร.เอกพล ยังกล่าวอีกว่า ปัญญาประดิษฐ์แยกอารมณ์จากเสียงยังเป็นประโยชน์ในงานสายด่วนต่างๆ โดยเฉพาะสายด่วนสุขภาพจิต

"ในอนาคต เรามีแผนที่จะพัฒนาเพื่อไปใช้กับสายด่วนสุขภาพจิตกับผู้ป่วยที่มีภาวะซึมเศร้า และนำไปพัฒนาเพื่อให้หุ่นยนต์สามารถตอบสนองทางอารมณ์กับมนุษย์ได้"

โมเดลในอนาคต เพิ่มความหลากหลายทั้งเสียงและอารมณ์
แน่นอน อารมณ์ 5 แบบในฐานข้อมูลย่อมไม่มากและหลากหลายพอต่อการตรวจวัดอุณหภูมิความรู้สึกของมนุษย์ อีกทั้งแต่ละเพศวัยก็แสดงอารมณ์แต่ละแบบแตกต่างกัน โจทย์ใหม่ที่คณะนักวิจัยกำลังเตรียมขยายผลคือการพัฒนาประสิทธิภาพของระบบให้รายงานผลอารมณ์ด้วยความแม่นยำ ครอบคลุมคน ทุกเพศทุกวัย

"ตอนนี้มีแผนที่จะพัฒนาโมเดลปัจจุบันเพื่อให้ใช้งานได้อย่างมีประสิทธิภาพและครอบคลุมกลุ่มคนมากขึ้น เนื่องจากนักแสดงที่มาบันทึกเสียงส่วนใหญ่จะเป็นนิสิตและวัยทำงาน โมเดลจึงอาจจะทำงานไม่ดีหากนำเสียงพูดเด็กและผู้สูงอายุมาใช้ และเนื่องจากทำการบันทึกเสียงในห้องอัด โมเดลจึงอาจจะทำงานได้ไม่ดีเท่าที่ควรในกรณีที่มีเสียงรอบข้างรบกวน" อ.ดร.เอกพล กล่าว

ชุดข้อมูลจำแนกอารมณ์จากเสียงพูดภาษาไทย และโมเดลจำแนกอารมณ์จากเสียงพูดภาษาไทยเปิดให้ทดลองใช้ฟรีแล้ว โดยดาวน์โหลดผ่านเว็บไซต์สถาบันวิจัยปัญญาประดิษฐ์ประเทศไทย (AI Research) https://airesearch.in.th/releases/speech-emotion-dataset/