ระบบย่อความอัตโนมัติ โปรแกรมสรุปย่อข่าวออนไลน์ รางวัลเหรียญทองเกียรติยศเจนีวา

05 Jun 2015

ในทุก ๆ วันมีข่าวและบทความต่าง ๆ มากมายเผยแพร่บนเว็บไซต์ที่ช่วยให้ผู้สนใจสามารถอ่านข่าวออนไลน์ได้ทุกที่ทุกเวลา และสามารถค้นหารายละเอียดของเหตุการณ์หรือกิจกรรมที่เกิดขึ้นได้อย่างสะดวก อย่างไรก็ตาม ด้วยปริมาณข้อมูลที่มีจำนวนมากบนเว็บไซต์ก็อาจทำให้การค้นหาข้อมูลต้องใช้เวลาในการอ่าน รวมถึงการจับใจความว่า ข่าวหรือข้อมูลต่างๆ นั้นมีความเหมือน ความคล้าย หรือความแตกต่างกันในข้อเท็จจริงอย่างไร ซึ่งอาจมีผู้อ่านสับสนหรือต้องใช้เวลามากในการจับประเด็นของสถานการณ์นั้น เพื่อแก้ปัญหาดังกล่าว จึงเกิดการพัฒนา “ระบบย่อความเชิงความหมายจากเอกสารภาษาไทยหลายเอกสารแบบอัตโนมัติ”ขึ้น เพื่อช่วยให้ผู้ใช้ได้อ่านข่าวแบบสรุปย่อเพื่อประหยัดเวลาและรับรู้ความแตกต่างของข่าวจากต่างสำนักพิมพ์และหลายเอกสารแบบอัตโนมัติ ผลงานนี้พัฒนาโดย โดย ศาสตราจารย์ ดร.ธนารักษ์ ธีระมั่นคงสถาบันเทคโนโลยีนานาชาติสิรินธร มหาวิทยาลัยธรรมศาสตร์ พร้อมด้วย ดร.นงนุช เกตุ้ย มหาวิทยาลัยเทคโนโลยีราชมงคลล้านนา น่านดร.ณัฐพงศ์ ทองเทพ มหาวิทยาลัยสงขลานครินทร์ วิทยาเขตภูเก็ตดร.ณิชนันทน์ กิตติพัฒนบวร มหาวิทยาลัยวลัยลักษณ์ (WU) และ ดร.กอบกฤษณ์ วิริยะยุทธกร สถาบันเทคโนโลยีนานาชาติสิรินธร มหาวิทยาลัยธรรมศาสตร์

การทำงานของระบบย่อความฯ อัตโนมัติ จะนำเอกสารข่าวภาษาไทยจากหลายแหล่งมาหาความสัมพันธ์เพื่อจัดว่า ข่าวชุดใดเป็นข่าวเดียวกันแต่ต่างสำนักพิมพ์ ข่าวชุดใดเป็นข่าวที่นำเสนอต่อเนื่องกัน ข่าวชุดใดมีความสัมพันธ์เชิงความหมายแต่ไม่ได้เป็นข่าวเดียวกัน จากนั้นทำการกำกับคำด้วยชนิดข้อมูล (Part of speech) และนิพจน์ระบุนาม (Named Entities) เพื่อให้ทราบว่า ใคร ทำอะไร กับใคร ที่ไหน เมื่อใดเวลาใด รวมถึงนำไปใช้วิเคราะห์สำหรับแบ่งหน่วยข้อความ เรียกว่า หน่วยข้อความภาษาไทย (Thai Elementary Discourse Unit: TEDU) เนื่องจากธรรมชาติของข้อความภาษาไทยไม่สามารถกำหนดขอบเขตสิ้นสุดของประโยคที่ชัดเจนได้ ซึ่งต้องอาศัยนิยามหน่วยข้อความภาษาไทยและกฏที่เรียนรู้จากการแบ่งหน่วยข้อความจากมนุษย์ เพื่อช่วยให้แบ่งข้อความภาษาไทยให้เป็นอัตโนมัติ หลังจากนั้น จึงใช้หลักการทางสถิติเพื่อคำนวณหาค่าความสำคัญของหน่วยข้อความ/วลี/ประโยค แล้วทำการเลือกและเชื่อมหน่วยข้อความ/วลี/ประโยค ที่มีความสำคัญ เพื่อนำไปสู่การสรุปความข่าว โดยวิธีการสรุปความนั้นจะพิจารณาถึงความเหมือน ความต่างของข้อมูล ตัดความซ้ำออกไป ตัดส่วนเสริมที่ไม่สำคัญ และนำใจความสำคัญที่เหลือเหล่านั้นมาปะติดปะต่อกัน แล้วทำเป็นสรุปข่าวขึ้น

นอกจากข่าวสารต่าง ๆ เหล่านี้ ระบบย่อความฯ อัตโนมัติยังสามารถผสมผสานร่วมกับข้อมูลออนไลน์ประเภทอื่นได้ เช่น แหล่งจัดพิมพ์ เช่น Wikipedia, Blogging, Microblogging เครือข่ายสังคม เช่น Facebook, LinkedIn บทวิจารณ์เว็บ ความคิดเห็นและการจัดอันดับสินค้าและบริการ เช่น agoda, foursquare โซเชียลบุ๊กมาร์ก เช่น Delicious.com, StumbleUpon.com การแบ่งปันสื่อ เช่น YouTube, Flicker, Picasa, Scribd การถามตอบและเอฟเอคิว เช่น WikiAnswers, Yahoo Answers เป็นต้น

“ผลการวิจัยครั้งนี้ยังสามารถนำไปต่อยอดและประยุกต์ใช้ในการสรุปความคิดเห็นจำนวนมากที่รวบรวมได้จากประชาชน เพื่อสังเคราะห์ประเด็นข้อเสนอแนะการปฏิรูป โดยความคิดเห็นและข้อเสนอแนะของประชาชนเพื่อการปฏิรูปและการจัดทำร่างรัฐธรรมนูญอยู่ภายใต้ประเด็นปฏิรูปทั้งหมด 18 ประเด็น การดำเนินการเริ่มจากการรวบรวมข้อมูลที่ได้จากการรับฟังความคิดเห็นจากประชาชนจากการจัดเวทีปฏิรูป และความคิดเห็นของประชาชนที่เสนอโดยตรงต่อสภาปฏิรูปแห่งชาติ ผ่านช่องทางต่าง ๆ เช่นไปรษณีย์ โทรศัพท์/โทรสาร Call center รวมทั้งสื่อออนไลน์อย่าง Website Email Facebook Line เป็นต้น แล้วนำมารวบรวมจัดเก็บให้เป็นระบบในฐานข้อมูลที่สามารถรายงานสรุปผลภาพรวมในแต่ละประเด็นและคำสำคัญต่าง ๆ ที่มาจากการรับฟังความคิดเห็นของประชาชน โดยใช้เทคนิคการสกัดคำสำคัญเพื่อค้นหาข้อคิดเห็นเชิงความหมายเชิงอัตโนมัติและอาศัยหลักการคำนวนเชิงสถิติเพื่อพิจารณาความสำคัญของคำ เพื่อนำข้อมูลนั้นมาวิเคราะห์เข้าสู่การสังเคราะห์ประเด็นการปฏิรูป และการออกแบบจัดทำรายงานผลการสังเคราะห์ข้อมูลข้อเสนอแนะต่างๆ ให้ชัดเจนยิ่งขึ้น” ศ.ดร.ธนารักษ์ ธีระมั่นคง กล่าวโดยสรุป

จากภาพ: ศ.ดร.ธนารักษ์ ธีระมั่นคง และนักวิจัยผู้พัฒนา “ระบบย่อความเชิงความหมายจากเอกสารภาษาไทยหลายเอกสารแบบอัตโนมัติ” สิ่งประดิษฐ์รางวัลเหรียญทองเกียรติยศจากการประกวดสิ่งประดิษฐ์นานาชาติที่เจนีวา

ฝากข่าวประชาสัมพันธ์?

ติดต่อเราได้ที่ facebook.com/newswit