อาจารย์วิศวฯ จุฬาฯ ออกแบบ “Gowajee” (โก วา จี) นวัตกรรม AI ถอดความภาษาไทย แปลงเสียงเป็นข้อความและข้อความเป็นเสียง พร้อมเก็บข้อมูลปลอดภัย เริ่มใช้งานแล้วกับระบบคอลเซ็นเตอร์และการคัดกรองผู้ป่วยซึมเศร้า
ทุกวันนี้เราเริ่มคุ้นชินกับการใช้เสียงออกคำสั่งหรือบอกให้โปรแกรม AI (Artificial Intelligence หรือ ปัญญาประดิษฐ์) อย่าง Google หรือ Siri เพื่อค้นหาหรือทำงานตามที่เราต้องการ แทนการสัมผัสแป้นพิมพ์อักษร แต่ AI voice เหล่านั้น ดูเหมือนจะไม่ค่อยเข้าใจโทนเสียงภาษาไทยที่เราพูดมากนัก เพราะถูกพัฒนามาจากบริษัทต่างชาติ ซึ่งเน้นการใช้งานกับหลายภาษาโดยเฉพาะภาษาสากล เช่น ภาษาอังกฤษ หลายครั้งก็แปลงเสียงเป็นข้อความที่ไม่ตรง ทำให้เราต้องปรับการออกเสียงภาษาไทยเพื่อให้เข้ากับ AI
จากปัญหาดังกล่าว อาจารย์ ดร.เอกพล ช่วงสุวนิช อาจารย์ภาควิชาวิศวกรรมคอมพิวเตอร์ คณะวิศวกรรมศาสตร์ จุฬาลงกรณ์มหาวิทยาลัย และทีมได้พัฒนา AI สัญชาติไทยแท้ “Gowajee” ( โก-วาจี) ที่เข้าใจภาษาไทยโดยเฉพาะ เพื่อตอบโจทย์การถอดความภาษาไทยที่แม่นยำและเป็นธรรมชาติมากขึ้น พิสูจน์ผ่านการใช้งานจริงแล้วว่ามีข้อผิดพลาดทางภาษาเพียง 9 % เท่านั้นเมื่อเทียบกับ AI ถอดความอื่นๆ ที่มีความผิดพลาดราว 15 %
ดร.เอกพล และทีมงานของคณะวิศวกรรมศาสตร์ จุฬาลงกรณ์มหาวิทยาลัย ได้เริ่มเก็บฐานข้อมูลเสียงภาษาไทยมาตั้งแต่ปี 2560 จนปัจจุบัน โดยเก็บข้อมูลเสียงภาษาไทยหลายรูปแบบและวิธีการมีทั้งเปิดเว็บไซต์ให้คนเข้ามาอ่านข้อความเพื่อเก็บฐานข้อมูลเสียง จ้างคนมานั่งสนทนากัน หรือจ้างนักแสดงมาพูดสื่อสารอารมณ์ ทั้งหมดรวมแล้วกว่า 5,000 ชั่วโมง จนมั่นใจว่ามีข้อมูลมากเพียงพอในการถอดความภาษาไทยได้อย่างแม่นยำ โดยการค้นความหมายในเสียง ทั้งนี้จากการเก็บข้อมูลเสียงที่สื่ออารมณ์ต่าง ๆ ทีม Gowajee ได้เข้าไปมีสวนช่วยพัฒนาระบบของแอปพลิเคชัน DMIND ที่ทำหน้าที่ช่วยคัดกรองผู้ป่วยโรคซึมเศร้า โดยทีมวิจัย Gowajee สามารถจำแนกอารมณ์จากเสียงพูด เพื่อนำไปวิเคราะห์คัดกรองกลุ่มเสี่ยงทำให้สามารถจับคำสำคัญออกมาได้
ดร.เอกพล กล่าวอีกว่า Gowajee สามารถประยุกต์ใช้งานได้ 3 ลักษณะสำคัญ ได้แก่
1. Automated Speech Recognition (ASR) เป็นการทำงานในลักษณะของการถอดความ แปลงคำพูด ออกมาเป็นข้อความ โดยมีจุดเด่นที่สามารถถอดความภาษาไทยปนอังกฤษได้เป็นอย่างดี
2. Text-to-Speech (TTS) เป็นการทำงานในลักษณะของการแปลงข้อความให้เป็นเสียงพูด ซึ่งทาง Gowajee มีกระบวนการสร้างเสียงจำเพาะ ที่มีความสมจริง
3. Automatic Speaker Verification (ASV) เป็นการยืนยันตัวตนผู้พูดด้วยเสียง ซึ่งสามารถนำมาใช้เพื่อยืนยันตัวตนในการติดต่อกับคอลเซ็นเตอร์ หรือนำมาใช้เพื่อบ่งบอกว่าใครพูดเมื่อใด
นอกจากนี้ Gowajee ยังเน้นเรื่องความปลอดภัยของข้อมูล โดยข้อมูลที่ใช้บริการจะถูกเก็บอยู่ในฐานข้อมูลของผู้ใช้เอง ไม่ได้เก็บไว้บนคลาวด์ (Cloud) หรือทำการประมวลผลข้อมูลที่คอมพิวเตอร์ของผู้ให้บริการ สร้างความอุ่นใจกับธุรกิจที่ต้องการความปลอดภัยของข้อมูล เช่น ธุรกิจจำพวกธนาคารหรือประกันภัย