AI Genius Academy

แหล่งเรียนรู้เเจาะลึกรื่อง AI สำหรับทุกคน

ข่าวสาร AI รอบโลก

เอไอฟื้นอักษรจีนโบราณ เสริมภาพ-ข้อความ คืนชีวิตจารึกเสื่อมสภาพ

ถ้าพูดถึง จารึกจีนโบราณ หลายคนอาจนึกถึงความเก่าแก่ที่หลงเหลือในวัฒนธรรมจีน แต่รู้ไหมว่าของพวกนี้ชอบโดนกัดกร่อนตามกาลเวลา แถมบางทีโดนความเสียหายจากคนอีก ทำให้พระเอกของเราอย่างจารึกหลายชิ้นถูกทำลายจนอ่านไม่ออก หรือบางตัวหายไป แบบนี้ข้อมูลก็สู้มือไม่ได้เลย

โชคดีที่ปัจจุบันเราไม่ต้องพึ่งฝีมือมนุษย์อย่างเดียว เพราะมีพวก เทคโนโลยี deep learning ที่ออกแบบมาเพื่ออ่านภาพและข้อความได้ดีมาก งานวิจัยนี้เลยเอาไอเดียการใช้โมเดล AI มาผสมผสานทั้งระบบ ประมวลผลภาษาธรรมชาติ (NLP) และ คอมพิวเตอร์วิชั่น (CV) เพื่อทำนายและฟื้นฟูตัวอักษรที่เสียหายในจารึกเก่าๆ ดูแล้วเก๋มากเลยล่ะ

จุดเริ่มต้นของการฟื้นฟูจารึกจีนโบราณ

จารึกจีนโบราณนี่คือแหล่งข้อมูลทางประวัติศาสตร์ที่ล้ำค่า แต่ตอนนี้หลายชิ้นโดนสภาพแวดล้อมกัดกร่อน หรือบางทีก็โดนมนุษย์ทำลาย สุดท้ายเลยมีตัวอักษรเลือนลาง หายไป หรือเสียหายพอสมควร เช่นในข้อมูลจากลั่วหยางที่บอกว่าอักษรเสียหายถึง 34% เลยนะ

การซ่อมแซมด้วยมือแบบเดิมมันก็ต้องอาศัยคนเก่งจริงๆ ซึ่งก็จะมีข้อจำกัดเรื่องเวลาและความแม่นยำ เทคโนโลยี deep learning กับ computer vision เลยเป็นทางออกที่น่าสนใจ เพราะพวกนี้สามารถเรียนรู้และช่วยแก้ไขภาพที่มีข้อมูลหายหรือเสียหายได้ดีขึ้นเรื่อยๆ

เทคโนโลยีเสริมการฟื้นฟูจารึก

  • Machine learning คือสาขาย่อยของ AI ที่เน้นให้คอมพิวเตอร์มีไหวพริบเหมือนมนุษย์
  • Deep learning ใช้โครงข่ายประสาทเทียมหลายชั้น ทำให้จับรูปแบบซับซ้อนได้ดีมากขึ้น
  • โมเดลที่นิยมใช้ประมวลผลตัวหนังสือที่เสียหายคือ Transformer อย่าง BERT หรือ RoBERTa ซึ่งทำงานกับข้อความได้ยอดเยี่ยม
  • มีโมเดลฟื้นฟูจารึกโบราณ เช่น Pythia และ Ithaca สำหรับจารึกกรีกโบราณ ได้ผลดีจนเหนือกว่าเซียนเลยทีเดียว
  • สำหรับจารึกจีนโบราณ มี SikuBERT และ SikuRoBERTa ที่พัฒนามาเฉพาะสำหรับภาษาจีนแบบเก่าและอักษรดั้งเดิม
  • ด้านภาพ ใช้โมเดลแบบ CNN, GAN หรือ Transformer เพื่อช่วยฟื้นฟูรูปภาพตัวอักษรที่เสียหาย เช่น GLC-GAN และ EA-GAN ที่สร้างภาพสมจริงและเติมส่วนที่ขาด
  • Swin Transformer เป็นโมเดลภาพขั้นเทพที่ช่วยจำแนกรูปร่างตัวอักษรได้แม่น

แนวทางทำงานของโมเดลในงานวิจัยนี้

พวกเขาเลือกใช้โมเดล NLP ชื่อ CIRoBERTa ที่พัฒนาต่อยอดจาก SikuRoBERTa ซึ่งถูกออกแบบมาสำหรับจารึกจีนโดยเฉพาะ พร้อมกับเพิ่มคำศัพท์ใหม่กว่า 757 ตัวให้ครอบคลุม

ส่วนด้านภาพ เลือกใช้ CISwin ซึ่งเป็น Swin Transformer สำหรับการตรวจจับรูปร่างตัวอักษรในภาพที่เสียหาย

พวกเขาก็เตรียมข้อมูลทั้งข้อความและภาพกันแบบละเอียด ทุ่มเทเพิ่มข้อมูลด้วยการจำลองสภาพการเสียหาย เช่น ขีดข่วน คราบ หรือเบลอ เพื่อให้โมเดลเรียนรู้สถานการณ์จริงได้ดีขึ้น

เวลาฟื้นฟู ระบบจะให้โมเดล NLP ทำนายตัวอักษรที่น่าจะขาดไปในแต่ละจุด จากนั้นจะใช้โมเดล CV มาช่วยดูภาพตัวอักษรเหลืออยู่เพื่อช่วยปรับและเลือกผลลัพธ์ที่มี f1_score ดีที่สุด

การเตรียมข้อมูลสำหรับฝึกโมเดล

  • ข้อมูลมาจากจารึกหลากหลายประเภท ทั้งโลหะ หิน แท่งสตีล รวมถึงจารึกบนวัตถุอื่นอย่างผนึกหรือกระดูกสัตว์
  • ลบเครื่องหมายวรรคตอนทิ้ง เพราะจารึกจีนโบราณไม่มีเครื่องหมายพวกนี้
  • ทำเครื่องหมายตัวอักษรที่สึกหรอหรือหายไปอย่างระมัดระวัง
  • ใช้ MX-Font สร้างฟอนต์จีนสไตล์เก่าๆ แบบก้าซู่, ซิงซู่, เฉ่าซู่ เพื่อเพิ่มความหลากหลาย
  • เสริมข้อมูลภาพด้วยการจำลองความเสียหายหลายรูปแบบ เพื่อให้โมเดลเรียนรู้สถานการณ์จริงจากภาพที่เละเทะ

ผลลัพธ์ที่น่าสนใจจากงานวิจัย

  • โมเดล NLP CIRoBERTa สร้าง perplexity ได้ต่ำมากที่ 1.35 แปลว่าพยากรณ์ข้อความสมจริงและแม่นยำ
  • โมเดล CV CISwin ทำความแม่นยำ (accuracy) ได้ประมาณ 86% สำหรับรู้จำภาพตัวอักษร
  • เมื่อเทียบกับโมเดลเดิมๆ อย่าง Chinese-RoBERTa, GuwenBERT, SikuRoBERTa และโมเดลภาพอย่าง ResNet101, ViT งานวิจัยนี้พัฒนาขึ้นมาได้ดีกว่าอย่างชัดเจน
  • ตัวอย่างการฟื้นฟูจารึกจริงแสดงให้เห็นว่าเทคนิคนี้สามารถทำนายตัวอักษรที่หายไปได้แม่นยำ และเติมเต็มส่วนภาพให้สมบูรณ์ขึ้น

ทำไมงานวิจัยนี้ถึงเด็ด และคิดไปใช้กับธุรกิจหรือคอนเทนต์ของเราได้ยังไง

ด้วยความที่โมเดลถูกเฉพาะทางมาเลย จึงถอดรหัสตัวอักษรจีนโบราณได้ดีมาก แถมยังผสานความฉลาดจากทั้งการอ่านภาษาและวิเคราะห์ภาพเข้าด้วยกัน ทำให้ฟื้นฟูข้อมูลเก่าๆ ได้แม่นกว่าการใช้เทคนิคใดเทคนิคหนึ่งเพียงอย่างเดียว

อีกอย่างคือ เทคโนโลยีเหล่านี้ช่วยลดเวลาและต้นทุนของการซ่อมแซมจารึกแบบแมนนวลลงไปเยอะมาก ใครทำธุรกิจเกี่ยวกับการเก็บรักษาข้อมูลหรือวัฒนธรรมโบราณ หรือเนื้อหาเกี่ยวกับประวัติศาสตร์ ก็เอาไปต่อยอดได้เลย

นอกจากนี้ ยังเปิดโอกาสให้คนที่อยากทำ content สไตล์ศิลปะโบราณหรือวัฒนธรรม ได้ใช้ AI มาช่วยสร้างงานใหม่ๆ ที่ดูสมจริงกับต้นฉบับมากขึ้น ซึ่งน่าสนใจมากสำหรับคนที่อยากลุยตลาด digital heritage หรือธุรกิจที่เกี่ยวกับการอนุรักษ์

แน่นอนว่ายังมีข้อจำกัดอยู่บ้าง เช่น จำนวนข้อมูลจารึกที่มีไม่เยอะเท่าไหร่ หรือรายละเอียดฟอนต์บางแบบที่ยังไม่ครอบคลุม แต่ก็เป็นจุดที่ทีมงานบอกว่าจะพัฒนาต่อ และยังมีไอเดียจะใช้เทคนิค RAG ใน NLP เพื่อช่วยลดคำตอบมั่วๆ (hallucination) ทำให้ข้อมูลฟื้นฟูมีความน่าเชื่อถือ