ข้อมูลเป็นทรัพยากรสำคัญสำหรับฝึก ปัญญาประดิษฐ์ (AI) และ การเรียนรู้ของเครื่องจักร (ML) ทุกคนลองนึกว่ากำลังฝึก AI ให้รู้จักใบหน้ามนุษย์ แต่แทนที่เราจะต้องใช้ภาพถ่ายนับล้านจากคนจริง ๆ เอามาฝึก ซึ่งอาจมีปัญหาด้านความเป็นส่วนตัว เราก็สามารถสร้าง "ข้อมูลสังเคราะห์" หรือ "Synthetic Data" ที่เลียนแบบภาพใบหน้ามนุษย์ขึ้นมาเองได้ ข้อมูลเหล่านี้ถูกสร้างขึ้นจาก อัลกอริธึม (Algorithm) และโมเดลจำลอง โดยยังคงความสมจริง และสามารถใช้ฝึก AI ได้ประสิทธิภาพดีเช่นกัน
Synthetic Data กลายเป็น เครื่องมือสำคัญในการพัฒนา AI ไม่ว่าจะเป็นการเข้ามาแก้ปัญหาข้อมูลที่ไม่เพียงพอ, ลดอคติ (Bias) ในโมเดล และที่สำคัญคือหลีกเลี่ยงปัญหาด้านความเป็นส่วนตัวของข้อมูล ในบทความนี้ จะพาทุกคนไปรู้จักกับ Synthetic Data ให้ลึกขึ้น ไม่ว่าจะเป็นความหมาย , ประเภท , วิธีการสร้างข้อมูล , ข้อดี-ข้อสังเกต ไปจนถึงการใช้งานจริง เพื่อให้เข้าใจว่าทำไมมันถึงกลายเป็นปัจจัยสำคัญต่อโลกของ AI อย่างหลีกเลี่ยงไม่ได้ ...
ปัจจุบันโลกขับเคลื่อนด้วยข้อมูล องค์กร และนักวิจัยมักต้องการข้อมูลจำนวนมากเพื่อพัฒนาโมเดล AI และระบบอัจฉริยะต่าง ๆ แต่การไปเก็บรวบรวมข้อมูลจริงอาจมีข้อจำกัดอยู่บ้าง เช่น ต้องใช้ต้นทุนสูง, ใช้เวลานาน หรือมีกฎหมายคุ้มครองข้อมูลส่วนบุคคลที่เข้มงวดมาก จึงเป็นเหตุให้เกิดข้อมูลสังเคราะห์ขึ้นเพื่อเป็นทางเลือกที่ช่วยลดอุปสรรคเหล่านี้
ภาพจาก : https://datahubanalytics.com/synthetic-data-generation-transforming-analytics-with-artificial-datasets/
โดยข้อมูลสังเคราะห์ (Synthetic Data) ก็คือข้อมูลที่ถูกสร้างขึ้นโดยอัลกอริธึมคอมพิวเตอร์ หรือปัญญาประดิษฐ์ (AI) แทนที่จะมาจากเหตุการณ์จริง ๆ ข้อมูลประเภทนี้ถูกออกแบบให้มีคุณสมบัติทางสถิติ และโครงสร้างคล้ายกับข้อมูลจริง แต่ไม่มีความเชื่อมโยงกับบุคคล หรือเหตุการณ์ใดที่เกิดขึ้น โดยมักใช้เพื่อฝึกโมเดลการเรียนรู้ของเครื่อง (ML), ทดสอบระบบ หรือนำมาจำลองสถานการณ์ต่าง ๆ ในสภาพแวดล้อมควบคุมได้นั่นเอง
ก่อนที่เราจะพูดถึงประเภทของข้อมูลสังเคราะห์ ปัจจุบันมักจะมีความเข้าใจผิดเกิดขึ้นบ่อย ๆ นั่นคือการแยกแยะระหว่าง ข้อมูลสังเคราะห์ที่สร้างโดย AI กับ ข้อมูลจำลอง (Mock Data) ซึ่งทั้งสองแนวคิดนี้แตกต่างกันอย่างมาก
ข้อมูลสังเคราะห์ที่สร้างโดย AI เป็นข้อมูลที่สร้างขึ้นโดยอ้างอิงจากชุดข้อมูลจริงที่ใช้เป็นตัวอย่าง ระบบปัญญาประดิษฐ์ (Generative AI) จะเรียนรู้โครงสร้าง และคุณสมบัติต่าง ๆ ของข้อมูลต้นฉบับ แล้วนำไปสร้างข้อมูลใหม่ที่มีลักษณะคล้ายกัน ทั้งในแง่ของรูปแบบ และคุณสมบัติทางสถิติ ซึ่งทำให้สามารถใช้แทนข้อมูลจริงได้อย่างแม่นยำ
กลับกัน ข้อมูลจำลอง (Mock Data) เป็นข้อมูลที่ไม่ได้อ้างอิงจากข้อมูลจริง แต่ถูกสร้างขึ้นตามกฎเกณฑ์ที่กำหนดโดยมนุษย์ หรือจากการสุ่มเอาเลย เช่น กำหนดให้สร้างรายชื่อผู้ใช้แบบจำลอง หรือข้อมูลธุรกรรมที่ไม่ได้สะท้อนพฤติกรรมจริงของผู้ใช้ เนื่องจากข้อมูลประเภทนี้ไม่ได้อิงจากตัวอย่างจริง จึงไม่มีคุณสมบัติทางสถิติที่แม่นยำเหมือนข้อมูลสังเคราะห์ที่สร้างโดย AI
ข้อมูลสังเคราะห์สามารถแบ่งออกเป็น 2 ชนิด คือ ข้อมูลแบบมีโครงสร้าง (Structured Synthetic Data) และ ข้อมูลแบบไม่มีโครงสร้าง (Unstructured Synthetic Data) ซึ่งมีลักษณะแตกต่างกันไปตามการนำไปใช้งาน
ข้อมูลแบบไม่มีโครงสร้าง เป็นข้อมูลที่ไม่ได้มีการจัดเรียงในรูปแบบของตาราง ตัวอย่างเช่น ภาพ, วิดีโอ หรือไฟล์เสียง ข้อมูลเหล่านี้มักถูกสร้างขึ้นเพื่อใช้ฝึกโมเดลปัญญาประดิษฐ์ในการสร้างระบบรู้จำวัตถุ, จำลองสภาพแวดล้อมต่าง ๆ หรือสร้างระบบจำแนกด้วย AI เป็นต้น
ภาพจาก : https://github.com/gulvarol/surreact?tab=readme-ov-file
ข้อมูลแบบมีโครงสร้าง เป็นข้อมูลที่ถูกจัดเก็บเป็นตาราง เช่น รายการธุรกรรมทางการเงิน, ประวัติการรักษาผู้ป่วย หรือฐานข้อมูลลูกค้า ซึ่งข้อมูลเหล่านี้มักมีความสัมพันธ์ระหว่างแต่ละจุดข้อมูล และสามารถนำไปใช้วิเคราะห์แนวโน้ม หรือพฤติกรรมได้อย่างแม่นยำข้อมูลแบบมีโครงสร้างมักถูกใช้ในการศึกษาพฤติกรรมของมนุษย์ในลักษณะของ ข้อมูลลำดับเวลา (Time-Series Data) เอาไปวิเคราะห์แนวโน้มการใช้จ่ายของลูกค้า หรือพฤติกรรมของผู้ใช้งานบนแพลตฟอร์มออนไลน์
ภาพจาก : https://www.aindo.com/blog/synthetic-data-stories/
ในปัจจุบัน เทคโนโลยีสร้างข้อมูลสังเคราะห์แบบมีโครงสร้างที่ขับเคลื่อนด้วย AI กำลังได้รับความนิยมมากขึ้น เนื่องจากสามารถช่วยให้ธุรกิจ และองค์กรเข้าถึงข้อมูลคุณภาพสูง โดยไม่ต้องกังวลเกี่ยวกับปัญหาด้านความเป็นส่วนตัว หรือข้อจำกัดทางกฎหมายนั่นเอง
และเรายังสามารถแยกการนำเอาข้อมูลสังเคราะห์ไปใช้ได้อีก 3 แบบ ได้แก่
การสร้างข้อมูลสังเคราะห์สามารถทำได้หลายวิธี ขึ้นอยู่กับจุดประสงค์ของการใช้งาน และเทคโนโลยีที่ใช้ โดยทั่วไปแล้ว ข้อมูลเหล่านี้ถูกสร้างขึ้นจากอัลกอริธึม และแบบจำลองทางคอมพิวเตอร์ โดยวิธีการสร้างข้อมูลสังเคราะห์ที่พบได้บ่อย ๆ จะมีดังนี้
วิธีนี้จะใช้หลักการทางคณิตศาสตร์เพื่อสร้างชุดข้อมูลขึ้นมา โดยอิงจากการกระจายตัวของข้อมูลจริง ถึงแม้ว่าข้อมูลที่ได้จะไม่สามารถสะท้อนรายละเอียดของข้อมูลต้นฉบับได้อย่างสมบูรณ์ แต่ก็สามารถสร้างข้อมูลที่มีแนวโน้ม และรูปแบบใกล้เคียงกับของจริงได้
ภาพจาก : https://dataingovernment.blog.gov.uk/2020/08/20/synthetic-data-unlocking-the-power-of-data-and-skills-for-machine-learning/
วิธีนี้คือการสร้างแบบจำลองของระบบขึ้นมาในคอมพิวเตอร์ นำมาเลียนแบบพฤติกรรมของสิ่งต่าง ๆ ในโลกจริง ตัวอย่างเช่น จำลองว่าผู้คนในเมืองจะเดินทางอย่างไรในแต่ละวัน, จำลองการสื่อสารระหว่างสมาร์ทโฟน หรือการไหลเวียนของข้อมูลในเครือข่ายอินเทอร์เน็ต ระบบจำลองเหล่านี้ถูกออกแบบให้แต่ละองค์ประกอบทำงานร่วมกันตามกฎที่กำหนดไว้ ทำให้เราสามารถทดสอบ และคาดการณ์ผลลัพธ์ได้ โดยไม่ต้องใช้ข้อมูลจริง ซึ่งช่วยให้การศึกษาแนวโน้ม และพฤติกรรมของระบบที่อาจเป็นไปได้
ภาพจาก : https://www.nvidia.com/en-us/use-cases/synthetic-data/
วิธีนี้จะใช้ปัญญาประดิษฐ์ที่เรียนรู้รูปแบบของข้อมูลจริง แล้วนำความรู้นั้นมาสร้างข้อมูลใหม่ หรือที่เรียกว่า Generative AI ที่มีลักษณะใกล้เคียงกับต้นฉบับ โดยเทคนิคยอดนิยมในกลุ่มนี้ได้แก่ Generative Adversarial Networks (GANs) ซึ่งเป็นโมเดลที่ใช้ เครือข่ายประสาทเทียม (Nerural Network) สองชุด มาแข่งขันกันระหว่างตัวสร้างข้อมูล (Generator) และตัวตรวจสอบความสมจริง (Discriminator) เพื่อให้ได้ข้อมูลที่มีความสมจริงมากที่สุด
ภาพจาก : https://www.clickworker.com/ai-glossary/generative-adversarial-networks/
และอีกหนึ่งเทคนิคคือ "Variational Autoencoders (VAEs)" ซึ่งเป็นโมเดลที่เข้ารหัสข้อมูลต้นฉบับให้อยู่ในรูปแบบเชิงสถิติ ก่อนจะถอดรหัสออกมาเป็นข้อมูลใหม่ที่ยังคงโครงสร้างของข้อมูลเดิมไว้ ทั้งสองเทคนิคสามารถสร้างข้อมูลที่มีความสมจริงสูง ไม่ว่าจะเป็นภาพ, ข้อความ หรือข้อมูลเชิงตัวเลข
ภาพจาก : https://data-science-blog.com/blog/2022/04/19/variational-autoencoders/
ข้อมูลสังเคราะห์ถูกใช้ในการทดสอบระบบซอฟต์แวร์ เนื่องจากสามารถสร้างขึ้นได้ง่าย และปรับแต่งได้ตามความต้องการ ตัวอย่างเช่น แพลตฟอร์มอีคอมเมิร์ซต่าง ๆ สามารถสร้างข้อมูลสังเคราะห์ของลูกค้า จากรายการสั่งซื้อ และธุรกรรมจำลองได้ เพื่อทดสอบระบบชำระเงิน และตรวจสอบว่าระบบสามารถรองรับผู้ใช้จำนวนมากได้ หรือไม่ โดยไม่ต้องใช้ข้อมูลลูกค้าจริง
ข้อมูลสังเคราะห์ถูกนำมาใช้ฝึกโมเดล AI โดยเฉพาะในกรณีที่ข้อมูลจริงมีอคติ หรือไม่สมดุล เช่น เอามาฝึกระบบ Auto Pilot ในรถยนต์ไร้คนขับ บริษัทสามารถสร้างภาพสังเคราะห์ของถนนที่มีเงื่อนไขต่าง ๆ เช่น ฝนตกหนัก, หมอกหนา หรือคนเดินข้ามถนน เพื่อฝึก AI ให้เรียนรู้สถานการณ์ที่เกิดขึ้นได้น้อยครั้งในชีวิตจริง เพื่อช่วยให้โมเดลทำงานได้ดีขึ้น และปลอดภัยมากกว่าที่จะไปฝึกบนถนนจริง ๆ
ข้อมูลสังเคราะห์มีบทบาทสำคัญในการช่วยให้องค์กรปฏิบัติตามกฎหมายคุ้มครองข้อมูลส่วนบุคคล อย่าง GDPR และ PDPA ตัวอย่างเช่น ในเชิงของการแพทย์ แทนที่จะใช้ข้อมูลผู้ป่วยจริง ๆ ซึ่งมีข้อจำกัดด้านความเป็นส่วนตัว โรงพยาบาลก็สามารถสร้างข้อมูลสังเคราะห์ที่จำลองโรคประจำตัว และประวัติการรักษา เพื่อนำไปใช้ในการวิจัย และพัฒนา AI ด้านสุขภาพ โดยไม่ละเมิดสิทธิ์ของผู้ป่วย
ข้อมูลสังเคราะห์ถือเป็นเทคโนโลยีที่เข้ามามีบทบาทสำคัญในโลกของการฝึกโมเดล AI และ ML ข้อมูลสังเคราะห์สามารถใช้แทนข้อมูลจริงได้ในหลายสถานการณ์ และช่วยแก้ปัญหาด้านการขาดแคลนข้อมูล, ลดอคติในโมเดล และที่สำคัญคือช่วยปกป้องความเป็นส่วนตัวของผู้ใช้งาน
แม้ว่าข้อมูลสังเคราะห์จะมีข้อดีอยู่หลายประการ แต่ก็ยังมีข้อจำกัดที่อาจจะยังไม่สามารถแทนที่ข้อมูลจริงได้ทั้งหมด และคุณภาพของข้อมูลขึ้นอยู่กับโมเดลที่ใช้สร้าง แต่ด้วยการพัฒนาเทคโนโลยี AI อย่างต่อเนื่อง ข้อมูลสังเคราะห์จะกลายเป็นส่วนสำคัญในการขับเคลื่อนอุตสาหกรรมต่าง ๆ ช่วยให้ AI ฉลาดขึ้น, ปลอดภัยขึ้น และมีประสิทธิภาพมากยิ่งขึ้นนั่นเอง
|