ในยุคที่เทคโนโลยีดิจิทัลก้าวหน้าอย่างรวดเร็ว "Synthetic Media" หรือสื่อสังเคราะห์ กำลังกลายเป็นปรากฏการณ์ที่มีบทบาทสำคัญในหลายวงการ ตั้งแต่การผลิตเนื้อหาดิจิทัล ไปจนถึงการใช้ ปัญญาประดิษฐ์ (AI) เข้ามาช่วยในการสร้างภาพ, เสียง และวิดีโอ ที่สมจริงมากขึ้น โดยสื่อสังเคราะห์ช่วยให้เราสามารถสร้างเนื้อหาที่มีคุณภาพสูงโดยไม่จำเป็นต้องใช้ทรัพยากรดั้งเดิม เช่น นักแสดง หรือช่างภาพ
อย่างไรก็ตาม ในขณะเดียวกันการใช้ Synthetic Media ก็ก่อให้เกิดข้อถกเถียงเกี่ยวกับจริยธรรม และผลกระทบทางสังคมตามมาเช่นกัน
ทำไมถึงเป็นเช่นนั้น บทความนี้จะพาคุณผู้อ่านมารู้จักกับเทคโนโลยี Synthetic Media เพื่อให้เข้าใจ และความท้าทายของสื่อรูปแบบใหม่นี้กันมากขึ้นกัน
"Synthetic Media" หรือหากแปลเป็นภาษาไทยก็น่าจะได้ความว่า "สื่อสังเคราะห์"
Synthetic Media หมายถึงสื่อที่สร้างด้วย Generative AI และเทคนิค การเรียนรู้ของเครื่อง (Machine Learning - ML) ในบางบริบทมันก็ถูกเรียกว่า Deepfake โดยคำนี้มักใช้เรียกรวมถึงกระบวนการสร้าง, ปรับเปลี่ยน และแก้ไขข้อมูล หรือสื่อโดยอัตโนมัติ ผ่าน อัลกอริทึม (Algorithm) ของ AI ด้วยความก้าวหน้าของ Generative AI ทำให้เราสามารถนำมันมาใช้ในการผลิตสื่อมัลติมีเดียต่าง ๆ ได้ ไม่ว่าจะเป็นข้อความ, ภาพ, เสียง หรือวิดีโอ ตาม คำสั่ง (Prompt) ที่ผู้ใช้งานป้อนเข้าไป
ปัจจุบันนี้วงการ Synthetic Media เติบโตอย่างรวดเร็ว ตั้งแต่มีการพัฒนาโครงข่ายปฏิปักษ์ก่อกำเนิด หรือ Generative Adversarial Networks (GANs) ทำให้การสังเคราะห์เสียงดนตรี, สร้างข้อความ, สร้างใบหน้าของมนุษย์ และสังเคราะห์เสียงพูด มีประสิทธิภาพสูงขึ้นกว่ามาก
แม้ในทางเทคนิค หรือนิยาม ผู้เชี่ยวชาญจะเรียกเทคโนโลยีนี้ว่า Synthetic Media แต่สื่อ และคนส่วนใหญ่มักนิยมเรียกมันว่า Deepfake แทน โดยจะมีคำสร้อยตามประเภทของสื่อที่สังเคราะห์ห้อยตามด้วย เช่น ถ้าเป็นการสังเคราะห์ข้อความก็จะเรียกว่า "Deepfake for text", สังเคราะห์เสียงก็เรียกว่า "Deepfake for voice" เป็นต้น
Synthetic Media ไม่ใช่เรื่องใหม่ แต่จุดเปลี่ยนที่ดูเหมือนจะทำให้มันกลายเป็นสิ่งที่รู้จักกันในวงกว้าง ก็เหมือนว่าจะมีเหตุมาจากการที่อุตสาหกรรมผลิตภาพยนตร์สำหรับผู้ใหญ่นำใบหน้าของนักแสดงที่มีชื่อเสียงไปให้ AI Deepfake ทำการเปลี่ยนแปลงใบหน้าของนักแสดงที่เป็นใครก็ไม่รู้ให้กลายเป็นใบหน้าของคนดังแทน อย่างไรก็ตาม Synthetic Media ก็มีอันตรายเช่นกัน เพราะสามารถถูกนำไปใช้ในทางที่ผิดเพื่อแพร่กระจายข้อมูลที่ไม่ถูกต้อง เช่น ปลอมใบหน้า และเสียง เพื่อปลอมเป็นนักการเมือง หรือสื่อรัฐบาล เพื่อพูดเรื่องที่ทำให้เกิดความขัดแย้งในสังคม หรือปล่อยข่าวลวงเพื่อสร้างความตื่นตระหนก
ภาพจาก : https://petapixel.com/2022/07/22/megaportraits-high-res-deepfakes-created-from-a-single-photo/
สรุปง่าย ๆ ว่า Synthetic Media หมายถึง เนื้อหาสื่อทุกประเภทที่ถูกสร้างขึ้นโดยใช้ AI และ ML ที่มีความเกี่ยวข้องกับการสังเคราะห์ หรือปรับเปลี่ยนองค์ประกอบของเสียง, วิดีโอ, ข้อความ หรือภาพ นั่นเอง
สื่อสังเคราะห์ (Synthetic Media) ครอบคลุมเนื้อหาที่ถูกสร้างขึ้นโดยใช้เทคโนโลยีขั้นสูง อย่าง AI และ ML เพื่อเลียนแบบ หรือสังเคราะห์เนื้อหาต่าง ๆ แทนการใช้คน, สิ่งของ หรือฉาก จริง ๆ ได้อย่างสมจริง ซึ่งมันสามารถแบ่งได้ออกเป็นหลายประเภท ตัวอย่างเช่น
Deepfake เป็นวิดีโอที่สร้างโดย AI ซึ่งสามารถดัดแปลง หรือแทนที่ใบหน้าของบุคคลในวิดีโอที่มีอยู่ ก็ตามความหมายของมันเลย เพราะ Deepfake ก็แปลว่า หน้าปลอม นั่นเอง มันทำงานโดยใช้เทคนิค การเรียนรู้เชิงลึก (Deep Learning) มันมีอัลกอริธึมที่สามารถวิเคราะห์ และสังเคราะห์การแสดงออกทางใบหน้า, การเคลื่อนไหว และรูปแบบการพูดขยับปาก เพื่อสร้างวิดีโอปลอมที่ดูสมจริงเป็นอย่างมาก
อัลกอริธึมของ AI สามารถสร้างภาพใหม่ตาม Prompt ที่ผู้ใช้ป้อนเข้าไปได้ตามคำสั่งโดยเริ่มต้นจากศูนย์ หรือปรับเปลี่ยนภาพที่มีอยู่เดิมเพื่อสร้างองค์ประกอบใหม่ ภาพที่สร้างโดย AI ถูกนำไปใช้ในหลากหลายวงการ เช่น ศิลปะดิจิทัล, การออกแบบกราฟิก และการผลิตเนื้อหา
AI สามารถสร้างข้อความใหม่ได้ เช่น บทความ, เนื้อเพลง หรือบทกวี โดยอาศัย เครือข่ายประสาทเทียม (Neural Network) ที่ได้รับการฝึกด้วยชุดข้อมูลขนาดใหญ่
ระบบแปลงข้อความเป็นเสียง (Text-to-Speech) ช่วยสร้างเสียงสังเคราะห์ที่คล้ายเสียงมนุษย์สำหรับการใช้งาน เช่น การพากย์เสียง, การประกาศ, และการบรรยาย ทำให้คนที่พูดไม่เก่ง, น้ำเสียงไม่น่าฟัง หรือไม่ชำนาญในภาษาต่างประเทศ ก็สามารถสร้างสื่อที่มีเนื้อหาคำบรรยายได้โดยสะดวก
สำหรับ แชทบอท (Chatbot) และผู้ช่วยเสมือนนั้นจะใช้ เทคโนโลยีประมวลผลภาษาธรรมชาติ (Natural Language Processing - NLP) และ ML เพื่อทำความเข้าใจ และตอบสนอง ต่อคำถามของผู้ใช้ในรูปแบบข้อความ หรือเสียง
อัลกอริธึม AI สามารถแต่งเพลง, สร้างทำนอง และรีมิกซ์เพลง ได้อย่างน่าทึ่ง โดยอ้างอิงจากผลงานที่มีอยู่ หรือรูปแบบดนตรีที่กำหนดไว้ อัลกอริธึมเหล่านี้วิเคราะห์รูปแบบในข้อมูลเสียง และเรียนรู้ ที่จะสร้างทำนอง, คอร์ด และจังหวะใหม่ที่ตรงกับ Prompt ที่ผู้ใช้ป้อนเข้าไป
ในปัจจุบันนี้ AI ได้เข้ามามีบทบาทในการพัฒนาอุตสาหกรรมเกมอย่างมาก โดยนำมันมาใช้ในการช่วยสร้างสภาพแวดล้อม, ตัวละคร, เนื้อเรื่องต่าง ๆ ภายในวิดีโอเกม หรือแม้แต่การทำให้ตัวละครต่าง ๆ ที่ผู้เล่นไม่ใช่ผู้ควบคุม สามารถตอบโต้กับผู้เล่นได้อย่างสมจริง
แนวคิดของสื่อสังเคราะห์ สามารถมองย้อนกลับไปได้ถึงเมื่อเกือบ 2000 ปีก่อน ในสมัยอารยธรรมกรีกโบราณ มีการค้นพบหลักฐานทางประวัติศาสตร์ เป็นบันทึกของ Heron of Alexandria วิศวกร และนักคณิตศาสตร์ แห่งเมืองอเล็กซานเดรีย ที่ได้บรรยายถึง รูปปั้นที่สามารถเคลื่อนไหว สามารถขยับแสดงศิลปะด้านการละครได้
ตลอดหลายศตวรรษที่ผ่านมา มีการสร้างสรรค์ศิลปะเชิงกลขึ้นมามากมาย มีนวัตกรรมที่ "ดูเหมือน" จะทำงานได้แบบอัตโนมัติ ที่สามารถดึงดูด สร้างความเพลิดเพลินให้กับผู้ชม
แต่ถึงอย่างไรก็ตาม กลไกเหล่านี้ แม้จะมีความสามารถทางเทคนิคสูง ถูกออกแบบมาอย่างประณีต แต่มันก็ยังไม่สามารถสร้างเนื้อหาต้นฉบับด้วยตนเองได้เลย ยังต้องพึ่งพาการออกแบบเชิงกลของผู้สร้างทั้งหมด เช่น เกมลูกเต๋าดนตรี Musikalisches Würfelspiel ของ Johann Philipp Kirnberger ที่ถูกสร้างขึ้นมาในปี ค.ศ. 1757 (พ.ศ. 2300) เป็นเกมที่เหมือนจะสามารถสร้างเพลงใหม่ ๆ ขึ้นมาได้ จากการสุ่มทอยลูกเต๋า แต่สุดท้ายมันก็ยังเป็นเพลงที่ผ่านการเรียบเรียงของผู้สร้างอยู่ดี แค่มีการสุ่มด้วยกลไกที่ผู้พัฒนาออกแบบขึ้นมา
ภาพจาก : https://gbrachetta.github.io/Musical-Dice/
ในปี ค.ศ. 1956 (พ.ศ. 2499) สาขาการวิจัยปัญญาประดิษฐ์ (AI) ถือกำเนิดขึ้นจากการประชุมเชิงปฏิบัติการที่วิทยาลัยดาร์ตมัธ (Dartmouth College) ซึ่งมันได้นำไปสู่การนำคอมพิวเตอร์ดิจิทัลมาใช้ในการสร้างสรรค์ผลงานศิลปะ จนถือกำเนิดเป็น ศิลปะเชิงกำเนิด (Generative Art)
เพียงปีเดียวหลังจากนั้น ได้มีผลงานที่ชื่อว่า "Illiac Suite" บทประพันธ์สำหรับวงเครื่องสายสี่ชิ้น ที่ได้รับการยอมรับอย่างกว้างขวางว่า เป็นโน้ตเพลงชุดแรกที่ถูกประพันธ์ขึ้นมาโดยคอมพิวเตอร์
ในปี 1965 นักประดิษฐ์ Ray Kurzweil ได้นำคอมพิวเตอร์ที่สามารถฟังท่วงทำนองที่มันได้ยิน มาวิเคราะห์หารูปแบบจังหวะ เพื่อสร้างเป็นท่วงทำนองใหม่เพื่อใช้เล่นกับเปียโนได้ มาแสดงในรายการ "I've Got a Secret" ซึ่งได้สร้างความประหลาดใจให้กับพิธีกร และแขกรับเชิญเป็นอย่างมาก
ก่อนปี ค.ศ. 1989 (พ.ศ. 2532) เครือข่ายประสาทเทียม ถูกนำมาใช้ในการจำลองบางแง่มุมของความคิดสร้างสรรค์ Peter Todd ได้ฝึกเครือข่ายประสาทเทียมให้สามารถสร้างท่วงทำนองดนตรี โดยอ้างอิงจากชุดข้อมูลของบทเพลงต่าง ๆ จากนั้นเขาก็นำ "Change Algorithm" มาใช้ปรับเปลี่ยนพารามิเตอร์การป้อนข้อมูลของเครือข่าย ผลลัพธ์คือ เครือข่ายสามารถสร้างบทเพลงใหม่ได้แบบสุ่ม โดยแทบไม่ถูกควบคุมเลย
ในปี ค.ศ. 2014 (พ.ศ. 2557) Ian Goodfellow และทีมงาน ได้พัฒนาระบบ Machine Learning รูปแบบใหม่ขึ้นมาสำเร็จ โดยมันถูกเรียกว่า Generative Adversarial Networks (GAN)
ระบบนี้ประกอบด้วยเครือข่ายประสาทเทียม (Neural Network) สองชุด ที่แข่งขันกันในรูปแบบของเกม (ตามแนวคิดของ Game Theory ซึ่งมักจะเป็นเกมแบบ Zero-Sum Game) เทคนิคนี้ช่วยให้ระบบสามารถสร้างข้อมูลใหม่ที่มีความน่าเชื่อถือเพื่อนำมาใช้ฝึกให้โมเดลมีความฉลาดยิ่งขึ้นไปได้เรื่อย ๆ
ตัวอย่างเช่น GAN ที่ได้รับการฝึกจากฐานข้อมูลภาพถ่าย จะสามารถสร้างภาพใหม่ที่ดูสมจริงในระดับที่มนุษย์สามารถมองเห็นว่าเป็นของจริงได้ ด้วยคุณลักษณะที่มีความสมจริงหลายประการ
ภาพจาก : https://www.kdnuggets.com/2020/03/generate-realistic-human-face-using-gan.html
แม้ว่า GAN จะถูกเสนอขึ้นมาเพื่อใช้เป็นแบบจำลองเชิงกำเนิด (Generative Model) สำหรับการเรียนรู้แบบไม่มีผู้ควบคุม (Unsupervised Learning) แต่ก็พบว่า GAN สามารถนำไปใช้ได้อย่างมีประสิทธิภาพในการเรียนรู้แบบกึ่งมีผู้ควบคุม (Semi-supervised Learning), การเรียนรู้แบบมีผู้ควบคุมอย่างสมบูรณ์ (Fully-supervised Learning) และการเรียนรู้เชิงเสริมกำลัง (Reinforcement Learning)
ในงานสัมมนาปี ค.ศ. 2016 (พ.ศ. 2559) Yann LeCun รองประธาน และหัวหน้านักวิทยาศาสตร์เอไอที่บริษัท Meta ได้กล่าวถึง GAN ว่าเป็น "ไอเดียที่เจ๋งที่สุดในวงการ Machine Learning ในช่วงยี่สิบปีที่ผ่านมา"
ในปี ค.ศ. 2017 (พ.ศ. 2560) Google ได้เปิดตัว Transformers ซึ่งเป็นสถาปัตยกรรมเครือข่ายประสาทเทียมรูปแบบใหม่ที่ได้รับการออกแบบมาเพื่อใช้ในการสร้าง แบบจำลองภาษาขนาดใหญ่ (Large Language Model) ทำให้เกิดความก้าวหน้าอย่างรวดเร็วในด้าน การประมวลผลภาษาธรรมชาติ (Natural Language Processing)
Transformers แสดงให้เห็นถึงความสามารถในการสรุป และประยุกต์ใช้ความรู้ในระดับสูง ซึ่งช่วยให้เครือข่ายต่าง ๆ เช่น GPT-3 และ Jukebox จาก OpenAI สามารถสังเคราะห์ข้อความ และดนตรี ในระดับที่เข้าใกล้ความสามารถของมนุษย์ได้
ข้อความเป็นวิธีป้อนข้อมูลหลักสำหรับการทำสื่อสังเคราะห์ (Synthetic Media) โดยเมื่อรวมกับการประมวลผลภาษาธรรมชาติ (NLP) จะช่วยให้ผู้ใช้สามารถสร้างเนื้อหาได้ โดยการบรรยาย และปรับแต่งสิ่งที่ต้องการ ซึ่งแนวทางนี้มีข้อดีหลายประการ
โดยหนึ่งในนั้นคือความคุ้มค่าด้านต้นทุน เนื่องจากผู้ใช้ไม่จำเป็นต้องมีความเชี่ยวชาญด้านการเขียนโปรแกรม และสามารถปรับแก้ไขผลลัพธ์ได้ง่าย ๆ ภายในเวลาไม่กี่วินาที อีกทั้ง บุคคลที่สร้างเนื้อหาก็มักเป็นผู้ที่คิดค้นแนวคิดของเนื้อหานั้นเอง จึงช่วยลดข้อผิดพลาด ที่อาจเกิดจากปัญหาด้านการสื่อสาร
Synthetic Media ช่วยให้การผลิตเนื้อหาทำได้รวดเร็วมากขึ้น โดยทีมเล็ก ๆ ที่ไม่มีทักษะเฉพาะทาง เช่น ไม่ใช่ตากล้อง ไม่มีนักแสดง ก็สามารถสร้างเนื้อหาหลากหลายประเภทได้ในเวลาสั้น ๆ นอกจากนี้ ผลลัพธ์ยังเป็นดิจิทัลทั้งหมด ทำให้สามารถทำสำเนา และแจกจ่ายได้อย่างง่ายดาย
สุดท้าย เทคโนโลยีสื่อสังเคราะห์ช่วยให้ผู้ใช้มีความยืดหยุ่นด้านความคิดสร้างสรรค์ในระดับสูง สามารถสร้างภาพที่ไม่สามารถสร้างขึ้นทางกายภาพได้ผ่านคำบรรยาย อีกทั้ง ยังสามารถนำมาผสมผสาน กับรูปแบบข้อมูลดิจิทัลอื่น ๆ เช่น รูปภาพ หรือวิดีโอ ที่มีอยู่แล้ว เพื่อสร้างองค์ประกอบที่แปลกใหม่ได้
สื่อสังเคราะห์ (Synthetic Media) ช่วยให้ผู้ใช้งานสามารถสร้างภาพ และวิดีโอได้ โดยการปรับแต่งไฟล์ที่มีอยู่ หรือสร้างขึ้นใหม่ทั้งหมด ในช่วงแรก ๆ มีบางกรณีที่พบการใช้งานละเมิดมาตรฐานทางจริยธรรมทั่วไป และความเสี่ยงเหล่านี้ยังคงมีอยู่ในปัจจุบัน
ดังนั้น บุคคล และองค์กรที่ใช้สื่อสังเคราะห์ในการทำงาน ควรให้ความสำคัญกับประเด็นที่ละเอียดอ่อนเหล่านี้เพื่อให้มั่นใจว่าการใช้งานเป็นไปอย่างมีความรับผิดชอบ และจริยธรรม ตัวอย่างปัญหาทางจริยธรรมก็อย่างเช่น
|
แอดมินสายเปื่อย ชอบลองอะไรใหม่ไปเรื่อยๆ รักแมว และเสียงเพลงเป็นพิเศษ |
ความคิดเห็นที่ 1
19 พฤษภาคม 2568 10:01:25
|
||||||||||||||||||||||||||||||||||||||||||||||||||
GUEST |
![]() |
Hector
4M Dentyal Impllant Center3918 ᒪong Beach Blvd #200, Ꮮong Beach, CA 90807, United Statеѕ 15622422075 Bookmarks
|
||||||||||||||||||||||||||||||||||||||||||||||||