ในยุคที่เทคโนโลยี ปัญญาประดิษฐ์ (AI) ก้าวล้ำไปไกลจนเกินกว่าที่เราจะจินตนาการได้ และไม่นานมานี้ DALL-E ก็ได้กลายเป็นหนึ่งในนวัตกรรมที่น่าทึ่ง และถูกจับตามอง เราสามารถใช้มันเปลี่ยนคำพูด ให้กลายเป็นภาพที่สมจริงได้อย่างง่ายดาย ไม่ว่าจะนึกถึงภาพของหุ่นยนต์ในสวนดอกไม้ หรือที่เป็นเทรนด์หนักเช่นแมวที่สวมเสื้อใช้ชีวิตเหมือนกับคน DALL-E ก็สามารถสร้างสรรค์ภาพเหล่านั้นออกมาได้อย่างที่จินตนาการไว้ !
และบทความนี้จะพาทุกคนไปรู้จักกับเทคโนโลยีสุดล้ำ DALL-E ที่ผสมผสาน การเรียนรู้เชิงลึก (Deep Lerning) เข้ากับความสามารถทางศิลปะ ทั้งความหมาย, ความเป็นมา, หลักการทำงาน, ข้อดี และข้อสังเกต รวมถึงการนำไปใช้ประโยชน์ของ DALL-E ที่สร้างความเป็นไปได้ใหม่ ๆ ให้กับทั้งนักออกแบบ, ศิลปิน และผู้ใช้ทั่วไป เรามาเริ่มกันเลย !
DALL-E คือเทคโนโลยีปัญญาประดิษฐ์ (AI) สุดล้ำ ที่สร้างภาพจากข้อความ หรือคำสั่งของผู้ใช้งาน เจ้าเทคโนโลยีนี้พัฒนาขึ้นโดย OpenAI และเปิดตัวครั้งแรกในปี ค.ศ. 2021 (พ.ศ. 2564) โดยใช้การเรียนรู้เชิงลึกจากโมเดล GPT-3 ทำให้สามารถเข้าใจข้อความที่ซับซ้อน และแปลงเป็นภาพที่มีรายละเอียดตามจินตนาการได้ เช่น ภาพของแมวที่นำมาใส่ชุดต่าง ๆ จนกลายเป็นไวรัลทั่วอินเทอร์เน็ตนั่นเอง
ภาพจาก : https://thinglabs.io/how-to-use-dall-e-3
ที่มาของชื่อ "DALL-E" เกิดจากการผสานกันของชื่อศิลปินเซอร์เรียลชื่อดัง ซัลวาดอร์ ดาลี (Salvador Dalí) กับหุ่นยนต์ในภาพยนตร์ของดิสนีย์ "วอลล์-อี" (Wall-E) สะท้อนถึงเป้าหมายของเทคโนโลยีนี้ที่ต้องการรวมความเป็นศิลปะ และปัญญาประดิษฐ์เข้าไว้ด้วยกัน ทำให้ได้ภาพที่เต็มไปด้วยความคิดสร้างสรรค์ และอารมณ์ที่แฝงไปในภาพ
ภาพจาก : https://www.ankursnewsletter.com/p/openais-dall-e-2-converts-text-from
DALL-E มีจุดเริ่มต้นจากโปรเจค Image GPT ในปี 2020 (พ.ศ. 2563) โดย OpenAI ซึ่งเป็นการทดลองนำเทคโนโลยีเครือข่ายประสาท (Neural Network) มาสร้างภาพจากข้อความที่มีคุณภาพสูง การเปิดตัว DALL-E ในเดือนมกราคม ค.ศ. 2021 (พ.ศ. 2564) ถือเป็นการพัฒนาต่อยอดจาก Image GPT ผสานความสามารถของ GPT-3 ในการเข้าใจภาษา และแปลงคำบรรยายสั้น ๆ ให้กลายเป็นภาพที่ซับซ้อน ซึ่งสร้างปรากฏการณ์ใหม่ในการสร้างภาพดิจิทัลที่สมจริง
จากความสำเร็จในรุ่นแรก OpenAI ได้เปิดตัว DALL-E 2 ในเดือนเมษายน ค.ศ. 2022 (พ.ศ. 2565) ซึ่งได้รับการพัฒนาให้สามารถสร้างภาพที่สมจริงยิ่งขึ้น และรองรับความละเอียดสูง สามารถผสมผสาน แนวคิด, คุณลักษณะ และสไตล์ต่าง ๆ ของภาพเข้าด้วยกันได้อย่างน่าทึ่ง ในเดือนกรกฎาคมปีเดียวกัน DALL-E 2 เริ่มเข้าสู่ช่วงทดลองใช้แบบเบต้า โดยให้สิทธิ์ผู้ใช้งานที่อยู่ในลิสต์ที่ลงทะเบียนรอไว้จำนวน 1 ล้านคนได้ใช้ เพื่อสร้างภาพจำนวนหนึ่งฟรีในแต่ละเดือน และในเดือนกันยายน ค.ศ. 2022 (พ.ศ. 2565) OpenAI ได้เปิดให้ทุกคนเข้าถึง DALL-E 2 ได้อย่างเสรี และไม่มีข้อกำหนดในการลงทะเบียนอีกต่อไป
ภาพจาก : https://zapier.com/blog/how-to-use-dall-e-2/
ในเดือนกันยายน ค.ศ. 2023 (พ.ศ. 2566) OpenAI ได้เปิดตัว DALL-E 3 ซึ่งเป็นเวอร์ชันล่าสุดที่ได้รับการพัฒนาให้มีความสามารถในการเข้าใจความหมาย และรายละเอียดของคำสั่งผู้ใช้งานได้ดีขึ้น ในช่วงต้นเดือนพฤศจิกายน ค.ศ. 2022 (พ.ศ. 2565) OpenAI ได้เปิดตัว API สำหรับ DALL-E 2 ให้กับนักพัฒนาทั่วไป เพื่อนำไปใช้งานในแอปพลิเคชันของตนเอง
และทาง Microsoft เองก็ได้ร่วมใช้ DALL-E 2 ในแอป Designer และเครื่องมือสร้างภาพ (Image Creator) ใน Bing และ Microsoft Edge ซึ่งการใช้งานผ่าน ส่วนต่อประสานโปรแกรมประยุกต์ (API) คิดค่าใช้จ่ายตามจำนวนภาพ และความละเอียด ซึ่งมีส่วนลดพิเศษสำหรับองค์กรที่ทำงานร่วมกับทีม OpenAI
ภาพจาก : https://www.artificialintelligence-news.com/news/openai-reveals-dall-e-3-text-to-image-model/
สุดท้ายในเดือนกุมภาพันธ์ ค.ศ. 2024 (พ.ศ. 2567) OpenAI เริ่มเพิ่มลายน้ำ และ Meta Data ตามมาตรฐาน C2PA ในภาพที่สร้างจาก DALL-E เพื่อให้ผู้ใช้งานทราบถึงแหล่งที่มาของภาพ และเป็นไปตามหลักจริยธรรมในการใช้งาน AI หรือ AI Literacy
วิธีการทำงานนั้น DALL-E จะสร้างภาพจากข้อความโดยอาศัยเทคโนโลยีหลักหลาย ๆ อย่าง รวมถึง การประมวลผลภาษาธรรมชาติ (NLP), โมเดลภาษาใหญ่ (LLM) และการประมวลผลแบบดิฟฟิวชัน (Diffusion Processing) การสร้างข้อมูลใหม่โดยอาศัยกระบวนการแพร่กระจาย เช่น Random Noise
ใน DALL-E รุ่นแรกพัฒนาขึ้นจากส่วนหนึ่งของโมเดล GPT-3 แต่ใช้เพียง 12 พันล้านพารามิเตอร์ จากทั้งหมด 175 พันล้านพารามิเตอร์ใน GPT-3 ซึ่งเพียงพอสำหรับออกแบบให้เหมาะสมกับการสร้างภาพโดยเฉพาะ โดยโมเดลนี้ใช้เครือข่ายประสาทแบบทรานส์ฟอร์เมอร์ (Transformer Neural Network) ช่วยให้สามารถเชื่อมโยงแนวคิดต่าง ๆ เข้าไว้ด้วยกันอย่างมีประสิทธิภาพ
ภาพจาก : https://deeprevision.github.io/posts/001-transformer/
เทคนิค Zero-Shot Text-to-Image Generation ที่ใช้ใน DALL-E ช่วยให้โมเดลสร้างภาพใหม่ได้จากคำบรรยาย โดยไม่ต้องฝึกฝนกับภาพนั้นโดยตรง โมเดลสามารถใช้ความรู้ที่เคยเรียนมา เชื่อมโยงข้อมูลต่าง ๆ เข้าด้วยกัน เพื่อสร้างภาพที่ตรงกับคำสั่งใหม่ ๆ ได้อย่างแม่นยำ
เพื่อประเมินความแม่นยำในการสร้างภาพ OpenAI ได้พัฒนาโมเดลที่เรียกว่า CLIP (Contrastive Language-Image Pre-training) ซึ่งผ่านการฝึกด้วยภาพที่ติดป้ายกำกับกว่า 400 ล้านภาพ โมเดล CLIP จะช่วยตรวจสอบ และเลือกแคปชันที่สอดคล้องกับภาพที่ DALL-E สร้างขึ้น เพื่อให้แน่ใจว่าภาพและข้อความมีความสอดคล้องกัน
ภาพจาก : https://medium.com/@sthanikamsanthosh1994/contrastive-language-image-pre-training-clip-connecting-text-to-image-d9ef92462eda
และใน DALL-E รุ่นแรก มีการใช้เทคโนโลยี Discrete Variational Autoencoder (dVAE) ซึ่งช่วยให้โมเดลแปลงข้อมูลคำบรรยายให้กลายเป็นภาพที่แม่นยำ และสอดคล้องกับความหมาย dVAE ได้รับแรงบันดาลใจจากงานวิจัยของ DeepMind ซึ่งพัฒนา Vector Quantized Variational Autoencoder (VQ-VAE) ขึ้นมา
เทคนิคนี้ช่วยให้โมเดลสามารถเข้ารหัสข้อมูลภาพให้อยู่ในรูปแบบที่เรียบง่าย และมีโครงสร้าง เช่น เมื่อเราป้อนคำบรรยาย “แมวนอนอยู่บนโซฟาสีแดง” ระบบ dVAE จะเข้ารหัสข้อมูลภาพ โดยแยกองค์ประกอบสำคัญออก เช่น รูปร่างของแมว และสีของโซฟา จากนั้นจะนำข้อมูลเหล่านี้มาเชื่อมโยงกันเพื่อสร้างภาพที่มีรายละเอียดตามคำบรรยาย ด้วยเทคนิค dVAE นี้ ทำให้ DALL-E สามารถสร้างภาพที่ดูสมจริงและแม่นยำ แม้โมเดลจะไม่ได้รับการฝึกฝนกับภาพนี้โดยตรง
(AI Genrated Image)
มาถึงหัวข้อนี้กัน จากที่เราได้รู้จักกับ DALL-E และการทำงานของมันไป ทีนี้เรามาดูกันว่ามันมีข้อดี และข้อสังเกตอย่างไรบ้าง ?
DALL-E สามารถจุดประกายแนวคิดใหม่ให้กับศิลปิน, นักออกแบบ และบุคคลทั่วไป ด้วยความสามารถในการสร้างภาพจากคำบรรยายเพียงสั้น ๆ ผู้ใช้งานจึงสามารถใช้ DALL-E เพื่อขยายขอบเขตของจินตนาการ และสร้างผลงานที่แปลกใหม่ไม่ซ้ำใคร
ภาพที่สร้างโดย DALL-E ถูกนำไปใช้ในสื่อต่าง ๆ เช่น หนังสือ, เกม หรือแม้กระทั่งงานนำเสนอ ด้วยการใช้คำบรรยายเพียงไม่กี่คำ DALL-E ก็สามารถสร้างกราฟิกที่มีความสมจริง หรือสร้างภาพที่แปลกใหม่ซึ่งอาจยากต่อการสร้างด้วยวิธีดั้งเดิม นับเป็นเครื่องมือที่ช่วยเพิ่มมิติใหม่ให้กับงานในวงการบันเทิงได้เป็นอย่างดี
DALL-E มีบทบาทในการช่วยเหลือครูผู้สอน ในการสร้างภาพประกอบที่ซับซ้อนให้เข้าใจง่ายขึ้น ซึ่งช่วยเพิ่มความเข้าใจให้กับนักเรียน
เป็นอีกด้านหนึ่งที่ได้ประโยชน์อย่างมากจาก DALL-E ด้วยความสามารถในการสร้างภาพที่มีเอกลักษณ์ ทำให้การสื่อสารของแบรนด์นั้น ดึงดูดความสนใจของลูกค้าได้มากขึ้น
DALL-E ช่วยให้การสร้างภาพต้นแบบของแนวคิดใหม่ กลายเป็นเรื่องที่ง่าย และรวดเร็ว นักออกแบบสามารถนำภาพที่สร้างขึ้นมาใช้เป็นแนวคิดเบื้องต้นก่อนนำไปพัฒนาต่อ ซึ่งสะดวก และประหยัดเวลามากกว่าการใช้โปรแกรมออกแบบแบบดั้งเดิม
ซึ่งนี่ก็เป็นตัวอย่างการนำเอา DALL-E มาใช้งานคร่าว ๆ ซึ่งมันยังสามารถนำไปประยุกต์ใช้งานได้อีกมากมายแล้วแต่จินตนาการของเรา
สุดท้ายแล้ว DALL-E ก็คือเทคโนโลยี AI ที่สร้างภาพจากข้อความที่พัฒนาโดย OpenAI ใช้เทคนิค Deep Learning และโมเดลภาษา GPT-3 ทำให้มันสามารถสร้างภาพที่ซับซ้อนตามคำบรรยายได้อย่างสมจริง ตั้งแต่การใช้ในงานศิลปะ, การศึกษา, การโฆษณา, จนถึงการออกแบบผลิตภัณฑ์ ซึ่ง DALL-E ช่วยให้กระบวนการเหล่านี้ง่าย และรวดเร็วมากยิ่งขึ้น นับเป็นการพลิกโฉมวงการสร้างสรรค์ และสร้างแรงบันดาลใจใหม่ให้ผู้ใช้งานในทุกระดับ ...
|