ในโลกที่เต็มไปด้วยข้อมูล และภาพถ่ายที่หลากหลาย การที่คอมพิวเตอร์สามารถ "รู้จำภาพ" ได้ กลายเป็นเทคโนโลยีที่สำคัญ และน่าตื่นเต้นอย่างมาก ซึ่ง การจดจำภาพ (Image Recognition) คือ กระบวนการที่คอมพิวเตอร์สามารถเข้าใจ และจำแนกสิ่งต่าง ๆ ในภาพได้เหมือนกับที่มนุษย์ทำ โดยไม่ต้องอาศัยการแทรกแซงจากมนุษย์ที่มากนัก ด้วยการใช้เทคนิคต่าง ๆ เช่น ปัญญาประดิษฐ์ (AI) และ การเรียนรู้ของเครื่อง (Machine Learning) และการจดจำภาพไม่เป็นเพียงแค่การมองเห็น แต่ยังเป็นการเข้าใจถึงสิ่งที่เกิดขึ้นในภาพอย่างลึกซึ้ง และแม่นยำ
ดังนั้นในบทความนี้ เราจะมาทำความเข้าใจในเชิงลึกเกี่ยวกับความหมาย, หลักการ และเทคโนโลยีที่ทำให้คอมพิวเตอร์สามารถ "รู้จำภาพ" ได้ รวมถึงการใช้งาน และอุตสาหกรรมต่าง ๆ ที่มีการนำเทคโนโลยีนี้ไปใช้ เพื่อสร้างประโยชน์ที่หลากหลายด้าน เรามาเริ่มกันเลย ...
Image Recognition หรือการจดจำภาพ คือความสามารถของคอมพิวเตอร์ในการระบุ และจำแนกวัตถุ อย่างเช่น คน, สถานที่, ข้อความ หรือการกระทำ ที่อยู่ภายในภาพดิจิตอล หรือวิดีโอ ซึ่งเป็นการประยุกต์ใช้จาก Computer Vision (การมองเห็นด้วยคอมพิวเตอร์) โดยซอฟต์แวร์ที่เกี่ยวข้องจะทำงานโดยการวิเคราะห์ และประมวลผลเนื้อหาภาพ หรือวิดีโอ แล้วนำมาเปรียบเทียบกับข้อมูลที่ถูกเรียนรู้มาก่อน เพื่อให้ซอฟต์แวร์สามารถ "มองเห็น" และตีความสิ่งที่อยู่ในภาพได้เหมือนกับการมองเห็นของมนุษย์นั่นเอง
ภาพจาก : https://builtin.com/artificial-intelligence/image-recognition
เทคโนโลยี Image Recognition ถูกนำมาใช้งานในชีวิตประจำวันของเราอย่างกว้างขวาง ตั้งแต่ฟีเจอร์การรู้จำใบหน้าที่ใช้ปลดล็อกสมาร์ทโฟน ไปจนถึงการฝากเช็คผ่านแอปพลิเคชันธนาคารมือถือ นอกจากนี้ยังมีการใช้ในด้านการแพทย์ เช่น วิเคราะห์ภาพทางการแพทย์เพื่อตรวจหาก้อนเนื้องอก หรือกระดูกหัก รวมถึงในโรงงานผลิตสินค้าต่าง ๆ ที่ใช้เทคโนโลยีนี้ในการตรวจสอบสินค้าที่อาจมีข้อบกพร่องในสายการผลิต
การทำงานของ Image Recognition เริ่มต้นจากการทำความเข้าใจถึงภาพดิจิตอลกันก่อน ซึ่งมีองค์ประกอบหลักที่เรียกว่า พิกเซล (Pixel) โดยพิกเซลแต่ละตัว ก็คือหน่วยข้อมูลที่เก็บรายละเอียดต่าง ๆ ของภาพ เช่น ความเข้มของแสง หรือระดับความเทา (Gray Level) โดยที่ภาพดิจิตอลจะถูกจัดเรียงพิกเซลเหล่านี้ในรูปแบบตาราง 2 มิติ ให้เป็นภาพที่มนุษย์สามารถมองเห็นได้
ภาพจาก : https://medium.com/@abhapratiti27/image-processing-basics-understanding-pixels-image-sizes-formats-transformations-and-a62d5868ce25
จากนั้นระบบคอมพิวเตอร์จะใช้ข้อมูลเหล่านี้ในการทำงาน ด้วยวิธี "การมองเห็นด้วยคอมพิวเตอร์ (Computer Vision)" ซึ่งจะนำข้อมูลพิกเซลเหล่านี้มาวิเคราะห์เพื่อที่จะระบุ และจำแนกสิ่งต่าง ๆ ในภาพ ระบบนี้จะทำงานคล้ายกับกระบวนการที่มนุษย์ใช้ในการระบุสิ่งต่าง ๆ ในภาพ แต่ไม่จำเป็นต้องใช้การตีความของมนุษย์เองในทุก ๆ ครั้ง
เทคโนโลยีที่นำมาใช้อย่าง Deep Learning ซึ่งเป็นหนึ่งในสาขาของ Machine Learning คือเทคโนโลยีที่ใช้ในการฝึกฝนระบบ Image Recognition ในปัจจุบัน โดยการใช้ Neural Networks หรือเครือข่ายประสาทเทียมที่มีหลายชั้น Neural Networks ทำหน้าที่เหมือนการเลียนแบบสมองมนุษย์ โดยมันสามารถเรียนรู้จากข้อมูลจำนวนมหาศาลที่ได้รับ และพัฒนาความสามารถในการแยกแยะวัตถุต่าง ๆ จากภาพได้อย่างแม่นยำ ระบบจะปรับปรุงตัวเองไปเรื่อย ๆ เมื่อได้รับข้อมูลใหม่ ๆ
โดยในกระบวนการนี้คอมพิวเตอร์จะได้รับ ข้อมูลภาพที่มีการติดป้ายกำกับ (Labelled Data) เช่น ภาพที่บ่งบอกว่าเป็น "สุนัข" หรือ "แมว" ซึ่งทำให้ระบบเรียนรู้ได้ว่า แต่ละประเภทมีลักษณะอย่างไร จากนั้นเมื่อได้รับภาพใหม่ที่ยังไม่เคยเห็นมาก่อน ระบบจะสามารถใช้ข้อมูลที่เรียนรู้มาเพื่อจำแนก และระบุสิ่งที่ปรากฏในภาพนั้น ๆ นั่นเอง
ภาพจาก : https://towardsdatascience.com/10-papers-you-should-read-to-understand-image-classification-in-the-deep-learning-era-4b9d792f45a7
Image Recognition โดยทั่วไปจะถูกแบ่งออกเป็น 3 ขั้นตอนหลักที่สำคัญ ดังนี้
ขั้นแรกของการสร้างระบบรู้จำภาพคือการรวบรวม ข้อมูล ซึ่งจะเป็นภาพ และวิดีโอที่มีขนาดใหญ่ หลากหลาย จากนั้นข้อมูลเหล่านี้จะถูกนำมาวิเคราะห์ และทำการติดป้าย (Annotated) เพื่อระบุลักษณะ หรือคุณสมบัติที่สำคัญ เช่น ภาพของสุนัขจะต้องถูกทำเครื่องหมายว่าเป็น "สุนัข" และถ้าภาพนั้นมีสุนัขหลายตัว ก็ต้องระบุให้ชัดเจน โดยอาจใช้การติดป้าย หรือการสร้างกรอบ (Bounding Box) ขึ้นมารอบ ๆ สุนัขแต่ละตัว
ภาพจาก : https://www.researchgate.net/figure/Sample-images-for-the-datasets-used-in-this-work-From-top-to-bottom-Fish-Recognition_fig1_308744296
เมื่อข้อมูลพร้อมแล้ว ขั้นตอนถัดไปคือการนำข้อมูลเหล่านี้ไปฝึกสอนให้กับ Neural Network เพื่อให้ระบบสามารถเรียนรู้ และรู้จำสิ่งต่าง ๆ ในภาพได้ ในการฝึกสอนนี้ก็จะใช้ข้อมูลที่ติดป้ายกำกับ (Labeled Data) เพื่อให้ระบบสามารถแยกแยะสิ่งต่าง ๆ ได้ เช่นความแตกต่างระหว่าง "แมว" และ "สุนัข"
หากข้อมูลไม่ถูกป้ายกำกับ ระบบจะใช้ Unsupervised Learning หรือการเรียนรู้แบบไม่มีผู้สอน เพื่อวิเคราะห์ และหาความแตกต่างของลักษณะต่าง ๆ ในภาพ โดยหาจุดเด่นที่สำคัญในข้อมูล
สำหรับงานที่เกี่ยวกับการจดจำภาพโดยเฉพาะ หลักการ Convolutional Neural Networks (CNNs) ถือเป็นเทคโนโลยีที่เหมาะสมที่สุด เพราะมันสามารถตรวจจับลักษณะสำคัญในภาพได้โดยไม่ต้องพึ่งพาคนในการกำหนดคุณลักษณะเหล่านั้น ซึ่งระบบ CNN จะมีการจัดชั้นหลายชั้น ซึ่งแต่ละชั้นจะทำหน้าที่แยกแยะลักษณะต่าง ๆ โดยเริ่มจากการใช้ Filters หรือ Kernels ในการสแกนพิกเซลของภาพเพื่อหาความสัมพันธ์ทางคณิตศาสตร์ เช่น ขอบ หรือมุมในภาพ นั่นเอง
ภาพจาก : https://www.analyticsvidhya.com/blog/2021/06/image-classification-using-convolutional-neural-network-with-python/
จากนั้น CNN จะใช้ข้อมูลที่ได้จากชั้นแรก เพื่อมองเห็นส่วนที่ใหญ่ขึ้นในภาพ และจะทำการวิเคราะห์คุณลักษณะที่ซับซ้อนมากขึ้นไปเรื่อย ๆ จนกระทั่งสามารถระบุได้ว่าภาพนั้นแสดงถึงอะไร โดยอ้างอิงจากคุณลักษณะที่ได้จากการเรียนรู้ในแต่ละชั้น
เมื่อระบบรู้จำภาพได้รับการฝึกฝนจนเสร็จสิ้นแล้ว มันก็จะสามารถนำข้อมูลใหม่ ๆ เช่น ภาพ หรือวิดีโอที่ยังไม่เคยเห็นมาใช้ในการคาดการณ์ ระบุประเภทของภาพได้ ระบบจะทำการเปรียบเทียบกับข้อมูลที่เคยฝึกมา และจากนั้นจะตัดสินใจว่าในภาพนั้นมีสิ่งใดบ้าง หรือระบุประเภทของวัตถุในภาพได้
จากนั้น ระบบจะนำผลการคาดการณ์นี้ไปใช้ในการตัดสินใจ หรือดำเนินการต่อ เช่น รถยนต์ที่ขับเคลื่อนอัตโนมัติจะหยุดเมื่อพบสัญญาณไฟแดง หรือกล้องรักษาความปลอดภัยจะระบุว่าในภาพมีการหยิบอาวุธออกมา และส่งการแจ้งเตือนทันที
Image Recognition ทำให้เครื่องสามารถระบุสิ่งต่าง ๆ ในภาพได้อย่างแม่นยำ และรวดเร็ว ไม่แพ้การมองเห็นของมนุษย์ในบางครั้งอาจทำได้แม่นยำกว่า และทำได้ในระดับที่ละเอียดกว่าเสียอีก เมื่อระบบได้เรียนรู้ที่จะรู้จำสิ่งต่าง ๆ แล้ว ก็สามารถนำไปใช้ให้เครื่องทำงานตามคำสั่งได้ทันที
การค้นหาภาพผ่านเครื่องมืออย่าง Google Lens เป็นตัวอย่างที่เห็นได้ชัดของImage Recognition ช่วยให้ผู้ใช้ค้นหาข้อมูลจากภาพได้อย่างทันที ตัวอย่างเช่น เมื่อเราถ่ายภาพดอกไม้ที่ไม่รู้จักในสวน แล้วใช้ Google Lens เพื่อตรวจสอบ ก็สามารถรู้ได้ทันทีว่าเป็นดอกอะไร พร้อมทั้งข้อมูลเสริมอื่น ๆ อีกมากมาย นอกจากนี้ Google Lens ยังใช้ OCR (Optical Character Recognition) เพื่ออ่านข้อความในภาพ และแปลภาษาให้เราได้ทันที
ภาพจาก : https://memeburn.com/2019/06/how-to-use-google-lens/
ในวงการการแพทย์ Image Recognition มีบทบาทสำคัญในกระบวนการวิเคราะห์ภาพทางการแพทย์ เช่น การตรวจ MRI หรือ X-ray โดยสามารถตรวจพบความผิดปกติที่เกิดขึ้นในระยะแรก ๆ ได้ ช่วยให้แพทย์สามารถระบุ และติดตามลักษณะของเนื้องอกได้อย่างแม่นยำยิ่งขึ้น นอกจากนี้ยังใช้ในการวิเคราะห์ภาพในด้านรังสีวิทยา, จักษุวิทยา และพยาธิวิทยาอีกด้วย
ภาพจาก : https://www.sentisight.ai/the-use-of-ai-image-recognition-in-medicine/
ในมุมของการค้าปลีก Image Recognition ช่วยให้การทำงานในร้านค้ารวดเร็ว และแม่นยำมากขึ้น ไม่ว่าจะเป็นการตรวจสอบสินค้า หรือจัดการสต็อกสินค้า ยกตัวอย่างเช่น หากร้านค้าถ่ายภาพตู้เย็นที่เต็มไปด้วยขวดเครื่องดื่ม ระบบรู้จำภาพสามารถระบุได้ทันทีว่ามีขวดไหนจากแบรนด์ไหนบ้าง และเรียนรู้ข้อมูลเพิ่มเติมเกี่ยวกับสินค้า เช่น รสชาติ หรือปริมาณสินค้าในแต่ละกล่อง นอกจากนี้ ยังสามารถใช้ระบบนี้ในการติดตามพฤติกรรมลูกค้าสำหรับวิเคราะห์ข้อมูลได้อย่างแม่นยำ
ภาพจาก : https://infrrd.medium.com/image-recognition-for-product-and-shelf-monitoring-and-analysis-d9898a7a0016
ในการรักษาความปลอดภัย Image Recognition ถูกใช้ในระบบเฝ้าระวัง และตรวจจับเหตุการณ์ผิดปกติระบบสามารถติดตาม บุคคล, วัตถุ หรือกิจกรรมที่น่าสงสัย เพื่อป้องกันเหตุการณ์ที่ไม่คาดคิด ตัวอย่างเช่น Ambient.ai ที่ใช้ระบบรู้จำภาพร่วมกับกล้องรักษาความปลอดภัยในการตรวจจับภัยคุกคาม โดยสามารถแยกแยะได้ว่าเหตุการณ์ไหนน่าสงสัย เช่น การที่บุคคลถือมีดในล็อบบี้ของสำนักงาน ซึ่งมันน่าสงสัยมากกว่าการถือมีดในครัว
ภาพจาก : https://sirixmonitoring.com/blog/facial-recognition-security-camera/
Image Recognition, Computer Vision และ Object Detection เป็นเทคโนโลยีที่เกี่ยวข้องกับการมองเห็น และตีความข้อมูลจากภาพ หรือวิดีโอ แต่มีความแตกต่างกันในบทบาท และการทำงานของแต่ละอัน Computer Vision เป็นสาขากว้างของปัญญาประดิษฐ์ที่สอนให้คอมพิวเตอร์ "เห็น" และเข้าใจข้อมูลภาพ เช่น การจำแนกภาพ (Image Classification), การตรวจจับวัตถุ (Object Detection) และการแยกแยะฉาก (Scene Segmentation) Image Recognition เป็นกระบวนการหนึ่งใน Computer Vision ที่เน้นการจำแนก และระบุวัตถุในภาพ เช่น การบอกว่าในภาพมี "รถ" หรือ "สุนัข"
และในส่วน Object Detection คือการตรวจจับวัตถุในภาพที่ซับซ้อนกว่า เพราะไม่เพียงแค่ระบุวัตถุ แต่ยังต้องหาตำแหน่ง, ขนาด และทิศทางของมัน โดยใช้ Deep Learning ช่วยให้การตรวจจับแม่นยำยิ่งขึ้น ทั้งสามเทคโนโลยีนี้มักทำงานร่วมกันในแอปพลิเคชันต่าง ๆ ที่ต้องการให้คอมพิวเตอร์สามารถเข้าใจ และโต้ตอบกับสิ่งต่าง ๆ ในสภาพแวดล้อมได้อย่างมีประสิทธิภาพนั่นเอง
การจดจำภาพ (Image Recognition) ถือเป็นเครื่องมือที่สำคัญ ช่วยให้คอมพิวเตอร์สามารถ "มองเห็น" และตีความข้อมูลจากภาพได้เหมือนกับมนุษย์ ไม่เพียงแต่ทำให้ชีวิตประจำวันสะดวกขึ้น แต่ยังเปิดโอกาสให้เราใช้งานในหลากหลายอุตสาหกรรมอย่างแพร่หลาย ตั้งแต่การแพทย์ การค้าปลีก ไปจนถึงระบบความปลอดภัยในสถานที่ต่าง ๆ เทคโนโลยีนี้ได้ขับเคลื่อนโลกดิจิทัลให้ก้าวหน้าไปอีกขั้น และจะยังคงมีบทบาทสำคัญในการพัฒนาเทคโนโลยีใหม่ ๆ ในอนาคต
|