ดาวน์โหลดโปรแกรมฟรี
       
   สมัครสมาชิก   เข้าสู่ระบบ
THAIWARE.COM | ทิปส์ไอที
 

Data Lake คืออะไร ? รู้จักคลังข้อมูลขนาดใหญ่ที่รองรับ และจัดการข้อมูลทุกประเภท

Data Lake คืออะไร ? รู้จักคลังข้อมูลขนาดใหญ่ที่รองรับ และจัดการข้อมูลทุกประเภท
ภาพจาก : https://www.freepik.com/free-ai-image/abstract-digital-wave-flow-background_81438605.htm
เมื่อ :
|  ผู้เข้าชม : 2,486
เขียนโดย :
0 Data+Lake+%E0%B8%84%E0%B8%B7%E0%B8%AD%E0%B8%AD%E0%B8%B0%E0%B9%84%E0%B8%A3+%3F+%E0%B8%A3%E0%B8%B9%E0%B9%89%E0%B8%88%E0%B8%B1%E0%B8%81%E0%B8%84%E0%B8%A5%E0%B8%B1%E0%B8%87%E0%B8%82%E0%B9%89%E0%B8%AD%E0%B8%A1%E0%B8%B9%E0%B8%A5%E0%B8%82%E0%B8%99%E0%B8%B2%E0%B8%94%E0%B9%83%E0%B8%AB%E0%B8%8D%E0%B9%88%E0%B8%97%E0%B8%B5%E0%B9%88%E0%B8%A3%E0%B8%AD%E0%B8%87%E0%B8%A3%E0%B8%B1%E0%B8%9A+%E0%B9%81%E0%B8%A5%E0%B8%B0%E0%B8%88%E0%B8%B1%E0%B8%94%E0%B8%81%E0%B8%B2%E0%B8%A3%E0%B8%82%E0%B9%89%E0%B8%AD%E0%B8%A1%E0%B8%B9%E0%B8%A5%E0%B8%97%E0%B8%B8%E0%B8%81%E0%B8%9B%E0%B8%A3%E0%B8%B0%E0%B9%80%E0%B8%A0%E0%B8%97
A- A+
แชร์หน้าเว็บนี้ :

Data Lake คืออะไร ? รู้จักคลังข้อมูลขนาดใหญ่ที่รองรับ และจัดการข้อมูลทุกประเภท

ในโลกที่ข้อมูลถูกสร้างขึ้นทุกวินาที การจัดการข้อมูลจำนวนมหาศาลจึงกลายเป็นความท้าทายสำคัญขององค์กรต่าง ๆ และสิ่งที่อยู่เบื้องหลังกระบวนการทั้งหมดคือคำว่า "ดาต้าเลค (Data Lake)" หรือ "ทะเลสาบข้อมูล" อาจจะฟังดูเหมือนคำศัพท์ทางเทคนิคที่ซับซ้อน แต่อันที่จริงแล้วมันก็คือคลังข้อมูลขนาดใหญ่ ที่สามารถรองรับข้อมูลทุกประเภท ไม่ว่าจะเป็นข้อมูลที่มีโครงสร้าง (Structured Data) หรือแบบ ไม่มีโครงสร้าง (Unstructured Data) ก็สามารถจัดเก็บได้ไว้ในที่เดียวกันได้เช่นกัน

บทความเกี่ยวกับ Big Data อื่นๆ

Data Lake เปรียบเหมือนกับทะเลสาบที่กว้างใหญ่ และลึก สามารถเก็บข้อมูลจากแหล่งต่าง ๆ ได้อย่างไม่มีขีดจำกัด ตรงตัวตามชื่อของมัน วันนี้เราจะพาทุกคนมาทำความเข้าใจให้ลึกซึ้งยิ่งขึ้นว่า Data Lake คืออะไร?, มีความเป็นมาอย่างไร ?, ทำไมถึงต้องใช้, ข้อดีข้อสังเกตของ Data Lake และอื่น ๆ อีกมากมาย มาดูกันว่าทำไมมันถึงเป็นเครื่องมือที่สำคัญในการจัดการข้อมูลสำหรับทุกองค์กร ?

เนื้อหาภายในบทความ

ทะเลสาบข้อมูล คืออะไร ? (What is Data Lake ?)

เรามาเริ่มต้นกันที่ความหมายของ Data Lake ก่อนเลย  Data Lake ก็คือ ระบบ หรือคลังข้อมูลที่สามารถเก็บข้อมูลทุกประเภท ทั้งข้อมูลที่มีโครงสร้าง (Structured Data) อย่างเช่นข้อมูลที่อยู่ใน ฐานข้อมูล (Database)  และข้อมูลที่ไม่มีโครงสร้าง (Unstructured Data) เช่น อีเมล (E-Mail), เอกสาร (Document), รูปภาพ (Image) หรือแม้กระทั่งข้อมูลที่มาจากเซนเซอร์ หรือโซเชียลมีเดีย โดยไม่จำเป็นต้องจัดรูปแบบข้อมูลให้เป็นระเบียบก่อน หากมองอย่างง่ายก็เหมือนกับการใช้คลังเก็บของที่สามารถเก็บทุกสิ่งทุกอย่างได้โดยไม่ต้องแยกประเภทนั่นเอง

Data Lake คืออะไร ? รู้จักคลังข้อมูลขนาดใหญ่ที่รองรับ และจัดการข้อมูลทุกประเภท
ภาพจาก : https://blog.kensho.com/structured-vs-unstructured-data-what-you-need-to-know-f1e7ce61cd1e

สิ่งที่ทำให้ Data Lake น่าสนใจคือ ความยืดหยุ่นในการจัดเก็บข้อมูล เนื่องจากไม่จำเป็นต้องกำหนดโครงสร้างของข้อมูลในช่วงแรก ทำให้การเก็บข้อมูลในลักษณะนี้ช่วยให้สามารถนำข้อมูลทั้งหมดมาใช้ได้ในอนาคต แม้ว่าเราจะไม่รู้ล่วงหน้าว่าต้องการข้อมูลประเภทไหน ทำให้ Data Lake แตกต่างจาก Data Warehouse ที่ต้องมีการออกแบบโครงสร้างข้อมูลล่วงหน้า และจัดเก็บในรูปแบบที่มีการจัดระเบียบแล้ว

Data Lake คืออะไร ? รู้จักคลังข้อมูลขนาดใหญ่ที่รองรับ และจัดการข้อมูลทุกประเภท
ภาพจาก : https://learn.microsoft.com/en-us/azure/architecture/data-guide/scenarios/data-lake

นอกจากนี้ Data Lake ยังรองรับการวิเคราะห์ข้อมูลแบบหลากหลายผ่านซอฟต์แวร์ ตั้งแต่แสดงผลข้อมูลต่าง ๆ ใน แดชบอร์ด (Ddashboard), ทำการวิเคราะห์เชิงลึก (Advanced Analytics) ไปจนถึง การประมวลผลข้อมูลขนาดใหญ่ (Big Data Analytics) หรือการใช้งานในงานที่เกี่ยวกับ การเรียนรู้ของเครื่อง (Machine Learning)

และยิ่งไปกว่านั้น การสร้าง Data Lake สามารถทำได้ทั้ง ภายในองค์กรเอง (On-Premise) หรือในระบบ คลาวด์ (Cloud-Based) ซึ่งขึ้นอยู่กับความต้องการ และสภาพแวดล้อมขององค์กรนั้น ๆ ซึ่งการที่มี Data Lake ก็จะช่วยให้การจัดการ และวิเคราะห์ข้อมูลมีความคล่องตัว สามารถทำงานได้ในขอบเขตที่กว้างขวางมากขึ้นนั่นเอง

หรืออีกนัยหนึ่ง Data Lake ก็เปรียบเสมือน "ทะเลข้อมูล" ที่สามารถรวบรวมทุกสิ่งที่เกี่ยวกับข้อมูล ทั้งจากแหล่งที่มีโครงสร้าง และไม่มีโครงสร้าง จัดเก็บได้ง่าย และพร้อมใช้ในการวิเคราะห์ หรือค้นหาข้อมูลในอนาคตที่มีประโยชน์ต่อการตัดสินใจทางธุรกิจนั่นเอง

ความเป็นมาของ ทะเลสาบข้อมูล (History of Data Lake)

ทุกอย่างเริ่มต้นในปี ค.ศ. 2011 (พ.ศ. 2554) James Dixon ซึ่งขณะนั้นดำรงตำแหน่งเป็นประธานเจ้าหน้าที่ฝ่ายเทคโนโลยี (CTO) ของบริษัท Pentaho ได้คิดค้นคำว่า Data Lake ขึ้นมา เพื่อตอบสนองถึงความจำเป็นในการจัดเก็บข้อมูลที่หลากหลาย และมีขนาดใหญ่ โดยการใช้คำว่า "Data Lake" เป็นการเปรียบเทียบกับ Data Mart ซึ่งเป็นคลังข้อมูลขนาดเล็กที่เก็บข้อมูลเฉพาะ ซึ่งเลือกสรรจากข้อมูลดิบ (Raw Data) มาใช้ในการวิเคราะห์ในงานนั้น ๆ เพียงไม่กี่งาน

Data Lake คืออะไร ? รู้จักคลังข้อมูลขนาดใหญ่ที่รองรับ และจัดการข้อมูลทุกประเภท
ภาพจาก : https://www.youtube.com/watch?v=bFNPW2Kdgyk

ซึ่ง Dixon มองเห็นว่าการใช้ Data Mart มีข้อจำกัดหลายประการ ตัวอย่างก็เช่น ปัญหาการจัดเก็บข้อมูลที่มันแยกออกจากกัน (ข้อมูลแบบ "Silo") ทำให้ไม่สามารถนำข้อมูลมารวมกันเพื่อการวิเคราะห์ให้ดีได้ และนั่นคือเหตุผลที่เขาได้เสนอแนวคิด Data Lake ที่สามารถเก็บข้อมูลทุกประเภทในรูปแบบดิบ ๆ โดยไม่จำเป็นต้องกำหนดโครงสร้าง หรือจัดระเบียบข้อมูลล่วงหน้า ข้อมูลจากแหล่งต่าง ๆ สามารถรวมอยู่ในที่เดียวกันได้อย่างยืดหยุ่น และสามารถนำไปใช้ได้ตามความต้องการในอนาคต

นอกจากนี้ในงานศึกษาของ PricewaterhouseCoopers (PwC) พวกเขาเองก็ได้ยืนยันว่า Data Lake เป็นเครื่องมือที่สามารถ "ยุติการแยกข้อมูล" ที่พบในระบบคลังข้อมูลแบบเดิม ๆ ได้เป็นอย่างดี โดยองค์กรจำนวนมากเริ่มนำเทคโนโลยี Hadoop มาใช้ในการสร้าง Data Lake เพื่อรวบรวมข้อมูลจากแหล่งต่าง ๆ ทั้งข้อมูลจากฐานข้อมูลภายในองค์กร, ข้อมูลจากเซนเซอร์ หรือแม้แต่ข้อมูลจากโซเชียลมีเดีย ไว้ในที่เดียวกัน

Data Lake คืออะไร ? รู้จักคลังข้อมูลขนาดใหญ่ที่รองรับ และจัดการข้อมูลทุกประเภท
ภาพจาก : https://people.com/human-interest/pwc-letting-40000-employees-work-remotely-indefinitely/

ซึ่ง Hadoop ก็คือแพลตฟอร์มโอเพนซอร์สที่ได้รับความนิยมในการจัดการ และประมวลผลข้อมูลขนาดใหญ่ (Big Data) โดยเฉพาะในกรณีที่ข้อมูลมีขนาดมหาศาล และหลากหลายประเภท ซึ่งไม่สามารถจัดการได้ง่ายๆ นั่นเอง

Data Lake คืออะไร ? รู้จักคลังข้อมูลขนาดใหญ่ที่รองรับ และจัดการข้อมูลทุกประเภท
ภาพจาก : https://www.inetsoft.com/info/hadoop_graphical_report_tools/

ทำไมเราถึงต้องใช้ ทะเลสาบข้อมูล ? (Why do we need Data Lake ?)

องค์กรที่สามารถใช้ข้อมูลมาสร้างมูลค่าทางธุรกิจได้อย่างเต็มที่ มักจะมีความได้เปรียบในการแข่งขันอย่างชัดเจน Data Lake ก็คือหนึ่งในเครื่องมือที่ช่วยให้องค์กรสามารถทำเช่นนั้นได้ จากการสำรวจของ

Aberdeen บริษัทที่วิจัย และที่ปรึกษาที่มีความเชี่ยวชาญในด้านเทคโนโลยีสารสนเทศ พบว่า องค์กรที่นำ Data Lake ไปใช้งาน สามารถสร้างการเติบโตทางธุรกิจได้มากกว่าคู่แข่งถึง 9% การใช้ Data Lake ช่วยให้องค์กรสามารถทำการวิเคราะห์ข้อมูลใหม่ ๆ ด้วยการเรียนรู้ของเครื่อง (Machine Learning) จากแหล่งข้อมูลต่าง ๆ เช่น ไฟล์บันทึก (Log File), ข้อมูลจากการกดเข้าชม, โซเชียลมีเดีย หรือแม้แต่ข้อมูลจาก อุปกรณ์ IoT ที่ถูกเก็บรวบรวมใน Data Lake ได้เช่นกัน

Data Lake คืออะไร ? รู้จักคลังข้อมูลขนาดใหญ่ที่รองรับ และจัดการข้อมูลทุกประเภท
ภาพจาก : https://www.iiba.org/business-analysis-blogs/the-rise-of-machine-learning-a-game-changer-for-business-analysis/

และด้วยความยืดหยุ่นในการจัดเก็บข้อมูลแบบนี้ องค์กรก็สามารถใช้เครื่องมือหลายประเภทในการวิเคราะห์ข้อมูลได้เช่น

  • การใช้คำสั่ง SQL
  • การวิเคราะห์ข้อมูลขนาดใหญ่ (Big Data Analytics)
  • การค้นหาข้อความเต็มรูปแบบ (Full-text Search)
  • การวิเคราะห์ข้อมูลแบบเรียลไทม์ (Real-time Analytics)
  • การเรียนรู้ของเครื่อง (Machine Learning)

ซึ่งวิธีการวิเคราะห์เหล่านี้ช่วยให้องค์กรสามารถตัดสินใจ และดำเนินการตามโอกาสทางธุรกิจได้เร็วขึ้น รวมทั้งช่วยให้สามารถดึงดูดลูกค้า รักษาฐานลูกค้าเดิม และเพิ่มประสิทธิภาพการทำงานได้อย่างตรงจุดเพราะมีข้อมูลรองรับนั่นเอง

เปรียบเทียบ ข้อดี และข้อสังเกตของ Data Lake (Data Lake Pros and Cons)

จากที่เราได้พูดถึง Data Lake กันมาในหัวข้อก่อน ๆ ซึ่งดูจะมีประโยชน์มาก ๆ สำหรับธุรกิจในยุคปัจจุบันที่ข้อมูลของลูกค้าเป็นแหล่งขับเคลื่อนสำคัญ ทีนี้เราลองมาดูข้อดี และ ข้อเสียของมันเพื่อให้เห็นภาพที่ชัดเจนขึ้น

ข้อดีของ Data Lake

1. การตัดสินใจที่รวดเร็ว และดีขึ้น

สามารถเก็บข้อมูลจากแหล่งต่าง ๆ ได้มากขึ้นในเวลาที่น้อยลง ทำให้การตัดสินใจในองค์กรมีความรวดเร็ว และแม่นยำมากขึ้น รวมข้อมูลจากแหล่งต่าง ๆ เช่น ระบบบริหารความสัมพันธ์ลูกค้า (CRM), โซเชียลมีเดีย (Social Media) และประวัติการซื้อ (Purchase History) เพื่อเข้าใจลูกค้าที่ทำกำไรสูงสุด และลดการสูญเสียฐานลูกค้า

Data Lake คืออะไร ? รู้จักคลังข้อมูลขนาดใหญ่ที่รองรับ และจัดการข้อมูลทุกประเภท
ภาพจาก : https://www.freepik.com

2. ส่งเสริมการนวัตกรรมในการวิจัย และพัฒนากระบวนการ

ช่วยทีม R&D ทดสอบสมมติฐาน และประเมินผลได้เร็วขึ้น เช่นเลือกวัสดุที่เหมาะสมในออกแบบผลิตภัณฑ์ หรือวิจัยด้านยารักษาโรค ใช้ข้อมูลจาก IoT ในการปรับปรุงกระบวนการผลิต และลดต้นทุนการดำเนินงาน

Data Lake คืออะไร ? รู้จักคลังข้อมูลขนาดใหญ่ที่รองรับ และจัดการข้อมูลทุกประเภท
ภาพจาก : https://www.freepik.com

ข้อสังเกตของ Data Lake

1. การจัดการข้อมูลยังไม่ชัดเจน

ข้อมูลที่เก็บใน Data Lake มักจะไม่มีการควบคุมจัดระเบียบที่ดี อาจทำให้ข้อมูลหาย หรือไม่สามารถใช้งานได้

Data Lake คืออะไร ? รู้จักคลังข้อมูลขนาดใหญ่ที่รองรับ และจัดการข้อมูลทุกประเภท
ภาพจาก : https://panzura.com/blog/unstructured-data-hard-manage/

2. ความเสี่ยงจาก "Data Swamp"

หากไม่มีการจัดทำแคตาล็อกข้อมูล หรือการป้องกันที่เหมาะสม ข้อมูลใน Data Lake อาจกลายเป็น "Data Swamp" หรือทำให้ข้อมูลกลายเป็นสิ่งที่ยากต่อการค้นหา และใช้งานได้จริง เหมือนกับบ่อโคลนที่เต็มไปด้วยข้อมูลที่ไม่สะอาด และไร้ระเบียบ ที่ไม่สามารถเชื่อถือได้

Data Lake คืออะไร ? รู้จักคลังข้อมูลขนาดใหญ่ที่รองรับ และจัดการข้อมูลทุกประเภท
ภาพจาก : https://dataedo.com/cartoon/data-swamp

การนำไปใช้งาน และพัฒนาการของ ทะเลสาบข้อมูล (Applications and Evolution of Data Lake)

ปัจจุบันหลายองค์กรหันมาใช้บริการจัดเก็บข้อมูลบนคลาวด์ เช่น Google Cloud Storage และ Amazon S3 เนื่องจากที่ความสะดวกในการเข้าถึงข้อมูล และความปลอดภัยที่สูง แต่นอกจากนี้ก็ยังมีระบบไฟล์แบบกระจาย  อย่าง Apache Hadoop Distributed File System (HDFS) ที่ช่วยให้การจัดการข้อมูลขนาดใหญ่เป็นไปอย่างมีประสิทธิภาพ โดยระบบเหล่านี้ช่วยให้องค์กรสามารถเก็บข้อมูลได้ง่ายและสามารถเข้าถึงข้อมูลเหล่านั้นได้ทุกเมื่อ

ในวงการการศึกษา แนวคิดเรื่อง Data Lake ก็กำลังได้รับความสนใจเพิ่มขึ้น โดยเฉพาะใน Cardiff University ที่ได้พัฒนา Personal DataLake ขึ้นมาเพื่อจัดการข้อมูลขนาดใหญ่ของผู้ใช้งานแต่ละคน โดยการสร้างจุดศูนย์กลางในการรวบรวมข้อมูลส่วนตัวทั้งหมด ทั้งยังสามารถแชร์ข้อมูลได้อย่างสะดวก ง่ายแต่มีประสิทธิภาพดี

และในช่วงเริ่มต้นซอฟต์แวร์ Data Lake อย่าง Hadoop 1.0 ก็ยังมีข้อจำกัดอยู่บางประการ เพราะรองรับแค่การประมวลผลข้อมูลแบบ Batch-Oriented หรือการประมวลผลแบบชุด (Map Reduce) ซึ่งการใช้งานจำเป็นต้องมีความเชี่ยวชาญในภาษาการเขียนโปรแกรมด้วย ภาษา Java และเครื่องมือที่ใช้ในการประมวลผลแบบ Batch อื่นๆ เช่น Apache Pig, Apache Spark, และ Apache Hive แต่ในปัจจุบันได้มีการพัฒนาเครื่องมือ และเทคโนโลยีใหม่ ๆ ที่ช่วยให้การใช้งานง่ายขึ้น และสามารถรองรับการประมวลผลข้อมูลได้หลากหลายรูปแบบมากขึ้นนั่นเอง

Data Lake คืออะไร ? รู้จักคลังข้อมูลขนาดใหญ่ที่รองรับ และจัดการข้อมูลทุกประเภท
ภาพจาก : https://profvkshrivastava.medium.com/introduction-to-hadoop-part-3-ea63e271bb72

บทสรุปเกี่ยวกับ ทะเลสาบข้อมูล (Data Lake Conclusion)

มาถึงส่วนสุดท้ายกันแล้ว ก็สรุปได้ว่า Data Lake คือคลังข้อมูลที่มีความยืดหยุ่นสูง ที่สามารถเก็บข้อมูลทุกประเภททั้งที่มีโครงสร้าง และไม่มีโครงสร้าง โดยไม่ต้องจัดระเบียบล่วงหน้า ซึ่งการใช้ Data Lake ช่วยให้องค์กรสามารถวิเคราะห์ข้อมูลได้หลากหลายด้วยเทคนิคต่าง ๆ เช่น Big Data Analytics, Machine Learning และ Advanced Analytics ซึ่งช่วยเพิ่มความรวดเร็วในการตัดสินใจ, ปรับปรุงความสัมพันธ์กับลูกค้า และเพิ่มประสิทธิภาพในการดำเนินงาน

แต่อย่างไรก็ตาม หากขาดการควบคุม และการจัดการข้อมูลที่ดี ข้อมูลใน Data Lake ก็อาจกลายเป็น Data Swamp ที่ยากต่อการนำมาใช้ประโยชน์ได้อย่างเต็มที่นั่นเอง


ที่มา : en.wikipedia.org , www.dataclarity.uk.com , aws.amazon.com

0 Data+Lake+%E0%B8%84%E0%B8%B7%E0%B8%AD%E0%B8%AD%E0%B8%B0%E0%B9%84%E0%B8%A3+%3F+%E0%B8%A3%E0%B8%B9%E0%B9%89%E0%B8%88%E0%B8%B1%E0%B8%81%E0%B8%84%E0%B8%A5%E0%B8%B1%E0%B8%87%E0%B8%82%E0%B9%89%E0%B8%AD%E0%B8%A1%E0%B8%B9%E0%B8%A5%E0%B8%82%E0%B8%99%E0%B8%B2%E0%B8%94%E0%B9%83%E0%B8%AB%E0%B8%8D%E0%B9%88%E0%B8%97%E0%B8%B5%E0%B9%88%E0%B8%A3%E0%B8%AD%E0%B8%87%E0%B8%A3%E0%B8%B1%E0%B8%9A+%E0%B9%81%E0%B8%A5%E0%B8%B0%E0%B8%88%E0%B8%B1%E0%B8%94%E0%B8%81%E0%B8%B2%E0%B8%A3%E0%B8%82%E0%B9%89%E0%B8%AD%E0%B8%A1%E0%B8%B9%E0%B8%A5%E0%B8%97%E0%B8%B8%E0%B8%81%E0%B8%9B%E0%B8%A3%E0%B8%B0%E0%B9%80%E0%B8%A0%E0%B8%97
แชร์หน้าเว็บนี้ :
Keyword คำสำคัญ »
เขียนโดย
นักเขียน : Editor    นักเขียน
 
 
 

ทิปส์ไอทีที่เกี่ยวข้อง

 


 

แสดงความคิดเห็น