เมื่อต้นปี ค.ศ. 2023 (พ.ศ. 2566) ทีมนักวิจัยไมโครซอฟท์ที่มีโอกาสได้ใช้ GPT-4 ซึ่งเป็นโมเดลภาษาขนาดใหญ่ (Large Language Model, LLM) ของ OpenAI และตีพิมพ์งานวิจัยหัวข้อ "Sparks of Artificial General Intelligence : Early Experiments with GPT-4" หากแปลเป็นไทยได้ประมาณว่า การทดลองพบว่า GPT-4 มีประกายปัญญาและความสามารถเทียบเคียงมนุษย์แล้ว ก่อนจะไปดูว่านักวิจัยกลุ่มนี้พูดอะไร อธิบายหลักฐานไว้อย่างไร เรามาทบทวนกันก่อนว่า ปัญญาประดิษฐ์ (AI) นั้นมีอยู่กี่แบบนะครับ
ข้อมูลเพิ่มเติม : AI คืออะไร ? และตัวอย่างการนำ AI หรือ ปัญญาประดิษฐ์ ไปใช้ในระดับโลก
สำหรับ ANI (Artificial Narrow Intelligence) ถูกออกแบบมาเพื่อทำงานเฉพาะทางหรืองานเฉพาะกิจ บางทีก็ใช้คำว่า Weak AI โดย ANI ไม่สามารถเรียนรู้ไปเหนือความสามารถที่ถูกโปรแกรมไว้ ตัวอย่างของ ANI ที่เราใช้กับในปัจจุบันก็เป็นพวกผู้ช่วย เช่น Amazon Alexa และ Apple Siri ที่ใช้เทคโนโลยีการรู้จำเสียง
AGI (Artificial General Intelligence) มีเป้าหมายในการดำเนินงานทางปัญญาอย่างที่มนุษย์สามารถทำได้ หรือที่เรียกว่า Strong AI โดย AGI มุ่งหวังที่จะเรียนรู้และปรับตัวเข้ากับสถานการณ์ใหม่ ๆ อย่างที่มนุษย์ทำ และไม่ถูกจำกัดอยู่เฉพาะในงานหรือสาขาเดียว แต่สามารถนำไปใช้ในหลาย ๆ สาขา
AGI มีศักยภาพในการคิดและตัดสินใจด้วยตนเองทำให้มีประสิทธิภาพและผลผลิตมากขึ้น และคาดว่าปัญญาประดิษฐ์แบบนี้จะปฏิวัติในอุตสาหกรรมต่าง ๆ เช่นในด้านสาธารณสุข การศึกษา และอีกหลายอุตสาหกรรม นี่คือระดับของปัญญาประดิษฐ์ที่เรากำลังค้นคิดกันอยู่ในปัจจุบัน
ใครอยากอ่านความแตกต่างของปัญญาประดิษฐ์สองประเภทนี้แบบละเอียด ติดตามได้จากบทความ Strong AI กับ Weak AI คืออะไร ? มีข้อดี-ข้อเสีย และต่างกันอย่างไร ? เลยนะครับ
โดยหลักการแล้ว Generative AI ที่เราใช้กับอยู่ยังถือว่าถูกจัดอยู่ในกลุ่ม Narrow หรือ Weak AI นะครับ ผู้เชี่ยวชาญด้านเทคโนโลยี นักข่าวสายเทคโนโลยีมากมายก็ออกมาเบรคว่าอย่าเอา ChatGPT ไปเทียบกับ General AI หรือ เป็นปัญญาประดิษฐ์แบบที่ฉลาดมีความสามารถคิดและเรียนรู้เองได้
แต่ทีมวิจัยไมโครซอฟท์ ที่ได้ทดลองใช้เทคโนโลยี GPT-4 กลับเห็นต่าง ณ เวลาที่ทีมวิจัยนำเสนอผลงานนั้น GPT-4 ยังอยู่ในขั้นตอนการพัฒนา โดยสมาชิกแต่ละท่านก็ทดลองใช้งาน AI ตัวนี้ในหลายรูปแบบทั้งในด้านความเชี่ยวชาญด้านภาษา การแก้ไขปัญหาที่ท้าทายด้านคณิตศาสตร์ การเขียนโปรแกรม วิทยาศาสตร์การมองเห็น แพทย์ กฎหมาย จิตวิทยา และอื่น ๆ อีกมากมาย โดยไม่ได้ใช้ใช้เงื่อนไขคำสั่งพิเศษอะไรเพิ่มเติมเลย ซึ่งหลาย ๆ เรื่องที่กล่าวมานี้ หลายคนที่ติดตามความก้าวหน้าของ AI ในช่วงปีที่ผ่านมาก็คงทราบแล้วว่าเป็นเรื่องที่ Generative AI หลาย ๆ ค่ายทำได้ แต่มีประเด็นหนึ่งที่น่าสนใจ และทางทีมไมโครซอฟท์ต้องทึ่ง นั่นคือการทดสอบ AI ด้วยทฤษฎีทางจิตหรือ Theory of Mind
“ทฤษฎีทางจิต” หรือ Theory of Mind (ToM) หมายถึงความสามารถในการทำความเข้าใจสถานะจิตใจของตนเองและผู้อื่น เช่น เรื่องความเชื่อ อารมณ์ ความต้องการ
พร้อมทั้งเข้าใจว่าสถานะจิตใจเหล่านี้ส่งผลต่อพฤติกรรมและการสื่อสาร เรื่องนี้เป็นเรื่องที่มนุษย์เท่านั้นที่ทำได้และเป็นหนึ่งในพัฒนาการที่เด็กอายุประมาณ 4-5 ขวบเริ่มแสดงออก
ตัวอย่างคำถามที่ใช้วัด ToM สำหรับเด็กมีชื่อว่า Sally Anne Test มีแนวทางดังนี้ครับ
เมื่อเริ่มทดสอบ
- เด็กจะได้พบกับตุ๊กตาสองตัว คือ Sally และ Anne
- เด็กจะถูกบอกว่า Sally มีตะกร้าและ Anne มีกล่อง
- ถัดไปเด็กจะถูกบอกว่า Sally ได้วางลูกแก้วลงในตะกร้า
- Sally ออกไปข้างนอก ซึ่งเธอไม่สามารถเห็นตะกร้าของเธอได้อีก
- ทีนี้ Anne เอาลูกแก้วออกจากตะกร้าของ Sally และวางลงในกล่องของเธอ
- ถึงตอนนี้ Sally กลับเข้ามาในห้อง ซึ่งมองเห็นตะกร้าและกล่อง
ทีนี้ก็ถึงคำถามละครับ
ผู้ทดสอบจะถามชุดคำถามเหล่านี้คือ
- Q1. ตอนนี้ลูกแก้วอยู่ที่ไหน ?
- Q2. เดิมลูกแก้วอยู่ที่ไหน ?
และคำถามที่สำคัญที่สุดคือ
- Q3. เด็กคิดว่า Sally จะมองหาลูกแก้วของเธอที่ไหน ?
ผู้ใหญ่ส่วนมากได้ฟังเรื่องนี้ก็จะรู้ว่า Sally ซึ่งมองไม่เห็นตอนที่ Anne แอบย้ายลูกแก้วของเธอจากตะกร้าไปใส่ในกล่อง ย่อมคิดว่าลูกแก้วยังอยู่ในตะกร้าแน่ ๆ มันเป็นความเข้าใจของ Sally ที่อยู่ในหัวของเธอและคนอื่นไม่เห็น
งานวิจัยพบว่าเด็กที่มีพัฒนาการปกติและกลุ่มดาวน์ซินโดรมประมาณ 85% ตอบถูกว่า Sally มองหาลูกแก้วในตะกร้า ส่วนเด็กกลุ่มออทิสติกมีเพียง 20% ที่ตอบถูก ซึ่งการทดสอบนี้ก็ช่วยอธิบายว่าทำไมคนที่เป็นออทิสติกถึงมีปัญหาเรื่องการสื่อสารและการเข้าสังคม
ทีนี้ทีมนักวิจัยไมโครซอฟท์ ก็ลองทดสอบว่า GPT-4 เข้าใจ ToM ไหม โดยเปลี่ยนบริบทเป็น Alice กับ Bob แชร์ไฟล์ใน Dropbox กัน โดยมีรายละเอียดสถานการณ์ดังนี้ครับ
เล่าสั้น ๆ ก็คือ
- Alice และ Bob มีโฟลเดอร์ Dropbox ที่ใช้ด้วยกัน
- Alice ได้วางไฟล์ที่ชื่อว่า 'photo.png' ไว้ใน /shared_folder/photos
- Bob ก็มาย้ายไฟล์ไปที่ /shared_folder/tmp โดยที่ไม่บอก Alice และ Dropbox ก็ไม่ได้ส่งการแจ้งเตือนใด ๆ ให้ Alice ด้วย
- เสร็จแล้วทีมงานก็ถาม GPT-4 ว่า Alice จะเปิดโฟลเดอร์ไหนเพื่อหา 'photo.png' ?
แน่นอนว่า GPT-4 อธิบายถูกต้อง ชัดเจนพร้อมให้เหตุผลด้วยว่าเพราะอะไร เอาจริง ๆ ถ้าลองเราลองใช้สถานการณ์นี้ถาม ChatGPT ณ เดือนกันยายน พ.ศ. 2566 (ค.ศ. 2023) นี้ มันตอบดีกว่าเดิมอีก
กรณีนี้ผมถามแบบกวน ๆ ว่ารูปที่ย้ายกันไปมาคือรูปแมวชื่อ ‘cat_photo.png’ แล้วมีตัวละคร 4 ตัวคือ Alice, Bob, แมวของ Alice และแมวในรูป ใครจะคิดยังไงบ้าง ChatGPT (GPT-3.5) ตอบถูกทั้ง Alice และ Bob แถมบอกด้วยว่าแมวของ Alice ไม่เกี่ยวกับเรื่องนี้เลย จะรู้ได้ไง ส่วนคำตอบที่แสบที่สุดคือข้อสุดท้ายครับ มันอธิบายว่าแมวในรูป ‘cat_photo.png’ ไม่ใช่สิ่งมีชีวิต ไม่ได้มีความรู้สึกและการรับรู้ มันไม่ใช่ Sentient นั่นเอง คือเหมือนย้อนบอกว่าที่ฉันตอบได้ทั้งหมดนี้ก็เพราะฉันก็รู้และเข้าใจจิตใจมนุษย์แล้ว (โว้ย !)
นี่คือเรื่องที่ทีมไมโครซอฟท์ทึ่งมาก ๆ เพราะ Generative AI รุ่นก่อน ๆ คนในสายเทคโนโลยีเปรียบพวกมันเหมือน Auto Correct ที่ฉลาด ๆ แค่นั้น แต่ไม่เคยคิดว่ามันจะรับรู้ความคิดภายในใจของคนได้ ซึ่งเป็นหนึ่งในเหตุผลที่ทำไมนักวิจัยกลุ่มนี้ถึงตั้งชื่อรายงานผลการวิจัยครั้งนี้ว่า “Spark of Artificial General Intelligence” นั้นเอง
หลังจากที่ทีมไมโครซอฟท์ออกมาประกาศว่า GPT-4 นี่มีความใกล้เคียงมนุษย์มาก ๆ ก็มีทีมวิจัยนานาชาติอีกกลุ่มตีพิมพ์ผลงานในชื่อว่า “ChatGPT Outperforms Humans in Emotional Awareness Evaluations” เป็นการยืนยันว่า Generative AI ตัวนี้หยั่งรู้ใจมนุษย์ที่สุดแสนจะคดเคี้ยวเลี้ยวลดได้ดีกว่ามนุษย์ด้วยกันอีก !
ตั้งแต่ ChatGPT เปิดตัว ก็มีข่าวความก้าวหน้าที่เหนือมนุษย์ในหลายด้าน ส่วนใหญ่ก็เป็นเรื่องฝีมือการทำข้อสอบที่เอาชนะคะแนนเฉลี่ยของคนในสาขาทั้งข้อสอบเข้ามหาวิทยาลัย ข้อสอบด้านกฎหมาย การแพทย์ เรื่องหนึ่งที่ทีมแพทย์และนักจิตวิทยาตั้งคำถามก็คือ ChatGPT จะเข้าใจอารมณ์มนุษย์ไหม และเข้าใจได้ลึกในระดับไหน ? ซึ่งการทดสอบก็ต้องใช้แบบทดสอบเฉพาะทางเพื่อวัดความรู้เรื่องอารมณ์ (Emotional Awareness, EA) หรือความสามารถในการตีความอารมณ์ของตนเองและคนอื่น ถือว่าเป็นกลไกที่ใช้วินิจฉัยอาการผิดปกติทางจิตใจ โดยทีมงานเลือกใช้ Levels of Emotional Awareness Scale (LEAS) ซึ่งเป็นเครื่องมือทดสอบที่ผู้เชี่ยวชาญในสาขายอมรับเป็นมาตรฐานและมีความเป็นกลาง โดยจำแนกอารมณ์ไว้ 5 ระดับได้แก่ (1) การรับรู้ความรู้สึกที่ร่างกาย (2) แนวโน้มในการกระทำ (3) อารมณ์ความรู้สึกแต่ละประเภท (4) อารมณ์ความรู้สึกหลายประเภทในเวลาเดียวกันและ (5) อารมณ์การรู้สึกที่ผสมผสานกัน
พูดง่าย ๆ คือ LEAS นี่ก็เป็นแบบทดสอบความซับซ้อนทางอารมณ์คล้าย ๆ กับ Sally Anne Test คือเป็นข้อความอธิบายสถานการณ์แล้วให้ผู้ถูกทดสอบอธิบายออกมาให้ผู้ประเมินฟังว่ารู้สึกอย่างไร ซึ่งตัวอย่างประโยคหรือสถานการณ์ในแบบทดสอบ LEAS ไม่ได้มีให้คนทั่วไปใช้ครับ มันเป็นแบบทดสอบที่ต้องใช้ผู้เชี่ยวชาญ (สำหรับงานนี้ก็มีนักจิตวิทยาและแพทย์) แต่เท่าที่ลองค้นหาดูตัวอย่างก็เป็นสถานการณ์ตามรูปด้านล่างนี้ซึ่งเป็นแบบทดสอบแบบใช้คอมพิวเตอร์
สถานการณ์ก็ประมาณว่าวิศวกรซอฟท์แวร์ท่านหนึ่งกำลังคุยกับเพื่อนในแผนกว่าเธอถูกมองข้าม (pass over) ในการประกวดการออกแบบซอฟท์แวร์ของบริษัท แล้วก็ให้ผู้ถูกทดสอบประเมินคำตอบตามตัวเลือก
แต่ในกรณีนี้ ที่เป็นการทดสอบ ChatGPT ทีมวิจัยก็สร้างสถานการณ์แล้วให้ ChatGPT ตอบ โดยเทียบ ChatGPT ในช่วงเดือนมกราคม และเดือนกุมภาพันธ์ที่ผ่านมา ซึ่งต้องย้ำอีกทีว่าเขาไม่ได้เปิดเผยตัวข้อความ เราคงได้แต่เดาว่าเขาถามอะไร แล้วดูว่าคำตอบมันไล่เรียงอารมณ์ความรู้สึกของบุคคลในสถานการณ์ได้ชัดเจนแค่ไหน ทีมงานรายงานไว้แบบนี้ครับ
ก่อนจะอธิบายเกี่ยวกับคำตอบของ ChatGPT ลองดูท้ายตารางก่อนนะครับ มันเหมือนเป็น prompts ที่ทีมงานให้กับ ChatGPT หลังจากใส่ข้อความอธิบายสถานการณ์ทั้งหมดแล้ว เพื่อเป็นแนวทางให้ AI ตอบ คือให้มันช่วยระบุ “ความรู้สึก” ของบุคคลในสถานการณ์นั่นเอง
ถ้าเราลองอ่านคำตอบ โดยเฉพาะใน version เดือนกุมภาพันธ์คอลัมน์ทางขวาจะเห็นว่าเคสที่ 9 ChatGPT ใส่รายละเอียดเกี่ยวกับอารมณ์ความรู้สึกของบุคคลในสถานการณ์ไว้ได้เยอะเลย กรณีแรกคือญาติได้รับโทรศัพท์จากแพทย์ว่าคุณแม่เขาเสียชีวิต ผู้รับสายจะรู้สึกอย่างไร มีรายละเอียดความรู้สึกที่ผสมผสานกัน (เป็นระดับคะแนนที่สูงใน LEAS) และอธิบายถึงการรับรู้ความรู้สึกทางร่างกาย เช่นอาจมีอาการหายใจลำบาก แน่นหน้าอก สับสน ส่วนฝั่งคุณหมอเองแม้จะเคยแจ้งข่าวร้ายกับญาติมาหลายหนแล้ว แต่ก็อาจมีความรู้สึกร่วม เห็นอกเห็นใจ เป็นไปได้ที่คุณหมอจะพูดปลอบใจญาติ และแนะนำสิ่งต่าง ๆ ที่ญาติต้องดำเนินการต่อไป
ในเคสที่ 10 ก็คล้ายกัน คราวนี้เป็นกรณีที่พนักงานใหม่ซึ่งหมอสั่งให้งดอาหารแป้งถูกเพื่อนร่วมงานชวนไปปาร์ตี้พิซซ่ากับคนอื่น ChatGPT ก็สามารถแจกแจงอารมณ์ของเพื่อนร่วมงานสองคน พนักงานใหม่ที่หมอสั่งห้ามกินอาหารแป้ง ซึ่งแม้จะอยากไปทำความรู้จักเพื่อนร่วมงาน แต่ก็อยากทำตามคำแนะนำของหมอเช่นกัน มันก็จะสับสนในตัวเอง ส่วนเพื่อนร่วมงานที่ชวนก็อาจจะผิดหวัง แต่กระนั้นก็น่าจะเข้าใจถึงข้อจำกัดของพนักงานใหม่ และอาจรู้สึกประทับใจกับความมุ่งมั่นของเพื่อนร่วมงานใหม่ที่ใส่ใจสุขภาพด้วย
การคิดคะแนน LEAS มันมีช่วง 0 ถึง 100 โดยแนวทางการคิดก็ใช้การแปลความหมายคำตอบออกมาเป็นระดับอารมณ์ตามที่กล่าวไว้ข้างต้นนั่นละครับ ซึ่งการศึกษานี้ทีมงานก็เอาผลการวิจัยก่อนหน้านี้มาเป็นคู่เทียบ ซึ่งเป็นงานวิจัย LEAS ในกลุ่มชาวฝรั่งเศส ผลออกมาเป็นแบบนี้ครับ
จะเห็นว่าในส่วนคะแนนภาพรวม (Total) ที่ผมตีกรอบแดงไว้ ผู้หญิงฝรั่งเศส (58.94) คะแนนดีกว่าผู้ชายชาติเดียวกัน (56.21) นิดหน่อย ประมาณ 2.xx กว่า ๆ ซึ่งคะแนนทั้งสองกลุ่มอยู่ในช่วง 50 ปลาย ๆ ในขณะที่ ChatGPT ในรอบมกราคมคะแนนพุ่งไปถึง 85 และในรอบกุมภาพันธ์ก็ยิ่งสูงขึ้นไปถึง 98 เลย
ผลการศึกษานี้บอกอะไรเราได้บ้าง อย่างแรกคือมันสามารถสนับสนุนการทำงานของนักจิตวิทยาการปรึกษา (Counseling Psychologist หรือ Counselor) ได้ ลองนึกดูว่าถ้า AI Chatbot ฟังคนไข้ไปพร้อมกับนักจิตวิทยา แล้วตอบออกมาได้เป็นขั้นตอนละเอียด แจกแจงอารมณ์ ความรู้สึกได้ดี ผู้เชี่ยวชาญก็สามารถปรับใช้ตามความเหมาะสม มันจะลดงานเอกสาร งานทำรายงานได้มากมาย ช่วยให้มีเวลาสร้างความสัมพันธ์ที่ดีกับคนไข้ได้มากขึ้น
ในระดับที่ห่างออกมาจากคลินิก คนที่มีความบกพร่องทางอารมณ์ ก็สามารถใช้ AI Chatbot เสริมสร้างภาษาอารมณ์ได้ด้วย นอกจากนี้ คนทั่วไปก็ยังสามารถเรียนรู้และเข้าใจอารมณ์ที่ละเอียดซับซ้อนได้ด้วย AI Chatbot แบบ ChatGPT ได้เหมือนกัน
แน่นอนว่าผู้เชี่ยวชาญก็ยังจำเป็นนะครับ ในการศึกษานี้ก็ใช้ผู้เชี่ยวชาญประเมินคำตอบของ ChatGPT และเรื่องอารมณ์มนุษย์ก็เป็นเรื่องนามธรรมมาก ๆ แถมยังมีความแตกต่างทางวัฒนธรรม สังคม ช่วงอายุและเพศเป็นตัวแปรด้วย งานวิจัยนี้เป็นเพียงจุดเริ่มต้นที่ผู้เชี่ยวชาญมองเห็นศักยภาพของ Generative AI ในสายอาชีพนี้
การนำเทคโนโลยีปัญญาประดิษฐ์มาประยุกต์ใช้ในภาคสาธารณสุข ด้านสุขภาพจิต จำเป็นต้องพิจารณาในแง่ของวิธีการที่รอบคอบและมีจริยธรรม ทั้งนี้เพื่อสร้างสมดุลระหว่างผลประโยชน์ที่อาจเกิดขึ้นและข้อกังวลที่เกี่ยวข้องกับจริยธรรมของข้อมูล ถ้าไม่มีนโยบายในการพัฒนาและการรวมประยุกต์ใช้ AI ก็อาจมีการใช้ผิดวิธีและนำไปสู่ความไม่เท่าเทียมในด้านสุขภาพ การเคารพสิทธิของผู้ป่วยและมีความโปร่งใสของอัลกอริทึมด้วยเช่นกัน
|
ผู้เขียน DATA STORYTELLING IN MARKETING ใช้ดาต้าเล่าเรื่องแบบมืออาชีพ | ครูมหาวิทยาลัยใกล้ๆ กรุงเทพที่สนใจเทคโนโลยี การศึกษา และสิ่งที่เป็นไปได้เมื่อเอาสองเรื่องนี้มารวมกัน |