AI สามารถถูกบังคับให้ลืมข้อมูลที่ไม่ควรจำได้หรือไม่?

8 hours ago
1 min read

เครื่องมือใหม่ที่อาจช่วยให้นักวิจัยตรวจสอบว่า AI “เลิกเรียนรู้” ข้อมูลส่วนตัวของผู้ใช้งาน

การสร้าง AI หรือ โมเดลภาษาขนาดใหญ่ (Large Language Models - LLM) ที่มีประสิทธิภาพสูงนั้น จำเป็นต้องใช้ข้อมูลจำนวนมหาศาล ไม่ว่าจะเป็นหนังสือ บทความ หรือหน้าเว็บไซต์ต่าง ๆ โดยในทางทฤษฎีแล้ว LLM จะประมวลผลข้อมูลเหล่านี้เพื่อสร้างข้อความใหม่ที่ไม่ซ้ำกับต้นฉบับ แต่ในทางปฏิบัติกลับไม่เป็นเช่นนั้นเสมอไป บางครั้ง LLM สามารถสร้างข้อความที่ตรงกับต้นฉบับแบบคำต่อคำ ซึ่งอาจนำไปสู่การละเมิดลิขสิทธิ์ หรือการเปิดเผยข้อมูลอ่อนไหว เช่น หมายเลขบัตรเครดิต ที่อยู่ หรือข้อมูลส่วนตัวอื่นๆ ของผู้ใช้งาน ปรากฏการณ์นี้เรียกว่า memorization และถือเป็นความท้าทายสำคัญสำหรับนักพัฒนา AI ตัวอย่างเช่น OpenAI และ Microsoft กำลังเผชิญข้อกล่าวหาการละเมิดลิขสิทธิ์ดังกล่าวนี้จาก The New York Times เนื่องจาก ChatGPT สามารถสร้างข้อความที่ตรงกับบทความข่าว การทำความเข้าใจว่า memorization เกิดขึ้นได้อย่างไร และจะป้องกันได้อย่างไร ยังคงเป็นโจทย์ยากสำหรับนักวิทยาศาสตร์ เนื่องจากการศึกษาวิจัยปรากฏการณ์ดังกล่าวต้องใช้ทรัพยากรการประมวลผลสูงและมีต้นทุนมาก

นักวิจัยได้พัฒนาเครื่องมือที่มีชื่อว่า “Hubble” นับเป็นเครื่องมือโอเพนซอร์สตัวแรกที่ออกแบบมาเพื่อศึกษาปัญหา memorization โดยเฉพาะ “ความหวังของเราคือ Hubble จะช่วยกระตุ้นให้เกิดงานวิจัยด้าน memorization มากยิ่งขึ้น” Johnny Wei นักศึกษาปริญญาเอกจาก University of Southern California (USC) ผู้ทำวิจัยกล่าว นอกจากนี้ Robin Jia นักวิทยาศาสตร์คอมพิวเตอร์จาก USC ซึ่งร่วมพัฒนา Hubble ยังให้ความเห็นว่า "การศึกษาปรากฏการณ์นี้ทำได้ยาก ส่วนหนึ่งเป็นเพราะ LLM เติบโตขึ้นจากข้อมูล มากกว่าจะถูกออกแบบอย่างเป็นระบบในเชิงวิศวกรรม” นั่นหมายความว่าพฤติกรรมของโมเดลอาจเปลี่ยนแปลงไปในลักษณะที่คาดเดาได้ยากเมื่อมีการเพิ่มข้อมูลฝึกใหม่ อีกทั้งการทดลองยังต้องใช้ทรัพยากรจำนวนมาก เนื่องจากนักวิจัยจำเป็นต้องฝึกโมเดลอย่างน้อยสองชุด ชุดหนึ่งที่มีข้อมูลเป้าหมาย และอีกชุดที่ไม่มีข้อมูลเป้าหมายเพื่อเปรียบเทียบผลลัพธ์ ซึ่งโดยมากโมเดลทั้งสองจะมีพฤติกรรมใกล้เคียงกันมาก ทำให้ต้องใช้พลังประมวลผลจำนวนมากเพื่อแยกแยะความแตกต่างที่มีนัยสำคัญ

ในการรองรับความต้องการด้านคอมพิวเตอร์ดังกล่าว ทีมวิจัยจาก USC และ Max Planck Institute for Software Systems ได้ใช้ทรัพยากรจากโครงการ National AI Research Resource ของมูลนิธิวิทยาศาสตร์แห่งชาติ สหรัฐฯ (National Science Foundation - NSF) ซึ่งเชื่อมโยงนักวิจัยกับหน่วยงานรัฐและภาคเอกชนที่มีศักยภาพด้านคอมพิวเตอร์ โดยบริษัท NVIDIA ได้สนับสนุนเวลาในการประมวลผล 200,000 ชั่วโมง ทำให้ทีมสามารถฝึกและทดสอบโมเดล LLM เฉพาะกิจได้ ทำให้นักวิจัยสามารถศึกษาว่าข้อมูลฝึกประเภทต่าง ๆ ส่งผลต่อพฤติกรรมของ LLM อย่างไร เช่น การทดสอบว่าข้อความที่มีลิขสิทธิ์จะถูกจดจำหรือไม่ โดยการใส่ข้อมูลจาก Wikipedia และ Project Gutenberg ลงในชุดฝึก นอกจากนี้ ยังมีการทดลองกับข้อความที่ผ่านการดัดแปลง (Paraphrase) รวมถึงการฝังข้อมูลส่วนบุคคลจำลอง เช่น ประวัติของบุคคลสมมติ เพื่อตรวจสอบว่าโมเดลสามารถนำข้อมูลเหล่านี้กลับมาได้หรือไม่

ผลการศึกษาพบว่า ยังไม่มีวิธีป้องกันการ memorization ได้อย่างสมบูรณ์ อย่างไรก็ตาม ทีมวิจัยสามารถยืนยันข้อสังเกตสำคัญบางประการ เช่น ข้อมูลที่ถูกป้อนในช่วงท้ายของการฝึกมีแนวโน้มสูงกว่าที่จะถูกจดจำและถูกนำกลับมาใช้

อย่างไรก็ดี ประเด็นนี้ถือเป็นดาบสองคม เนื่องจากแนวทางการฝึกโมเดลสมัยใหม่มักจัดให้ข้อมูลที่มีคุณภาพสูงอยู่ในช่วงท้าย เพื่อเพิ่มประสิทธิภาพของโมเดล นักพัฒนาบางรายอาจพยายามลดความเสี่ยงโดยใส่ข้อมูลอ่อนไหวไว้ตั้งแต่ช่วงต้นของการฝึก เพื่อให้ถูกกลบด้วยข้อมูลอื่นในภายหลัง แต่แนวทางนี้อาจนำไปสู่ปัญหา catastrophic forgetting ซึ่งทำให้โมเดลสูญเสียความสามารถในการเรียกคืนข้อมูลที่เรียนรู้มาก่อนหน้า โดยรวมแล้ว ผลลัพธ์ชี้ให้เห็นถึงความท้าทายในการสร้างสมดุลระหว่างความสามารถในการจดจำและการหลีกเลี่ยงการจดจำเกินจำเป็น

ในระยะต่อไป ทีมผู้พัฒนา Hubble หวังว่าเครื่องมือนี้จะสามารถเปิดให้ใช้งานฟรีและมีรายละเอียดเผยแพร่ออนไลน์ เพื่อกระตุ้นให้นักวิจัยทั่วโลกเข้ามาศึกษาปรากฏการณ์ memorization มากขึ้น แม้จะมีโมเดลโอเพนซอร์สอื่น ๆ อยู่แล้ว แต่ Hubble ถือเป็นหนึ่งในเครื่องมือชุดแรกที่ออกแบบมาเพื่อศึกษาพฤติกรรมนี้โดยเฉพาะ Stella Biderman ผู้อำนวยการ EleutherAI ระบุว่า Hubble ซึ่งผ่านการฝึกด้วยข้อมูลขนาดใหญ่กว่าโมเดล Pythia ประมาณ 1.6 เท่า มีศักยภาพสูงในการสนับสนุนการวิจัยเชิงลึก Biderman ยังแสดงความสนใจเป็นพิเศษต่อความเป็นไปได้ในการพัฒนาเทคนิค “unlearning” หรือการทำให้โมเดลลืมข้อมูลที่ไม่ต้องการ ซึ่งอาจทำให้โมเดลทำงานเสมือนว่าไม่เคยได้รับข้อมูลนั้นมาก่อน แม้ปัจจุบันยังมีข้อจำกัดด้านทรัพยากรคอมพิวเตอร์ในการทดสอบแนวทางนี้ แต่ Hubble อาจช่วยเปิดทางให้การทดลองดังกล่าวเกิดขึ้นได้ในอนาคต

ผลงานนี้มีกำหนดนำเสนอในการประชุม International Conference on Learning Representations (ICLR) ครั้งที่ 14 ซึ่งจะจัดขึ้นที่นครรีโอเดจาเนโร ประเทศบราซิล ตั้งแต่วันที่ 23 เมษายน 2026 นี้

ที่มา:

AIs can ‘memorize’ data they shouldn’t. Can they be forced to forget?, https://www.science.org/content/article/ais-can-memorize-data-they-shouldn-t-can-they-be-forced-forget

AI สามารถถูกบังคับให้ลืมข้อมูลที่ไม่ควรจำได้หรือไม่?

Related Posts

Comments

+1 (202) 944-5200
ost@thaiembdc.org
facebook.com/ohesdc

1024 Wisconsin Ave. NW Suite 104,
Washington D.C 20007

Comments

+1 (202) 944-5200 ost@thaiembdc.org facebook.com/ohesdc 1024 Wisconsin Ave. NW Suite 104, Washington D.C 20007

+1 (202) 944-5200
ost@thaiembdc.org
facebook.com/ohesdc

1024 Wisconsin Ave. NW Suite 104,
Washington D.C 20007