Taking too long? Close loading screen.

DALL·E 2: ปัญญาประดิษฐ์ผู้สร้างภาพตามคำบรรยาย – Part I

Sep 8, 2022

จะน่าตื่นเต้นมากแค่ไหน เมื่อปัญญาประดิษฐ์หรือ AI (Artificial Intelligence) ชื่อ DALL·E 2 สามารถสร้างสรรค์รูปภาพตามคำบรรยายที่ได้รับมาจากมนุษย์นั้นให้กลายเป็นรูปที่ “เสมือนจริง” นั่นคือ แท้จริงแล้ว…รูปเหล่านั้นไม่ได้มีอยู่จริง!

รูปที่ 1 “A kooikerhondje using a camera on a movie set”
สุนัขสายพันธ์ Kooikerhondje ใช้กล้องถ่ายรูปในกองถ่ายภาพยนต์  (Source: DALLE: AI Made This Thumbnail!)

รูปที่ 1 แสดงรูปสุนัขแสนน่ารักข้างหลังกล้องถ่ายรูป แต่ดังที่เกริ่นไป…รูปเหล่านี้ไม่ได้เป็นรูปที่มีอยู่จริง แต่เป็นรูปที่ DALL·E รุ่นที่ได้รับการพัฒนาล่าสุดสร้างขึ้นมาจากคำบรรยายที่มนุษย์ป้อนเข้าไปในระบบอย่าง “A kooikerhondje using a camera on a movie set” หรือ “สุนัขสายพันธ์ Kooikerhondje ใช้กล้องถ่ายรูปในกองถ่ายภาพยนต์” ดูด้วยตาเปล่าแล้ว เราต่างต้องทึ่งกับความสมจริงของรูปภาพ แสงเงาและความละเอียดของภาพ แสดงให้เห็นถึงความก้าวหน้าของปัญญาประดิษฐ์ที่เข้าใจและเชื่อมโยงได้ว่า องค์ประกอบของรูปภาพอย่างสุนัขพันธ์ Kooikerhondje และกล้องถ่ายรูปที่สามารถเห็นได้ในกองถ่ายภาพยนต์มีลักษณะอย่างไร และยังสามารถนำองค์ประกอบเหล่านั้นมารวมกันได้อย่างแนบเนียนอีกด้วย

เห็นได้ชัดว่า ความสามารถของ DALL·E นั้นไม่ธรรมดาจริง ๆ ในบทความนี้เราจึงขอเชิญผู้อ่านทุกท่านได้มาทำความรู้จักกันมากขึ้นกับ DALL·E 2 หรือ DALL·E รุ่นที่ 2 ซึ่งเป็นศิลปินในร่างปัญญาประดิษฐ์รุ่นล่าสุดจากทีมงาน OpenAI ที่สามารถแปลงคำบรรยายให้กลายเป็นรูปภาพ ทั้งความเป็นมาของปัญญาประดิษฐ์ตัวนี้และตัวอย่างผลงานอันน่าทึ่งที่เราต้องตกตะลึงกัน

ความเป็นมาและพัฒนาการของ DALL·E

จุดเริ่มต้นของการพัฒนา DALL·E มีความเกี่ยวข้องโดยตรงกับ GPT-3 (3rd generation Generative Pre-trained Transformer) ซึ่งเป็นปัญญาประดิษฐ์อันโด่งดังอีกหนึ่งชิ้นจากทีมงาน OpenAI โดย GPT-3 เปิดตัวให้ใช้งานผ่าน API (Application Programming Interface) ในช่วงเดือนมิถุนายน ปี 2020 เป็นระบบโครงข่ายประสาทเทียม (Neural network) ที่เรียนรู้ภาษาธรรมชาติของมนุษย์ ในระบบมีจำนวนพารามิเตอร์มากถึง 1.75 แสนล้านตัว ถือได้ว่าเป็นโมเดลทางภาษาที่ใหญ่และซับซ้อนที่สุดตัวหนึ่งในโลก ความสามารถของ GPT-3 นั้นก็ไม่ธรรมดาเลยทีเดียวเพราะสามารถเข้าใจภาษาที่มนุษย์ป้อนเข้าไปในระบบและสามารถสร้างประโยคมาโต้ตอบได้  สำหรับรายละเอียดเพิ่มเติมของ GPT-3 รวมถึงข้อจำกัดของโมเดลสามารถอ่านได้ที่บทความ GPT-3 คืออะไร? ปัญญาประดิษฐ์ที่จะมาแย่งงานคนทั่วโลกในอนาคต!?

จากความสามารถของ GPT-3 ที่สามารถสร้างข้อความที่สอดคล้องกันได้ ในปีเดียวกัน ทางทีมงาน OpenAI ได้ต่อยอดในการใช้ระบบโครงข่ายประสาทเทียมนี้มาเติมรูปภาพที่ขาดหายไป กลายเป็นโมเดลที่มีชื่อว่า Image GPT (บทความวิจัยที่เกี่ยวข้องสามารถอ่านได้ที่ Generative Pretraining from Pixels by Mark Chen et.al. (2020)) พบว่า โมเดลนี้ยังทำงานได้ดีเลยทีเดียว ตามตัวอย่างที่แสดงต่อไปนี้

รูปที่ 2 ตัวอย่างผลงานการต่อเติมรูปภาพที่ขาดหายไปด้วย Image GPT
โดยรูปทางซ้ายมือคือรูปที่ป้อนเข้าระบบเพื่อให้ต่อเติมให้สมบูรณ์ รูปที่อยู่ตรงกลางทั้งหมดคือรูปที่ Image GPT ต่อเติมขึ้นมา เปรียบเทียบกับรูปขวามือสุดซึ่งเป็นรูปภาพต้นฉบับ (Source: OpenAI)

ทีมงาน OpenAI จึงเกิดแรงบันดาลใจในการใช้ภาษาที่ได้รับการป้อนจากมนุษย์มาสร้างหรือปรับเปลี่ยนรูปภาพ ก่อกำเนิด  DALL·E รุ่นแรกในเดือนมกราคม ปี 2021 ซึ่งเป็นโมเดลพัฒนาต่อยอดจากระบบโครงข่ายประสาทเทียมของ GPT-3 และมีจำนวนพารามิเตอร์ 1.2 หมื่นล้านตัว (บทความวิจัยที่เกี่ยวข้องสามารถอ่านได้ที่ Zero-Shot Text-to-Image Generation by Aditya Ramesh et. al. (2021))

ความโดดเด่นของ DALL·E คือ สามารถสร้างรูปภาพตามคำบรรยายที่มนุษย์ป้อนเข้าไปในระบบได้โดยทันที แม้ว่าจะไม่เคยเห็นมาก่อนในช่วงการฝึกโมเดล และยังมีความเข้าใจในองค์ประกอบของรูปภาพต่าง ๆ เช่น สไตล์และเทคนิคการวาดภาพหรือความแตกต่างของกาลเวลา

รูปที่ 3 ตัวอย่างการสร้างรูปภาพที่ไม่มีจริงโดย DALL·E รุ่นแรก (Source: OpenAI)
รูปที่ 4 ตัวอย่างภาพของนาฬิกาตามช่วงเวลาโดย DALL·E รุ่นแรก ซึ่งมีความทันสมัยมากขึ้นตามกาลเวลา (Source: OpenAI)

แม้ว่าความสามารถของ DALL·E รุ่นแรกจะแสดงให้เห็นถึงศักยภาพของปัญญาประดิษฐ์ในการเข้าใจภาษาของมนุษย์และสามารถสร้างรูปภาพที่ไม่มีจริงขึ้นมาได้ แต่รูปภาพนั้นยังมีข้อจำกัดอยู่ โดยเฉพาะความละเอียดและความสมจริงของรูปภาพ ทำให้มนุษย์ยังสามารถแยกแยะได้ว่า รูปนี้เป็นรูปที่ไม่ได้สร้างจากมนุษย์

ต่อมาในช่วงเดือนเมษายนปี 2022 เพียงแค่หนึ่งปีผ่านไปหลังจากเปิดตัว DALL·E รุ่นแรก OpenAI เปิดตัว DALL·E 2 หรือ DALL·E รุ่นที่ 2 และเรียกเสียงฮือฮาในปี 2022 นี้เลยทีเดียว (บทความวิจัยที่เกี่ยวข้องสามารถอ่านได้ที่ Hierarchical Text-Conditional Image Generation with CLIP Latents by Aditya Ramesh et. al. (2022))

DALL·E 2 หรือ DALL·E รุ่นที่ 2 สร้างรูปภาพที่มีความละเอียดของภาพดีขึ้นถึง 4 เท่า และมีพัฒนาการก้าวกระโดดทั้งในแง่ของการสร้างรูปภาพให้ตรงกับคำบรรยายและความสมจริง

รูปที่ 5 ตัวอย่างความแตกต่างของความละเอียดของรูปภาพจาก DALL·E 1 และ DALL·E 2
จากคำบรรยาย “a painting of a fox sitting in a field at sunrise in the style of Claude Monet” หรือ “ภาพวาดพู่กันรูปสุนัขจิ้งจอกในทุ่งหญ้าในเวลาพระอาทิตย์ขึ้นตามสไตล์ของศิลปิน Claude Monet” (Source: OpenAI)

ตัวอย่างต่อไปนี้ คือ ผลงานของ DALL·E 2 ที่แสดงศักยภาพในการสร้างรูปภาพที่หลากหลายภายใต้คำบรรยายเดียวกันโดยยังคงองค์ประกอบหลักของภาพและลักษณะเด่นของศิลปะไว้ อีกทั้งยังมีความละเอียดของภาพสูงอีกด้วย

รูปที่ 6 “An astronaut riding a horse in a photographic style”
นักบินอวกาศขี่ม้าโดยรูปภาพเป็นแบบภาพถ่าย (Source: OpenAI)
รูปที่ 7 “An astronaut riding a horse as a pencil drawing”
นักบินอวกาศขี่ม้าโดยรูปภาพเป็นลักษณะวาดด้วยดินสอ (Source: OpenAI)
รูปที่ 8 “Teddy bears working on new AI research on the moon in the 1980s”
ตุ๊กตาหมีทำงานวิจัยด้าน AI ชิ้นใหม่บนดวงจันทร์ในช่วงปี 1980  (Source: OpenAI)
รูปที่ 9 “A painting inspired by the Mona Lisa of a goat taking pictures with an iPad”
แพะถ่ายรูปด้วย iPad โดยรูปเป็นลักษณะภาพวาดพู่กันที่ได้รับแรงบันดาลใจจากรูปภาพโมนาลิซ่า
(Source: DALLE: AI Made This Thumbnail!)

ความสามารถเพิ่มเติมอันน่าทึ่งของ DALL·E 2

นอกเหนือจากการสร้างรูปภาพตามคำบรรยายที่มีความละเอียดภาพสูงแล้ว DALL·E 2 ยังมีความสามารถเพิ่มเติม นั่นคือ การเพิ่มองค์ประกอบในรูปภาพต้นฉบับโดยใช้คำบรรยาย (Inpainting) การสร้างรูปภาพใหม่ตามต้นฉบับ (Variations) และการปรับเปลี่ยนรูปภาพต้นฉบับโดยใช้คำบรรยาย (Text diffs)

Inpainting: ความสามารถในการเพิ่มองค์ประกอบของภาพต้นฉบับโดยใช้คำบรรยาย

DALL·E 2 มีความสามารถในการปรับเปลี่ยนองค์ประกอบของรูปภาพต้นฉบับ โดยสามารถเลือกตำแหน่งในรูปต้นฉบับที่ต้องการเปลี่ยน จากนั้นสามารถพิมพ์คำสั่งเพื่อให้เพิ่มองค์ประกอบรูป ณ ตำแหน่งนั้นได้ ดังแสดงตัวอย่างในรูปที่ 10 ที่มีการเพิ่มพระจันทร์เข้ามาในรูปภาพในตำแหน่งที่เลือกไว้ 

รูปที่ 10 รูปซ้ายมือคือ รูปต้นฉบับ ในขณะที่ในรูปขวามือ กรอบสีแดงแสดงตำแหน่งในรูปที่ต้องการเปลี่ยน
(Source: DALL-E 2 Inpainting / Editing Demo)
รูปที่ 11 ตัวอย่างการใช้คำสั่งในการเปลี่ยนองค์ประกอบของภาพในตำแหน่งที่เลือก โดยในกรณีนี้ใช้คำบรรยาย “a photo of a car in front of a scenic background with a moon” (รูปรถข้างหน้าทิวทัศน์และพระจันทร์)
เพื่อเพิ่มพระจันทร์เข้ามาในรูป (Source: DALL-E 2 Inpainting / Editing Demo)

Variations: ความสามารถในการสร้างรูปภาพใหม่ตามต้นฉบับ

DALL·E 2 นั้นยังมีความสามารถในการสร้างรูปภาพใหม่โดยลอกเลียนแบบจากรูปต้นฉบับ โดยยังคงองค์ประกอบหลักของภาพแต่สร้างรายละเอียดของภาพที่แตกต่างกันออกไปดังในรูปหญิงสาวโพกหัวนี้

รูปที่ 12 รูปด้านซ้ายคือรูปภาพ “Girl with a pearl earring” (รูปเด็กสาวใส่ตุ้มหูไช่มุก) ที่เป็นต้นแบบให้กับ DALL·E 2 ลอกเลียนแบบและสร้างขึ้นมาใหม่ในรูปตรงกลางและรูปด้านขวา (Source: OpenAI)

Text diffs: ความสามารถในการปรับเปลี่ยนรูปภาพต้นฉบับโดยใช้คำบรรยาย

DALL·E 2 นั้นยังมีความสามารถในการปรับเปลี่ยนรูปภาพต้นฉบับ โดยใส่คำบรรยายสำหรับรูปก่อนเปลี่ยนและคำบรรยายสำหรับรูปหลังเปลี่ยนได้ ตัวอย่างในรูปที่ 13 คือ รูปต้นฉบับซึ่งเป็นบ้านสมัย Victorian โดยคำบรรยายของรูปก่อนเปลี่ยนคือ “a Victorian house” (บ้านสมัย Victorian) และคำบรรยายรูปหลังเปลี่ยนคือ “a modern house” (บ้านในยุคสมัยปัจจุบัน) วิดีโอในรูปที่ 13 แสดงภาพที่ DALL·E 2 สร้างมาประกอบกันเพื่อแสดงถึงการปรับเปลี่ยนรูปต้นฉบับให้กลายเป็นบ้านยุคสมัยปัจจุบันตามโจทย์

รูปที่ 13 การเปลี่ยนรูปบ้านสมัย Victorian ให้กลายเป็นบ้านยุคปัจจุบันโดย DALL·E 2 (Source: Aditya Ramesh)

จะเห็นได้เลยว่า ความสามารถของ DALL·E 2 นั้นไม่ธรรมดาเลยทีเดียว ถ้าคุณสนใจถึงเทคโนโลยีเบื้องหลังของ DALL·E 2 รวมถึงข้อจำกัดและผลกระทบของปัญญาประดิษฐ์ตัวนี้ที่อาจจะสร้างความกังวลให้ในสังคม สามารถติดตามต่อไปได้ในภาคที่สองของบทความนี้

แหล่งอ้างอิง

เนื้อหาโดย ศรัณธร ภู่สิงห์ 
ตรวจทานและปรับปรุงโดย อนันต์วัฒน์ ทิพย์ภาวัต

Saranthorn Phusingha, PhD

Data Scientist Government Big Data Institute (GBDi)

Ananwat Tippawat

Data Scientist Government Big Data institute (GBDi)

Sign up to join Big Data Community Thailand

Make comments, write articles, and contribute to our community.