Prompt Guide GPT 1.5

1. ภาพรวมของเทคโนโลยี (Introduction)

GPT Image 1.5 เป็นโมเดลสร้างภาพรุ่นล่าสุดจาก OpenAI ที่เปิดตัวในช่วงปลายปี 2025 โดยถือเป็นวิวัฒนาการครั้งสำคัญที่เปลี่ยนจากการใช้ระบบ Diffusion แบบดั้งเดิม มาเป็นสถาปัตยกรรมแบบ Native Multimodal Token Prediction

เปลี่ยนจาก “การลดสัญญาณรบกวน” เป็น “การทำความเข้าใจคำสั่ง”: โมเดลนี้ทำงานโดยการ “อ่าน” และ “เข้าใจ” ตรรกะของคำสั่งในลักษณะเดียวกับโมเดลภาษา (LLM) ทำให้สามารถปฏิบัติตามคำสั่งที่ซับซ้อนได้โดยตรง ไม่ใช่แค่การจับคู่คีย์เวิร์ดแบบเดิม

ประสิทธิภาพที่สูงขึ้น: สถาปัตยกรรมใหม่ทำให้สร้างภาพได้รวดเร็วขึ้นถึง 4 เท่า และลดต้นทุนลง 20% เมื่อเทียบกับรุ่นก่อนหน้า เปิดโอกาสให้ใช้งานในระดับการผลิตจริง (Production) ได้อย่างมีประสิทธิภาพ

2. ขีดความสามารถเด่น (Key Capabilities)

GPT Image 1.5 ถูกพัฒนาขึ้นเพื่อลบจุดอ่อนของ AI รุ่นเก่า และเน้นการใช้งานเชิงตรรกะและโครงสร้างที่แม่นยำ:

การใช้เหตุผลเชิงพื้นที่ (Spatial Reasoning): มีความสามารถโดดเด่นในการจัดวางองค์ประกอบตามตรรกะ เช่น การวาดตารางขนาด 6×6 ช่อง โดยที่แต่ละช่องมีวัตถุแตกต่างกัน หรือการประกอบฉากห้องนั่งเล่นตามคำสั่งว่าอะไรอยู่บนโต๊ะหรือฝาผนังได้อย่างถูกต้องแม่นยำ
การเรนเดอร์ข้อความขั้นสูง (Advanced Text Rendering): สามารถสร้างข้อความในภาพได้อย่างถูกต้องและอ่านออกจริง ไม่ว่าจะเป็นป้ายโฆษณา อินโฟกราฟิก หรือหน้าจอแอปพลิเคชัน แก้ปัญหา “ภาษาต่างดาว” ใน AI รุ่นเก่า
การแก้ไขด้วยคำสั่ง (Instruction-Based Editing): รองรับการแก้ไขภาพด้วยภาษาธรรมชาติ (เช่น “เปลี่ยนหมวกสีแดงเป็นหมวกบีนนี่สีฟ้า”) โดยระบบจะรักษาองค์ประกอบอื่นของภาพ (Identity Locking) ไว้อย่างครบถ้วนเสมือนการศัลยกรรมตกแต่ง
ความสมจริงทางภาพถ่าย: เข้าใจคำศัพท์เทคนิคการถ่ายภาพและพิกัดทางภูมิศาสตร์ เพื่อจำลองแสงและบรรยากาศได้สมจริงตามวันเวลาและสถานที่

3. หลักการสั่งงานอย่างมืออาชีพ (Prompt Engineering Guide)

แนวทางการเขียนคำสั่งต้องเปลี่ยนจาก “การสุ่มคำหลัก” (Keyword Soup) มาเป็น “ภาษาธรรมชาติที่มีโครงสร้าง” (Structured Natural Language) โดยใช้กรอบแนวคิด “Structure + Goal”:

ฉากหลัง (Scene): กำหนดสถานที่และบริบท
ตัวแบบหลัก (Subject): ระบุตัวละครหรือวัตถุ
รายละเอียดสำคัญ (Key Details): วัสดุ สี และลักษณะเฉพาะ
ข้อมูลทางเทคนิค (Technical Specs): การจัดแสง เลนส์กล้อง และสไตล์

เทคนิคสำคัญ:

ความจำเพาะเจาะจงของวัสดุ: แทนที่จะบอกแค่สี ให้ระบุวัสดุ เช่น “เก้าอี้ไม้เชอร์รี่หุ้มเบาะกำมะหยี่” เพื่อให้ได้พื้นผิวที่สมจริง
ศัพท์เทคนิคการถ่ายภาพ: ใช้คำศัพท์ผู้กำกับภาพ เช่น Golden Hour (แสงอุ่น), Rim lighting (แสงตัดขอบ), 50mm lens (มุมมองปกติ) หรือ Subsurface scattering (แสงทะลุผิวหนัง) เพื่อหลีกเลี่ยงภาพที่ดูเป็นพลาสติก
การใส่ข้อความ: ต้องใส่ข้อความที่ต้องการในเครื่องหมายคำพูดคู่ (“…”) เสมอ และระบุฟอนต์หรือสไตล์ให้ชัดเจน

4. ข้อควรระวังและแนวทางการแก้ไขปัญหา (Precautions & Troubleshooting)

เพื่อให้ได้ผลลัพธ์คุณภาพสูงสุด ผู้ใช้งานควรตระหนักถึงประเด็นทางเทคนิคดังนี้:

ปัญหาผิวพลาสติก (Plastic Skin): หากภาพดูเรียบเกินไป ให้เพิ่มคำสั่งเกี่ยวกับพื้นผิว เช่น pores (รูขุมขน), skin texture (พื้นผิวผิวหนัง) หรือ unretouched (ไม่ผ่านการรีทัช)
ข้อความสะกดผิด: หากข้อความยาวเกินไปอาจเกิดความผิดพลาด ให้แบ่งข้อความเป็นวลีสั้น ๆ ใช้โหมดคุณภาพสูง (quality=”high”) และใส่เครื่องหมายคำพูดให้ครบถ้วน
วัตถุลอย (Floating Objects): หากวัตถุดูไม่สมจริง ให้เพิ่มคำสั่ง Contact shadows (เงาสัมผัสพื้น) หรือ Grounded เพื่อให้วัตถุดูวางอยู่บนพื้นจริงตามหลักฟิสิกส์
Negative Prompts: โมเดลนี้ไม่เน้นการใช้คำสั่งเชิงลบ (สิ่งที่ห้ามทำ) เหมือนระบบอื่น แต่ควรใช้การสั่งงานเชิงบวกที่ชัดเจนแทน เช่น “Ensure no text” (ตรวจสอบว่าไม่มีข้อความ)

5. บทสรุปการใช้งาน (Conclusion)

GPT Image 1.5 เป็นเครื่องมือที่เปลี่ยนสถานะของ AI สร้างภาพจาก “ของเล่น” สู่ “เครื่องมือระดับอุตสาหกรรม” ความสำเร็จในการใช้งานขึ้นอยู่กับ “ความแม่นยำ” ของผู้ใช้งานในการสวมบทบาทเป็น “ผู้กำกับ” (Director) ที่สามารถควบคุมแสง มุมกล้อง และการจัดวางผ่านภาษาที่ละเอียดและมีโครงสร้าง เพื่อสร้างสรรค์ผลงานที่ตรงตามเจตนาทางศิลปะอย่างแท้จริง

อ่าน Prompt Guide ของแต่ละ Model ได้ที่นี้

Prompt Guide

Seedream 4.5

Prompt Guide

Google Nanobanana Pro

Prompt Guide

FLUX.2

Prompt Guide