LOADING STUFF...
K a m e d i a

Loading Website

post01

הלוחשים לתמונה, פרק 6 – עקרונות לכתיבת הנחיות לתמונות.

כפי שראינו בפרק הקודם בסדרת המאמרים הלוחשים לתמונה, מודלים ומסנתזי תמונה שונים מניבים תוצאות שונות ומגוונות. לכל כלי יש סגנון שונה הנובע מסט התמונות שסופק לו בזמן האימון ולכל כלי רשימת הגדרות שונה עליה נרחיב בפרקים הבאים.

אבל לכל מסנתזי התמונות יש (בנתיים) מכנה אחד משותף והוא הצורך להנחות את תהליך יצירת התמונה באמצעות הנחיה טקסטואלית או Prompt.

כפי שראינו בפרקים הראשונים בסדרת המאמרים (פרק 2, פרק 3), רוב המודלים ליצירת תמונות הם שילוב של מודלי שפה גדולים עם מודלי דיפוזיה ליצירת תמונות.

המתכון ה"סודי" ליכולת לתרגם הנחיה לתמונה טמון בתאור הטקסטואלי שמוצמד לתמונות השונות שנאספו מהאינטרנט כחלק מתהליך האימון. תובנה זו תלווה אותנו כחלק מהתהליך לניסוח מדוייק של הנחיות למסנתזי התמונות.

מדוע כל כך חשוב לכתוב הנחיות מדוייקות

כל מי שהתנסה בכלי ליצירת תמונות גילה מהר מאד שניתן לקבל מהכלים הנ"ל תוצאות מרהיבות (במיוחד ב Midjourney שבתהליך האימון שלו היה מיקוד רב בתמונות שנראות יפה לבני אדם), אבל הרבה יותר קשה לקבל מהן את התוצאה הרצויה והמדוייקת לצורך שלכם.

סוד ההצלחה כפי שרבים הבינו, היא היכולת לנסח הנחיות מדוייקות או כפי שרבים קוראים למיומנות זו כיום - Prompt Engineering.

כמו בכל תחום אחר בחיים זמן שווה כסף. ובמקרה של כלי יצירת התמונות המשמעות היא כפולה:

העלות הראשונה שיש לקחת בחשבון היא הזמן שיקח לכם או לעובדים שלכם בכדי להגיע לתוצר המתאים לפעילות השיווקית או הקריאייטיבית בפרויקט הספציפי עליו אתם עובדים.

העלות השניה, היא זמן "הייצור" של התמונות – רוב הכלים מתמחרים את עלות התמונה בזמן הייצור שלה (כלומר זמן העיבוד שלוקח לייצר את התמונה), פרקטית המשמעות היא העלות לכל תמונה שאתם יוצרים.

כך, שככל שההנחיה שלכם פחות מדויקת, ייקח לכם הרבה יותר זמן להגיע לתוצאה הרצויה ובדרך תייצרו הרבה יותר תמונות שאינן מתאימות לצורך הספציפי שלכם.

המשמעות היא בזבוז כפול של כסף - זמן העבודה שלכם וכמות התמונות בדרך ליצירת התוצאה הרצויה.

לא כל ההנחיות נולדו שוות – הנחיות לצילומים או יצירות אומנות.

כאמור רוב המודלים המשמעותיים ליצירת תמונות אומנו על מאגרים עצומים של תמונות מהאינטרנט. ולצורך המאמר הנוכחי שלנו נחלק את התמונות באינטרנט לשתי קטגוריות מרכזיות :

צילומים – כלומר כל מה שנתפס בעדשה של מצלמה.

או יצירות אומנות – כלומר כל תמונה ויזואלית, ציור או סגנון אומנותי אחר שנוצר באופן מלאכותי.

Image

ההבנה שכלי יצירת התמונות מחקים סגנונות וצילומים מהאינטרנט מסייעת לנו לכתוב הנחיות מדוייקות יותר בהתאם לצורך הקריאייטיבי שלנו.

לרוב התמונות ברשת יש תאור מילולי שמתאר את התמונה עצמה. תאור זה לרוב יכלול את הסגנון הייחודי של האומן שיצר אותה, העיצוב והסגנון של התמונה, המקור שלה (לדוגמא סרט קולנוע, סדרת טלויזיה וכו') וכמובן כאשר התמונה היא צילום יתווספו פרטים כגון שם המצלמה, העדשה ושאר הגדרות הצילום.

אחד הטיפים החשובים ביותר שאני יכול לתת לכם, הוא שכאשר אתם יודעים בדיוק מה הסגנון האומנותי או הצילום שאתם רוצים ליצור תתחילו בחיפוש של תמונות באינטרנט עם מילות מפתח המתארות את התוצאה שאתם רוצים לקבל, כאשר תבדקו את התיאורים של התמונות שקיבלתם בתוצאות החיפוש תגלו את מילות המפתח המרכזיות שתוכלו לשלב בהנחיה (Prompt) שלכם בכדי לקבל את התוצאה הרצויה.

שימו לב בתוצאות החיפוש שתמונות של אומנות, אילוסטרציות או ציורים מקבלים בדרך כלל תאור מילולי של התמונה, הסגנון והאומן שיצר אותה בעוד שברוב הצילומים נקבל את הגדרות הצילום, זוית הצילום, התאורה, שם המצלמה, הגדרות הצילום ועוד.

הערה לפני שממשיכים: חשוב מאד לזכור שהכלים השונים מייצרים תוצרים שונים מההנחיה שלכם, בפרק הקודם סקרנו לעומק את ההבדלים וההשפעה שלהם על אורך ההנחיה, נאמנות המודל להנחיה ועוד. למי שפספס את הפרק הקודם מומלץ להשלים את הפער.

מבנה ודגשים כללים להנחיה. 

אין מתכון מדויק ליצירת תמונות בכלי יצירת התמונות השונים, כמות האפשרויות היא כמעט ואין סופית, קחו לדוגמא רק את DALL-E שאומן על יותר מ 400 מיליון תמונות מהאינטרנט ויש לו מעל 16777216 בחזקת 1048567 אפשרויות פוטנציאליות.

למעשה, ניתן לשלב בהנחיה שלכם כל חומר, סגנון, אומן, מצלמה, עדשה, זווית צילום, סצנות מסרטים ועוד ועוד אפשרויות שונות ומגוונות. ולכן במקום לתת לכם מתכון מדויק ננסה ללמד אתכם "לבשל" את נכון את המרכיבים השונים ליצירת תמונה מוצלחת ומדויקת לצורך שלכם.

אורך ההנחיה

למרות שברוב הכלים אין הגבלה טכנית, הניסיון מלמד שהנחיה טובה כוללת בין 30 ל 400 תווים (אותיות). אם אתם יודעים מה התוצאה שאתם רוצים לקבל, תאור מדויק יותר יניב ברוב המקרים תוצאה קרובה יותר לדימוי שאתם רוצים לייצר.

Image

בחלק מהכלים ניתן לייצר תמונה ממספר אמוג'ים או טקסט כללי תוך שילוב מספר מילות מפתח כלליות כגון 4K, 8K, 32K או Award-winning, Artstation, Hyper-Realistic ואחרות. בעוד שאלו יסייעו לקבל תמונה שנראית טוב (כי אלו מילות מפתח של תמונות באיכות גבוהה באינטרנט) הן לא תמיד מסייעות לקבל את התוצאה הרצויה.

תוכן ההנחיה

הנטייה הברורה היא לתאר באופן מילולי את מה שאתם רוצים לראות בתמונה. באופן כללי ברוב הכלים תקבלו תוצאה שפחות או יותר מציגה את התאור שלכם, אך בכדי לקבל תמונה טובה אתם צריכים לחשוב ולכתוב את ההנחיה שלכם קרוב ככל הניתן לתאור תמונות באינטרנט.

*כל זה נכון כיום – תחום ההבנה של השפה הטבעית שבה אתם כותבים והתרגום שלה לתמונה רק משתפר מגרסה לגרסה של כלי יצירת התמונות.

Image

שיnu לב לא לספק יותר מידי פרטים או מידע כללי, בהנחיה שלכם, מודלי השפה נוטים לאבד כיוון כאשר הם מקבלים יותר מידי פרטים סותרים בחלקים השונים של ההנחיה.

כפי שתגלו כשתתנסו, הם לא תמיד יודעים לחבר צבעים לחלקים הנכונים של התמונה, או להציג שתי דמויות עם הבעות פנים שונות, או לשלב שני סגנונות מוחלטים באותה תמונה כגון עכבר מצויר על תמונה של עיר אמיתית (ברוב המקרים תקבלו עכבר שנראה אמיתי על עיר אמיתית. (אבל זה משתפר משמעותית עם כל גרסה שיוצאת).

מבנה ההנחיה

למרות שאין מתכון מדויק, זה מבנה ההנחיה שהצליח לספק לי את התוצאות הטובות ביותר בכלים השונים בהם אני עושה שימוש. כמובן שלכל כלי יש פרמטרים נוספים ומבנה שונה לחלוקת "קטעי" התאור בהנחיה, אך אם תשמרו על מבנה זה כתבנית תצליחו לקבל תוצאות מדויקות יותר.

{תאור האובייקט בתמונה}{תאור נוסף וכללי לתמונה}{תאור האוירה של התמונה}{רקע}{סגנון עיצובי}{שם האומן}{שנת העיצוב או הסגנון}{מסגור וזוית התמונה}{צבעים ו תאורה}
במקרה של צילום נוסיף גם:
{שם מצלמה}{הגדרות צילום}{הגדרות עדשה}

כמובן שאתם לא חייבים לעשות שימוש בכל הפרמטרים אך ככל שתספקו יותר פרמטרים ופרטים כך הסיכוי יגדל לקבל את התוצאה הרצויה.

Image

חשוב להזכיר שוב, שככל שתשתמשו ביותר מילות מפתח שקשורות לצילום כגון סוג מצלמה או עדשה תקבלו סגנון מציאותי יותר. ככל שתספקו מילים וסגנונות שקשורים לאומנות כך התוצאה תהיה אומנותית יותר.

אבל הכיף האמיתי הוא ללא ספק לנסות לשלב בין צילומים לאומנות, סגנונות, חומרים ותיאורים שונים.

שאלות מנחות לכתיבת ההנחיה.

- להלן מספר שאלות שיסייעו לכם בתהליך כתיבת ההנחיה שלכם :
- ממה מורכבת התמונה, מה יופיע בה?
- מה הקומפוזיציה של האלמנטים בתמונה?
- מה הפעולה שהנושא בתמונה מבצע?
- מה הסגנון, הטכניקה האומנותית או האומן שנותן לכם השראה?
- האם אתם רוצים צילום או תמונה אומנותית?
- מה רמת הריאליזם בתמונה?
- מה רמת הפירוט בתמונה?
- איזה חומרים תרצו לשלב באובייקטים בתמונה?
- מה האווירה (הכוללת) הרגשית שהתמונה תייצר?
- עד כמה אנחנו קרובים לנושא בתמונה/צילום? באיזו זווית?
- מה עומק השדה בתמונה/צילום?
- כיצד מואר הנושא? מאיפה? כמה אור?
- האם האור מלאכותי או טבעי? איזה צבע? באיזו שעה ביום?
- באיזו מצלמה או עדשה נעשה שימוש? מאקרו, טלפוטו או זווית רחבה?
- איפה התמונה צולמה? בסטודיו או בחוץ?
- באיזה סרט או פילם נעשה שימוש? דיגיטלי או סרט?
- באיזו שנה התמונה צולמה?

ואלו כמובן רק חלק מהשאלות האפשרויות. זכרו - תחשבו במילות מפתח של תאור תמונות מרחבי הרשת והוסיפו על כך את הפרטים שאתם רוצים.

תוכלו למצוא מגוון רחב של סגנונות והגדרות צילום אפשרויות במאגר הבא באתר שלנו הלוחשים לבינה.

לא חייבים להתחיל מאפס – מקורות השראה ומאגרי הנחיות

אם אתם רק מתחילים את מסע יצירת התמונות בעזרת בינה מלאכותית ג'נרטיבית, הדרך המהירה ביותר להיכנס לעניינים היא לקבל השראה מאחרים.

הרשת מלאה באתרים ומאגרים, רובם בחינם וחלקם מוכרים תבניות והנחיות בעלות של כמה דולרים בודדים.

Image

אתרים אלו מאפשרים לכם לבחור את הפרומפט המתאים לכם על פי מגוון גדול של סגנונות ומחוללים שונים. לאחר שבחרתם תמונה שמצאה חן בעינכם תוכלו לקבל את ההנחיה שבעזרתה נוצרה התמונה ולשנות אותה בהתאם לצורך שלכם.

להלן מקבץ של מאגרים ואתרים שיסייעו לכם להתחיל או לקבל השראה :

PromptHero – (חינם) אחד המאגרים הגדולים ברשת לתמונות וסגנונות למחוללים שונים.
PromptBase – (בתשלום) מאגר עצום של הנחיות בתשלום למחוללים השונים.
PlaygroundAI – (חינם) – מאגר גדול של תמונות וסגנונות למחוללים שונים.
Midlibrary – מאגר עצום של סגנונות למידג'רני.
Lexica – (חינם) – מאגר גדול של תמונות וסגנונות למחוללים שונים.
Mage.Space – (חינם/תשלום) - יצירה וצפיה במאגר גדול של תמונת בעיקר למודל של Stable Diffusion.
Nightcafe – (בתשלום) – מחולל תמונות ומאגר בעיקר ל Stable Diffusion.

וכמובן שיש רבים אחרים וטובים.

לסיכום

ויכוח שכנראה ילווה את התחום עוד חודשים רבים (אם לא שנים) הוא האם זו בכלל אומנות. מבלי להיכנס לדיון הפילוסופי, כתיבת הנחיות למחוללי התמונות הרבה יותר קרובה לאומנות מאשר למדע.

כמו בתהליכי יצירה אחרים, גם במקרה זה לפעמים איבוד כיוון יכול להביא אתכם למקומות מדהימים. תתנסו ותשחקו עם הכלים השונים ובכל מקרה בכל פעם שתשלחו את ההנחיה שלכם למודל אני ממליץ לשלב אצבעות, עכשיו ההנחיה שלכם בידי אלוהי הבינה. 

 

שיתוף :