הלוחשים לתמונה, פרק 5 – בחירת הכלי הנכון לפרויקט יצירת התמונות שלכם.

הלוחשים לבינה - בחירת הכלי הנכון לפרויקט יצירת התמונות שלכם.

עמית קמה

2023-04-27 00:00:00

ללא ספק אחד היישומים המלהיבים ביותר של הבינה מלאכותית הג'נרטיבית הוא היכולת שלה לייצר תמונות מפקודות טקסטואליות. אומנם כפי שראינו במאמר הקודם היכולת הזו אינה חדשה, אך בשלוש שנים האחרונות התרחשו רצף של פריצות דרך שהפכו לעדות ויזואלית מהדהדת להתקדמות העצומה שנעשתה בתחום הבינה המלאכותית והנגישו את הטכנולוגיה לציבור הרחב.

כיום ניתן למצוא ברחבי הרשת עשרות רבות של כלים ליצירת תמונות מבוססות בינה מלאכותית, ובהתאם יש גם מגוון רחב מאד של יישומים ושימושים בתעשיות שונות.

לאור החשיפה הגבוהה של החברות הגדולות לרגולציה והסתבכויות העבר שלהן בנושאי פרטיות, הן מקפידות לא לשחרר בצורה מבוקרת את המודלים שלהן לציבור הרחב, לאור מה שהן מגדירות כ"סיכון פוטנציאלי לשימוש לא ראוי".

את ההזדמנות הזו תפסו שלוש חברות "קטנות" ולא מוכרות שהצליחו לפרוץ עם גרסאות שונות של מודל הדיפוזיה שסקרתי לעומק בפרק 3 (בקרוב), כאשר כל אחת מהן בחרה בדרך שונה להגיע אל השוק ועם הצעת ערך ייחודית. עד מהרה הפכו שלושת החברות הנ"ל למובילות בשוק הבינה המלאכותית בכלל ואפליקציות סינתוז התמונות בפרט.

פורצת הדרך - חברת Open-AI עם המודל Dall-E

ללא ספק פריצת הדרך המשמעותית ביותר של מסנתזי התמונות היתה של OpenAI שהציגה בינואר 2021 לראשונה ממשק פשוט מבוסס הנחיות (Prompts) שאפשר בשלב הראשון לחוקרים ומשתמשים שנבחרו לבדוק את המודל ליצור איורים על בסיס פקודות טקסטואליות.

המודל החדש קיבל את הכינוי DALL-E שהוא הלחם של המילים סלבדור דאלי והרובוט WALL-E מסרטי האנימציה של פיקסר.

פריצת הדרך הייתה עצומה והצליחה להפתיע אפילו את המפתחים עצמם, שהחליטו להגביל את השימוש במודל עד שיהיה בטוח יותר ויישולבו בו מנגנוני אבטחה ראויים. אך DALL-E היתה רק הסנונית הראשונה ובאפריל 2022 החברה הציגה גרסה מתקדמת בשם DALL-E2 אשר בספטמבר 2022 גם נפתחה לשימוש הקהל הרחב.

תוך שעות הרשתות החברתיות הוצפו בתמונות שנוצרו על ידי מודל הבינה המלאכותית של OpenAI ועידן הבינה הג'נרטיבית נפתח רשמית.

המודל הג'נרטיבי החברתי של חברת Midjourney

אומנם OpenAI היו אלו שפרצו את הסכר והביאו את בשורת הבינה המלאכותית הג'נרטיבית להמונים, אך באהדת הקהל זכתה חברה קטנה מסאן פרנסיסקו שהוקמה על ידי דיוויד הולץ - מי שהקים בתחילת העשור הקודם את Leap Motion.

בפברואר 2022 חברת Midjourney השיקו את הגרסה הראשונה (V1) של מודל יצירת התמונות שלהם לקבוצה קטנה של בודקים, ביולי אותה שנה גרסה שלוש (V3) נפתחה לקהל הרחב ועולם האומנות השתנה ללא היכר.

את הפופולריות הרבה שלה חייבת Midjourney למודל החברתי בו הם בחרו להשיק את המודל שלהם. במקום להקים אתר ייעודי או אפליקציה, החברה החליטה להשיק את המודל שלה כבוט ייעודי בדיסקורד (Discord), פלטפורמת צ'ט שהוקמה בעיקר לצורך דיונים (טקסט, וידאו וקול) של גיימרים, וכיום השימוש בה נפוץ גם בקרב סוגי משתמשים אחרים.

היתרון או החיסרון הגדול (תלוי את מי אתם שואלים) הוא שכל הפקודות והיצירות שאתם מסנתזים במודל החינמי ובשרתים הציבוריים של Midjourney ב Discord חשופים לכולם כך שהמשתמשים יכולים ללמוד את ההנחיות האחד של השני.

כמות המשתמשים המטאורית (כ 3 מיליון משתמשים רשומים בשרת ה Discored) היא גם הסיבה שמודל יצירת התמונות מתפתח ומשתפר בצורה כל כך מהירה.

ל Midjourney קיימים שני מסלולים בתשלום ומסלול חינמי מוגבל (עדכון לאפריל 2022 – הגרסה החינמית נסגרה), השימוש במנגנון יצירת התמונות מבוסס פקודות ופרמטרים עליהם נרחיב בפרק 7 (בקרוב).

הקוד הפתוח - חברת Stability AI עם המודל Stable Diffusion

בעוד ש-Midjourney ו-DALL-E שלטו בכותרות במהלך רוב שנת 2022, אחד המודלים הג'נרטיביים החשובים ביותר בתעשייה הושק באוגוסט 2022 לקהילת החוקרים והמפתחים כ-קוד פתוח.

הסטארט-אפ Stability AI חולל מהפכה בתחום כהפיץ את המחקר והמודל הג'רטיבי שלהם Stable Diffusion, כקוד פתוח, ולמעשה יצר אקו-סיסטם שלם של אתרים, אפליקציות וסטארטאפים שעשו שימוש במודל בחלק מהצעת הערך והמוצר שלהם.

בניגוד ל Midjourney ו OpenAI לקח זמן למודל של Stability AI לתפוס פופולאריות, שכן הוא למעשה היה רק חבילת קוד ללא ממשק משתמש, אך עד מהרה צצו ברשת עשרות כלים ואתרים שלא רק מימשו את המודל של Stability AI אלא הרחיבו את המודל לצרכים שלהם או אימנו אותו באמצעות סט תמונות ייחודי לצורכים ספציפיים כמו אדריכלות, עיצוב פנים, עיצוב משחקי מחשב ועוד.

בסוף שנת 2022, Stability AI השיקו ממשק יצירת תמונות בשם DreamStudio לצד API לפלטפורמה שלהם. השימוש במנגנון יצירת התמונות, ההנחיות וההגדרות ל Stable Diffusion מתוארות בהרחבה בפרק 9 (בקרוב).

בחירת הפלטפורמה הנכונה לפרוייקט שלכם.

לפני שנצלול להבדלים בין הפלטפורמות השונות חשוב מאד לציין שברמת איכות יצירת התמונות, הכלים הנ"ל מתקדמים כל הזמן ועם כל גרסה שיוצאת לשוק ההבדלים הולכים ומצטמצמים. בהרצאה המעמיקה שאנו מעבירים לארגונים - "בינה מלאכותית ג'נרטיבית בשירות חווית הלקוח הדיגיטלית" אנו צוללים לעומק ההבדלים הללו ולומדים על מה חשוב לשים דגש באבחנה בין הכלים והיכן כדאי להשקיע את המאמץ. במאמר זה נתמקד בקצרה במספר נקודות שיש לשים אליהן לב:

עלויות:

נתחיל בנושא החשוב ביותר - מודל התמחור (נכון לאפריל 2023). לכל חברה מודל תמחור שונה ולכן קשה לבצע השוואה מדוייקת.

המודל DALL-E של OpenAI מבוסס קרידיטים - כל 115 קרדיטים עולים 15 דולר. ניצול הקרדיטים תלוי הגדרות לתמונה שאתם מייצרים. אבל באופן כללי ברזולוציה של 1024X1024 תוכלו לייצר בסכום זה כ 750 תמונות.

במודל של Midjourney לעומת זאת יש שלושה מסלולים: הנמוך מתחיל ב 10$ ומאפשר לכם לייצר כ 200 תמונות שזה כ 0.05 דולר לתמונה.

המסלולים היקרים של Midjourney (קיים מסלול של 30$ ומסלול של 60$) מחושבים בשעות עיבוד מהיר (כלומר גישה מיידית ליצירת התמונה ומהירות גבוהה לתהליך היצירה עצמה). לפי Midjourney בשעה אחת של עיבוד מהיר (כמובן תלוי הגדרות) ניתן לייצר כ 60 תמונות.

ב DreamStudio של Stability AI העלות המינימלית היא 10$ תמורת 1000 קרדיטים בהם ניתן לייצר כ 5000 תמונות כמובן תלוי הגדרות ואיכות תמונה, שזה כ 0.002 דולר לתמונה.

מגבלות אתיות:

אחד האתגרים המשמעותיים ביותר של הכלים הנ"ל היא האתיקה והיכולת של המודלים האלו לייצר תמונות מזוייפות של מפורסמים או פוליטיקאים, ותמונות מטרידות של מין, אלימות ועוד. כל חברה בחרה להתמודד עם הבעיה בצורה שונה ולכן גם היכולת שלכם לייצר כל תמונה מוגבלת.

המחמירה ביותר היא OpenIAI שחוסמת לחלוטין מילים פוגעניות ומאפשרת לייצר תמונות שמוגדרות G-Rated, דירוג שמצביע על כך שהתוכן מתאים לילדים.

בצד השני של הסקאלה Stability AI שחררה את המודל שלה Stable Diffusion ללא שום הגבלה.

בשל היותו קוד פתוח כל פלטפורמה שעושה שימוש במודל Stable Diffusion החליטה בעצמה מה ההגבלות שהיא מיישמת על יצירת התמונות שלה, כך ב DreamStudio של Stable Diffusion ניתן ליצור רק תמונות מיינסטרים בעוד שאתרים אחרים רבים מאפשרים לייצר כמעט כל סוג של תמונה לרבות מפורסמים, פוליטיקאים, תמונות מיניות ועוד.

Midjourney בחרו בדרך האמצע, הם אכן מונעים יצירה של תכנים מיניים ויש לא מעט מילות מפתח שאסור לעשות בהם שימוש, אך הם כן מאפשרים לייצר תמונות של מפורסמים ופוליטיקאים.

יצירתיות וצילום:

באופן כללי Midjourney הוא המודל שמייצר את התמונות האומנותיות והסוראליסטיות ביותר, לכן אם אתם רוצים ליצור תמונות אומנותיות יותר זה הכלי המומלץ.

OpenIAI בקצה השני ייצר לכם תמונות ראליסטיות יותר, כלומר אם אתם רוצים ליצור תמונות שנותנות תחושה של צילום, זה הכלי המועדף.

Stable Diffusion הוא מקרה יותר מורכב מכיוון שזה מאד תלוי בפטפורמה בה אתם עושים שימוש. באופן כללי במודל של Stable Diffusion תקבלו תמונות מציאותיות יותר, כלומר קרובות לצילום אבל במגוון רחב מאד של סגנונות ושילובים, כך תוכלו לייצר תמונות לא מציאותיות לדוגמא של מפורסמים או חייזרים בסיטואציות שונות שנראות כמו צילום אמיתי.

זכויות שימוש בתמונות שיצרתם:

חשוב להתעדכן במדיניות של כל אחת מהחברות שכן, יתכן שהמדיניות השתנתה מאז כתיבת שורות אלו.

באופן עקרוני אלו הקווים המנחים לזכויות השימוש על התמונות שיצרתם בשלושת החברות המובילות:

ב OpenAI בכפוף למדיניות התוכן ולתנאי השימוש אתם הבעלים של התמונות שאתם יוצרים עם DALL·E, לרבות הזכות להדפיס, למכור ולסחור בתמונות ללא קשר למסלול בו נוצרה התמונה או המסלול.

ב Midjourney כל עוד אתם באחד מהמסלולים בתשלום אתם רשאים להשתמש בתמונות שיצרתם כמעט בכל דרך שתרצו, התנאים המדוייקים מפורטים במדיניות השירות של החברה.

גם במקרה של DreamStudio של Stability AI מצויין בתנאי השימוש שהתמונות שאתם יוצרים באמצעות המערכת שלהם שייכות לכם, עם דגש למגבלות החוק.

צריך לשים לב שכל פלטפורמה שהטמיעה את מודל הקוד הפתוח Stable Diffusion מיישמת מדיניות שונה, וצריך לשים לב למדיניות הספציפית בכל אתר או אפליקציה.

לסיכום

מהפכת הבינה המלאכותית היוצרת בכלל ותחום יצירת התמונות בפרט, מתפתחים במהירות עצומה. כל שבוע צצים כלים חדשים וגרסאות חדשות ומשופרות של המודלים הקיימים, ולכן חשוב להתעדכן כל הזמן.

בפרק הנוכחי סיפקנו סקירה קצרה למספר הבדלים בין המודלים המובילים בשוק הבינה המלאכותית. ואם לסכם –

ב DALL-E של OpenAI התמונות ראליסטיות יותר וקרובות יותר לצילום מאשר לאומנות סוריאליסטית.

Midjourney הוא המודל שמייצר את התמונות האומנותיות והסוראליסטיות ביותר.

וב Stable Diffusion זה כמובן תלוי בכלי שתעשו בו שימוש וסט האימון הספציפי של אותו כלי אך ניתן לומר כי Stable Diffusion נמצא באמצע בין DALL-E Midjourney. הוא יודע לייצר תמונות ראליסטיות לצד סגנונות אומנותיים שונים, כמובן תלוי בהנחיה שלכם לצד הפרמטרים וההגדרות שסופקו למודל בזמן יצירת התמונה.

כמובן, קיימות נקודות חשובות נוספות שחיוני לבחון בכדי לבחור את הכלי הנכון לפרויקט יצירת התמונות – לדוג' איכות וגודל התמונה (הרזולוציה הנתמכת בכל אחת מהפלטפורמות) או עד כמה פשוט המודל לשימוש וכמה פשוט לקבל את התוצאה הרצויה? על שאלות אלו ועוד אנו מרחיבים לעומק בהרצאה שלנו בנושא.

הלוחשים לבינה - בחירת הכלי הנכון לפרויקט יצירת התמונות שלכם.

עמית קמה

2023-04-27 00:00:00

Facebook

Twitter

LinkedIn

שיתוף :

Facebook

Twitter

LinkedIn

נושאים מובילים