LOADING STUFF...
K a m e d i a

Loading Website

post01

הלוחשים לתמונה פרק 1 - בינה מלאכותית ג'נרטיבית


בסדרת מאמרים חדשה, נצלול אל המהפכה ששוטפת בימים אלו את האינטרנט וללא ספק תהפוך לדיון החם של 2023 - בינה מלאכותית ג'נרטיבית, (או יוצרת, למי שמתעקש). בסדרת המאמרים נסקור את מקורות המהפכה וננסה להסביר גם למי שלא מדבר אלגוריתמיקה ודיגיטלית שוטפת את מושגי הבסיס וכיצד ניתן לעשות שימוש בכלים אלו בפעילות הדיגיטלית שלנו בארגון ובחיים הפרטיים.

לרשימת המאמרים המלאה

הילד החדש בשכונה - בינה מלאכותית ג'נרטיבית
קשה להאמין שעברו 7 שנים מאז פרסום המאמר השישי והאחרון במודל ששת השלבים של הטרנספורמציה הדיגיטלית. בשלב השישי במודל ניסיתי לצפות את הארגון לאחר הטרנספורמציה הדיגיטלית כאשר מנועי בינה מלאכותית יסייעו לארגון, לעובדים ולמנהלים להפוך ליעילים ויצירתיים יותר, מתוך תפיסה שהבינה המלאכותית תשיל מאיתנו את הצורך בביצוע מטלות משעממות וקשות, ונוכל סוף כל סוף להתפנות לפתח את היצירתיות שלנו.

אם אתם קוראים שורות אלו אתם כבר יודעים, מודלים חדשים של בינה מלאכותית הפכו יצירתיים מכפי שאי פעם יכלנו לדמיין: מוזיקה, ספרות, ציור – עוד ועוד אומנויות מקבלות מענה על ידי מודלים ממוחשבים של מכונות לומדות. למעשה המושג יצירתיות כולו מקבל בימים אלו משמעות חדשה לגמרי, כשאותן מכונות מפתחות לעצמן את התחום שהיה שמור בעבר הלא רחוק רק לנו – היכולת לדמיין וליצור.

מטאברס וקריפטו אאוט
מטאברס וקריפטו אאוט, תגידו שלום להיסטריה התורנית בעולמות הטכנולוגיה והדיגיטל -  בינה מלאכותית ג'נרטיבית או בינה מלאכותית יוצרת.

מכיוון שאני מניח שהגעתם למאמר שלי דרך אחת הרשתות החברתיות, אני יכול גם להניח בסבירות גבוהה שהפיד שלכם מפוצץ בתמונות שנוצרו על ידי מנועי בינה מלאכותית כמו DALL-E ו-Stable Diffusion או במאמרים ופוסטים שנכתבו על ידי ChatGPT - הגרסה האחרונה של הבוט המדובר של OpenAI, ואם אתם במקרה מתכנתים, אז כנראה שגם זכיתם לאתגר את ChatGPT בכתיבת קוד.

Image

כל אלו הם חלק קטן ממודלים של בינה מלאכותית אשר עברו מהשלב הדיסקרימנטיבי (הפקת פלט ממידע נתון) אשר מוכר לנו מדוגמאות כמו המלצות לשירים בספוטיפיי, הצגת הפוסט או הסרטון הבא בפייסבוק וזיהוי פרצוף בתמונה, לשלב הג'נרטיבי (מלשון Generate) בו אותם מודלים מייצרים לנו משהו חדש (מאמר, תמונה, מוזיקה וכו').

הבינה המלאכותית הג'נרטיבית אינה חדשה, ורוב הטכנולוגיות שאנו רואים היום קיימות כבר כמה שנים. עם זאת, ההתכנסות של היכולות לטפל במגוון עצום של נתונים בזמן קצר יחסית, הגישה למיליוני קטעי טקסט ותמונות באינטרנט וכוח מחשוב הולך וגובר, אפשרו את התפתחותם של המודלים הג'נרטיביים בגרסתם הנוכחית ואת היכולת להנגיש אותם לציבור הרחב בצורה פשוטה וזולה.

הבינה המלאכותית הג'נרטיבית הופיעה כבר ב 2014 עם הופעתו של מודל בשם GAN - Generative Adversarial Networks - סוג של ארכיטקטורת למידה עמוקה שיכולה להמציא (או יותר נכון ליצור) תמונות ריאליסטיות. תחילה מודלים אלו שימשו ליצירת פרצופים של אנשים שלא קיימים במציאות, כפי שהודגם באתר This Person Does Not Exist .

Image

בהמשך מודלים משופרים של GAN בשילוב מודלי Variational Autoencoders (VAE) היוו את הבסיס לטכנולוגיית ה-דיפ-פייק שאפשרה להחליף פנים של אנשים בסרטונים ותמונות.




השחקן מיילס פישר שעשה קריירה בחשבון ה TikTok שלו כשכולו מבוסס על דיפ-פייק של מיילס כשחקן טום קרוז.

ב 2018 -2017 החלו להופיע מודלים חדשים ומפותחים יותר של בינה מלאכותית ג'נרטיבית, ביניהם הגרסאות המוקדמות של GPT - מודל שפה שמסוגל לייצר טקסט שנראה כאילו נכתב ע״י בני אדם. מודל זה בגרסאות המוקדמות שלו שימש ליצירה של טקסטים קצרים, מענה לשאלות באמצעות צ'ט ואפילו כתיבה של קטעי קוד קצרים.

בשנים האחרונות, עם התפתחות תחום הלמידה הבלתי מונחית (או מונחית למחצה), ולצד כוח המחשוב הגדל וכמות הנתונים העצומה ברשת אשר מסייעת לאמן את אותם מודלים, צמחו דורות מתקדמים יותר ויישומים חדשים של המודלים הג'נרטיביים ואיתם פונקציונאליות חדשה.

בשנת 2021 חלה התקדמות משמעותית נוספת כאשר OpenAI השיקו מודל נוסף בשם CLIP -  Contrastive Language-Image Pre-training שתפקידו לייצר תיאורים טקסטואליים לתמונות. בניגוד למודלים אחרים שאומנו באמצעות תיוג אנושי של התוכן בתמונה, המודל של Open AI אומן באמצעות סריקה של מיליוני תמונות ברשת, והבנת התיוגים הטקסטואליים אשר נועדו בדרך כלל לסייע למנועי החיפוש ברשת ולמשתמשים בעלי מוגבלות ראייה.

החידוש המשמעותי של CLIP היה בשילוב הדור השלישי של מודל השפה הטבעית GPT-3 אשר סייע להבין טוב יותר מתוך התיאורים של התמונות באינטרנט את ה"משמעות" של מה שמופיע בתמונות עצמן. CLIP הפך לרכיב חשוב במחוללי התמונות שהפכו לוויראליים בחודשים האחרונים, ולמודל הדיפוזיה שנעסוק בו בפרקים הבאים.

לסיכום
אנו רואים כיום רק את הקצה של מהפכה עצומה בסדר הגודל של המצאת הטלפון החכם. ניסח זאת היטב מייסד חברת הענן Box ארון לוי שאמר כי "ChatGPT הוא אחד מאותם רגעים נדירים שבהם אנו רואים כיצד הטכנולוגיה החדשה הולכת לשנות הכל בעתיד". המהפכה האמיתית מתחוללת ממש עכשיו כשחברות עסקיות מצליחות להנגיש את הטכנולוגיה בצורה פשוטה להמונים. כך אנשים ללא רקע טכנולוגי יכולים להיעזר בטכנולוגיות הנ"ל בכדי לייצר רעיונות לתמונות, מאמרים, מיילים, מוזיקה ועוד הרבה מאד יישומים שעדיין לא התחלנו לחשוב עליהם.

לרשימת הפרקים המלאה בסדרה : פרק 1 - בינה מלאכותית ג'נרטיבית.
פרק 2 - ההיסטוריה הקצרה של מסנתזי התמונות.
פרק 3 - הפריצה של מודל הדיפוזיה.
פרק 4 - יישומים פרקטיים לבינה מלאכותית ג'נרטיבית.
פרק 5 - בחירת המנוע הנכון לפרויקט.
פרק 6 - עקרונות לכתיבת הנחיות נכונה לתמונות.
פרק 7 - המדריך המלא ל מידג'רני.
פרק 8 - המדריך המלא ל Dall-E.
פרק 9 - המדריך המלא ל סטייבל דיפיוז'ן.
פרק 10 - שימושים מתקדמים ועריכת תמונות קיימות.
פרק 11 - זכויות יוצרים והגבלות ביצירת אומנות AI.

שיתוף :