השבוע שהיה בבינה המלאכותית היוצרת

1. לומייר מבית גוגל - מודל חדש ליצירת וידאו מטקסט.

גוגל עושה זאת שוב ומציגה מודל חדש ליצירת וידאו מטקסט שגם הפעם לטענתם עולה על מודלים קודמים ונחשב לקריאת כיוון חדשה בתחום. חוקרי גוגל פיתחו מודל הפצה חדש להמרת טקסט לווידאו (T2V) בשם לומייר, המסוגל ליצור סרטונים מלאכותיים ריאליסטיים, וגובר על חסרונות של שיטות חלופיות.

שבועיים לאחר שחשפה מודל קודם בשם VideoPoet גוגל משיקה את Lumiere אשר עושה שימוש בארכיטקטורת Space-Time U-Net (STUNet) חדשה המאפשרת יצירת וידאו עם תנועה רציפה ואיכות גבוהה. השיטה שונה מגישות קודמות המבוססות על מודלים המעבדים חלקים מהווידאו בכל פעם.

בניגוד למודלים קודמים של T2V, אשר יצרו קטעי וידאו מרכזיים ואז השתמשו במודלים של סופר-רזולוציה זמנית (TSR) כדי להכניס תמונות חסרות, לומייר מייצרת את סדרת הווידאו כולה בבת אחת. זה מאפשר תנועה רציפה וריאליסטית יותר במהלך יצירת הווידאו.

להכרזה הרשמית לחצו כאן
לסרטון הדגמה לחצו כאן

2. לצד ההשקה של חנות ה GPT’s, חברת OpenAI משיקה מסלול מיוחד לארגונים וצוותים קטנים.

חברת OpenAI הכריזה על מספר עדכונים למודלים שלהם: ראשית, שני מודלי אמבדיגנס חדשים שמציגים שיפור בביצועים אל מול המודלים הקיימים: מודל קטן: text-embedding-3-small , מודל גדול: .text-embedding-3-large בנוסף, הושק מודל GPT-4 חדש במסגרת GPT-4 Turbo שנקרא gpt-4-0125-preview ומודל GPT-3.5 Turbo חדש gpt-3.5-turbo-0125 בחצי מהעלות של הקיים.

לידיעה המקורית לחצו כאן

3. יכולות חדשות (ישנות) נוספו לגרסה 6 של מיג'רני.

Midjourney עדכנו את גרסה 6 וכרגע היא תומכת בפונקציות הבאות: VARY REGION, PAN, ZOOM X2 / 1.5, COSTUME ZOOM.
תכונת הPan פועלת כעת יותר כמו זום, ומבטיחה תוצאות באיכות גבוהה יותר עם "קוהרנטיות גבוהה יותר ופחות חזרה על מושגים".

הפונקציות האלה זמינות תחת המודל של הבוט בגרסה 6 בDiscord ובנוסף באתר הAlpha החדש. אתר הAlpha נגיש כעת לכל מי שיצר לפחות 5000 תמונות בפלטפורמה (ניתן לבדוק כמה תמונות יצרתם עד כה בעזרת פקודת הinfo/ בפלטפורמה). בנוסף, Midjourney הטמיעה גם תכונת משוב חדשה כדי לעזור למהנדסים שלה לתעדף את עבודתם על סמך משוב משתמשים.

לידיעה המקורית לחצו כאן

4. הושק רשמית הכלי שמאפשר לאמנים להרעיל מודלי בינה מלאכותית באמצעות התמונות שלהם.

Nightshade, כלי תוכנה חדש וחינמי שפותח על ידי מדעני המחשב של פרויקט Glaze באוניברסיטת שיקגו, מאפשר לאמנים "להרעיל" מודלים של בינה מלאכותית המבקשים להתאמן על יצירותיהם. הכלי עובד על ידי שינוי דיסקרטי ברמת הפיקסל של התמונה, כך שתוכנות בינה מלאכותית אחרות יראו משהו שונה לגמרי ממה שבאמת קיים בה. זהו הכלי השני מסוגו של הצוות, לאחר שלפני כשנה הציגו את Glaze - תוכנה שמעוותת את האמנות הדיגיטלית כדי לבלבל את אלגוריתמי האימון של AI.

בניגוד לGlaze שתוכנן ככלי הגנה, Nightshade מיועד לשימוש "התקפי". מודל AI שיתאמן על תמונות שעברו שינוי על ידי Nightshadeעשוי לטעות בקטלוג אובייקטים בעתיד עבור כל המשתמשים במודל זה, גם בתמונות שלא עברו את השינוי. לדוגמה, עיני אדם יוכלו לראות תמונה של פרה בשדה ירוק ללא שינוי, אך מודל AI עשוי לראות בה תיק עור גדול השוכב על הדשא.

לקישור למחקר ולכלי לחצו כאן

5. הרשת גועשת סביב תמונות מזוייפות של טיילור סוויפט ב X.

בשבוע האחרון הופצו ברשת החברתית X תמונות פורנוגרפיות של טיילור סוויפט שזויפו באמצעות כלי בינה מלאכותית. אחת התמונות זכתה למעל 45 מליון צפיות ואלפי שיתופים, לפני שהחשבון שפרסם אותה נחסם. התמונות היו זמינות במשך כ-17 שעות לפני שהוסרו מהפלטפורמה.

על אף המדיניות של X שנוגדת שימוש בתוכן מזויף, התמונות המשיכו להתפשט והפכו לדיון חם ברחבי הרשת. דו"ח של העיתון הדיגיטלי 404 Media מצא כי התמונות הופצו במקור בקבוצת טלגרם שבה נוהגים לשתף תמונות נשים שזויפו באמצעות בינה מלאכותית, רבות מהן באמצעות Microsoft Designer

אוהדיה של סוויפט יצאו במהרה בתגובות מחאה על משך הזמן הארוך בו התמונות היו זמינות בפלטפורמה. המקרה מדגיש את האתגר הממשי של מניעת זיוף והפצת תמונות פורנוגרפיות של אנשים מפורסמים. כלי AI רבים ליצירת תמונות אינם יוצרים הגבלות בקרב המשתמשים על יצירת תמונות עירום או תמונות פורנוגרפיות, והאחריות למניעת התפשטות תמונות מזויפות נופלת לעיתים על הפלטפורמות החברתיות.

לידיעה המקורית לחצו כאן

6. סוף כל סוף הושק כלי שמזהה טקסטים שנוצרו על ידי בינה מלאכותית ב 90% הצלחה.

"Binoculars" הוא כלי גילוי חדשני המזהה טקסטים שנוצרו על ידי בינה מלאכותית בדיוק של מעל 90%. הכלי פותח על ידי חוקרים מאוניברסיטאות מרילנד, קרנגי מלון, ניו יורק, וממכון ELLIS & MPI למערכות חכמות. הכלי עושה שימוש בשיטת ה"תדהמה" שמתבססת על מדד שבודק עד כמה טקסט ספציפי מפתיע את המודל. מדובר בכלי יעיל במיוחד באבחנה בין תוכן שנוצר על ידי בני אדם לבין תוכן שנוצר על ידי מחשב.

אולם מעבר להשגת דיוק גבוה בזיהוי, ישנם גם סיבוכים אתיים הקשורים לשימוש בכלי זה. על אף שהוא מסוגל לסייע בהגנה מפני מידע מטעה ולשמור על אותנטיות המידע, קיים סיכון לשימוש לרעה או להשפעות שליליות לא צפויות.

לקישור למחקר והמודל ב Github לחצו כאן

7. גוגל משלבת את ג'מיני בתוך פלטפורמת Google Ads.

גוגל הודיעה היום על שילוב "ג'מיני", סדרת מודלים גדולים ורב-מודליים, בחווית השיחה בתוך פלטפורמת Google Ads. העדכון החדש יקל על מפרסמים לבנות ולהרחיב במהירות קמפיינים לרשת החיפוש. הכלי המבוסס על שיחה יעזור לבנות מערכות פרסום דרך יצירת תוכן פרסומת רלוונטי, כולל נכסים ומילות מפתח, והצעת תמונות שנוצרו באמצעות בינה מלאכותית.

גישה ניסיונית של חווית השיחה ב-Google Ads זמינה כעת למפרסמים בשפה האנגלית בארה"ב ובבריטניה, עם תוכניות להרחבה גלובלית ולשפות נוספות בחודשים הבאים. שאשי תקור, סגן הנשיא ומנהל ב Google Ads, כתב בפוסט שהחוויה עוזרת למפרסמים לבנות מערכות פרסום באיכות גבוהה יותר ובמאמץ נמוך יותר.

ההודעה על השקה זו מגיעה בעקבות התמקדותה של גוגל בשילוב בינה מלאכותית במוצריה. לדוגמה, היום הודיעה החברה על שלוש תכונות חדשות מבוססות בינה מלאכותית ב-Chrome שכוללת אופציה לארגן כרטיסיות, להתאים אישית את העיצוב ולקבל עזרה בכתיבת סקירות או פוסטים באינטרנט.

לידיעה המקורית לחצו כאן

8. חברת RunWayML משלבת בפלטפורמת יצירת הוידאו שלה יכולת להגדיר חמש תנועות שנות באותו וידאו.

RunwayML הוסיפה למחולל הווידאו מבוסס הAI שלה את "Multi Motion Brush", כלי חדש המאפשר למשתמשים לשלוט במספר אזורים בווידאו עם תנועות עצמאיות. הכלי החדש בנוי על ה"Motion Brush" שכבר הושק קודם לכן, ומאפשר למשתמשים לצבוע עד חמישה נושאים או אזורים ייחודיים בתמונה ולשלוט בתנועתם באופן נפרד מאזורים אחרים. "Multi Motion Brush" מוסיף שליטה יצירתית נוספת ליצירת ועריכת וידאו באמצעות בינה מלאכותית. הכלי זמין כעת לדגם הווידאו הדור השני של Runway.

לידיעה המקורית לחצו כאן

9. מודל חדש ליצירת תמונות מאיים על ההגמוניה של SD, מידג'רני ו Dall-E.

PixArt, מחולל התמונות הפתוח של Huawei, יעמוד בקרוב בתחרות ישירה מול Stable Diffusion בתחום יצירת תמונות בינה מלאכותית. בגרסתו האחרונה, PixArt הפך למהיר ומדויק יותר, תוך יכולת שמירה על רזולוציה גבוהה. המחקר, שהוצג על ידי חוקרים מ-Huawei Noah's Ark Lab, אוניברסיטת דאליאן לטכנולוגיה בשיתוף עם Hugging Face, מציג את PixArt-δ (Delta), מודל חדשני לייצור תמונות מטקסט.

PixArt-δ משתמש במודל LCM ו-ControlNet להאיץ את מהירות היצירה, ומסוגל לייצר תמונות באיכות גבוהה עם רזולוציה של 1024x1024 פיקסלים בתוך 0.5 שניות, שבע פעמים מהר יותר מ-PixArt-α. בנוסף, יכולת היצירה ב-8 ביט מאפשרת יצירת תמונות ברזולוציה זו גם על GPU בנפח 8 ג'יגה-בייט.

השילוב של ControlNet מאפשר שליטה צמודה יותר להנחיה ביצירת התמונות, והארכיטקטורה החדשה של ControlNet מעניקה שליטה מפורשת תוך שמירה על איכות יצירת התמונה.

למידע נוסף ולמודל ב GitHub לחצו כאן

10. גוגל מטמיעה טכנולוגיות Gen-AI בדפדפן Chrome.

גוגל משלבת טכנולוגיות בינה מלאכותית ולמידת מכונה מתקדמות ב-Chrome לשיפור חווית הגלישה. בגרסה החדשה של Chrome (M121), החברה מציגה תכונות AI גנרטיביות ניסיוניות במטרה להפוך את הגלישה ליעילה ואישית יותר.

אחת התכונות החדשות היא "מארגן הכרטיסיות" (Tab Organizer), אשר יציע ויצור באופן אוטומטי קבוצות כרטיסיות אשר מבוססות על הכרטיסיות הפתוחות של המשתמש. תכונה נוספת היא יצירת ערכות נושא אישיות באמצעות AI, שניתן לייצר במהירות מתוך נושא, מצב רוח, סגנון ויזואלי וצבע שהמשתמש בוחר.

בנוסף, גרסת Chrome הבאה תכלול תכונה AI ניסיונית שמטרתה עזרה בכתיבה באינטרנט, כגון כתיבת ביקורת למסעדה. המשתמש יוכל להתחיל את תהליך הכתיבה על ידי לחיצה על תיבת טקסט ובחירה באפשרות "עזרה בכתיבה".

לידיעה המקורית לחצו כאן

השבוע שהיה בבינה המלאכותית היוצרת 26/01/2024

מאמרים קשורים

נושאים מרכזיים