השבוע שהיה בבינה המלאכותית היוצרת

1. מטה מכריזה על שני כלים שונים לעריכת תמונות ועריכת וידאו מבוססי בינה מלאכותית יוצרת.

מטה, חברת האם של פייסבוק ואינסטגרם, עושה קפיצות דרך משמעותיות ביצירה ועריכת תוכן באמצעות בינה מלאכותית עם ההשקה של שני כלים חדשים – כלי חדש ליצירה ועריכת תמונות בשם Emu Edit וכלי חדש ליצירת וידאו מטקסט ותמונות בשםEmu Video . שני הכלים מהווים חלק מפרויקטExpressive Media Universe (Emu) שהושק על ידי מטה בכנס המפתחים האחרון בספטמבר ונועד לשפר את חוויית המשתמש בפלטפורמות החברתיות של החברה.

הכלי Emu Edit מציע גישה חדשה לעיבוד תמונות, ומאפשר למשתמשים להזין הוראות מבוססות טקסט לביצוע משימות עריכה מדויקות. הכלי, שהוכשר על 10 מיליון דגימות של תמונות מלאכותיות, מתמקד בשינוי רק של הפיקסלים הרלוונטיים, תוך שמירה על שאר התמונה.

הכלי Emu Video מצד שני, מפשט את תהליך יצירת הוידאו מטקסט. הוא מסוגל ליצור וידאו מתוך פרומפטים טקסטואליים, תמונות, או שילוב של שניהם, בדומה לכלים אחרים שקיימים כיום בשוק.

התפתחויות אלה משקפות את האסטרטגיה של מטה לשלוב כלי AI במוצרים שלה, ולמרות שהכלים עדיין בפיתוח, הם מעידים על המעבר הצפוי לכולנו של הרבה יותר תוכן ססינטטי ברשתות השונות.

להכרזה על עורך התמונות לחצו כאן
להכרזה על עורך הוידאו לחצו כאן
לקובץ המחקר של מטה לחצו כאן

2. גוגל DeepMind משיקה את Lyria מודל חדש ליצירת מוזיקה ביוטיוב.

גוגל DeepMind השיקה את Lyria, מודל חדש ליצירת מוזיקה באמצעות בינה מלאכותית בשיתוף פלטפורמת הזרמת הוידאו הפופולארית יוטיוב. המודל החדש מאפשר למשתמשים ליצור שירים משלהם. המודל החדש - Lyria מצטיין ביכולת ליצור מוזיקה איכותית המשלבת נגינה ושירה מתוך טקסט.

בין התכונות המרכזיות של המודל ניתן למצוא את 'Dream Track' כלי לשכפול קטעי וידאו קצרים ב shorts YouTube- תכונה זו מאפשרת ליצור קטע וידאו קצר של 30 שינוית עם שכפול קולות של מגוון אומנים. תכונה נוספת בשם Music AI tools נועדה לאפשר ליוצרים לשפר את תהליך יצירת הוידאו באמצעות קטעי מוזיקה אינסטרומנטאליים.

לידיעה המקורית לחצו כאן
לוידאו ההשקה לחצו כאן

3. השבוע הרשת געשה סביב מודל חדש ליצירת אנימציה מבוססי אובייקטים גרפיים פשוטים.

מודל חדש בשם LCM-LoRA(קיצור של Latent Consistency Model-Low-Rank Adaptation) הציף השבוע את הרשת עם דוגמאות ליצירת סרטונים קצרים באמצעות אלמנטים גרפיים בסיסיים. המודל החדש שפותח על ידי אוניברסיטת צינגהוא ו HuggingFace מאפשר יצירת סרטונים קצרים מבוססי אומנות בזמן אמת.

הטכניקה מאפשרת למשתמשים ליצור ציורים פשוטים או צורות ותאור טקסטואלי והמודל מייצר בזמן אמת ציור מונפש בהתאם לתנועה ולקווים הכללים של האובייקטים בתמונה של המשתמש. המודל אינו פועל רק על תמונות דו מימדיות אלא מאפשר גם יצירה של תנועה בתמונת תלת מימדיות מה שמעיד על פוטציאל משמעותי ליצירה של סביבות אינטרקטיביות ל Mixed Reality ולמשחקי מחשב.

לידיעה המקורית לחצו כאן
לקישור לדוגמא בחשבון של המשתמש titus לחצו כאן
לקישור למחקר לחצו כאן
לדמו של המודל באתר fal.ai לחצו כאן

4. שורה ארוכה (מאד) של הכרזות בתחום ה AI בכנס Ignite 2023של מיקרוספוט.

השבוע התקיים הכנס השנתי של מיקרוסופט Ignite 2023 ובו שורה ארוכה מאד של הכרזות בתחום הבינה המלאכותית הכוללת מוצרים ושירותים חדשים (מעל 100 הכרזות). להלן סיכום קצר של ההכרזות הבולטות :

בינג מקבל שם חדש - מיקרוסופט שינתה את השם של הצ'אטבוט Bing Chat ל-Copilot in Bing ו-Copilot for Bing Chat Enterprise, כחלק ממהלך אסטרטגי להתמודדות טובה יותר בשוק המתפתח של צ'אטבוטים מבוססי AI.

בנוסף החברה משיקה סדרה של שבבים מתוצרתה (Maia 100 AI Accelerator and Azure Cobalt 100 CPU ) שבבים אלו נועדו להפחית את התלות של החברה בשבבית GPU של חברות חיצוניות. בעוד ששבבי GPU מותאמים לאימון מודלים לטענת מיקרוסופט שבבי ה Cobalt 100 נועדו לאפשר עבודה שגרתית עם AI בשרתי ומחשבים אישיים.

ב Copilot הוצגו מספר יכולות חדשות - Copilot for Azure נועד לעזור למשתמשי להפיק את המירב מפלטפורמת הענן של החברה, Copilot for Service – נועד לסייע למוקדי שירות לקוחות, ו Copilot Studio – נועד לסייע למשתמשים ליצור לעצמם עוזרים אישיים מבוססי בינה מלאכותית, כל אלו לצד ה Copilot in Dynamics 365 Guides שיוטמע במערכת העסקית - Dynamics 365.

ב Microsoft Teams הוצגו תכונות שנועדו לשפר את שיחות הועידה כגון מנגנון ליצירת רקעים לשיחות, ומנגנונים לשיפור הקול והפחתת רעשי רקע.

כמו כן הכריזה החברה על Generative AI Copyright Protections – שירות שיגן על משתמשי OpenAI בשירותי הענן של החברה נגד תביעות זכויות יוצרים, (תחת תנאים מסוימים – צריך לקרוא את האותיות הקטנות).

כלי חדש בשם Windows AI Studio יאפשר הרצה של מודלי AI על מערכת ההפעלה Windows בצורה מקומית, כלי זה ירכז מגוון רחב של מודלי קוד פתוח ג'רטיביים שיאפשרו עבודה מקומית ללא צורך בחיבור לשירותי ענן.

ולסיכום הכרזה מעניינת נוספת היא Azure AI Speech כלי ליצירת אווטרים מטקסט לדיבור ווידאו כחלק משירותי הענן של מקירוסופט.

לקטעי וידאו מהאירוע לחצו כאן
לסיכום ההכרזות מהאירוע לחצו כאן

5. ממשק חדש מבוסס AI מאפשר לחבר אותות מוח להפעל רובוטים.

מערכת רובוטית חדשה מבית סטנפורד בשם NOIR מפרשת אותות מוח EEG והופכת אותם למשימות שרובוטים יכולים לבצע כגון בישול או משחקים. הבדיקה הוכיחה שהמערכת עובדת על פני 20 משימות ביתיות, לאנשים מגיל 5 ומעלה.

המטרה כמובן לסייע לאנשים עם מוגבלויות במשימות ביתיות אך לממשק הזה פוטנציאל עצום בעלית מדרגה נוספת בממשק והאינטרקציה שבין האדם למכונה.

לידיעה המקורית לחצו כאן
לסרטון הוידאו לחצו כאן
למחקר של סטנפורד לחצו כאן

6. חברת יצירת הוידאו Runway משיקה מאפיין חדש לעיצוב הסרטון באמצעות סימון אזור בתמונה.

חברת המחקר ויצירת הוידאו Runway השיקה השבוע מאפיין חדש בשם Motion Brush אשר מאפשר שליטה טובה יותר על התנועה בסרטונים שהמודל יוצר. בדומה ל Inpainting של מודלי התמונות, באמצעות סימון אזור מסויים בוידאו ומתן הנחיה טקסטואלית ניתן להגדיר את התנועה שאנו רוצים לקבל בקטע הוידאו.

זו קפיצת מדרגה נוספת ביכולת של יוצרי הוידאו לשלוט בתוכן הסרטון בזמן אמת, התקדמות זו מאפשרת יצירת תכנים מתוך תיאורים פשוטים, כמו בקשה לסרט בסגנון של ווס אנדרסון. היכולת לשנות ולאפיין תכנים חזותיים במהירות נתפסת כמהפכנית, ויש לה פוטנציאל עצום על הקטנת עלויות העריכה ויצירת הוידאו בעתיד.

לידיעה המקורית לחצו כאן
לסרטון ההדגמה לחצו כאן

7. שתי חדשות משמעותיות מבית OpenAI – עצירת הנרשמים לשירות בתשלום ו GPT-5.

השבוע הכריז מנכ"ל OpenAI, סם אלטמן, על הפסקה זמנית של הצטרפות מנויי ה ChatGPT Plus לצ'ט בוט של החברה, הסיבה המוצהרת היא עלייה עצומה בביקושים בעקבות אירוע ה-Dev Day האחרון של OpenAI.

הפסקה זו לטענתו נועדה להבטיח חוויה איכותית למשתמשים הנוכחיים (עקב עומס גדול בימים האחרונים על המערכת). למרות זאת משתמשים חדשים עדיין יכולים להירשם בכדי לקבל התראה כאשר הרישום יפתח מחדש.

במקביל סיפר אלטמן בראיון ל- "פייננשל טיימס" שהחברה החלה לעבוד על GPT-5 אבל סירב לנקוב במועד ההשקה או להעריך מה יהיו היכולות החדשות שיתווספו אליו.

אחד האתגרים הגדולים של OpenAI יהיה למצוא נתונים חדשים להתאמן עליהם, מודלים של בינה מלאכותית צריכים כמות עצומה של דאטה בשביל ליצור תוכן חדש בעצמם, ו-GPT-5 יזדקק ליותר דאטה מאשר GPT-4, שהתאמן פחות או יותר על כל המידע הזמין באינטרנט.

לידיעה המקורית לחצו כאן

8. זהירות חזאים - חזאי מזג האוויר מבוסס הבינה המלאכותית של גוגל עולה על תקן החיזוי הבין לאומי.

מטאורולוגים ואנשי מזג אוויר מצטרפים לרשימה הארוכה של אנשי מקצוע שצריכים לדאוג ממהפכת הבינה המלאכותית.

מאמר חדש המבוסס על מחקר שנערך בביקורת עמיתים של מדענים מטעם גוגל טוען שחזאי מזג האוויר המופעל באמצעות מודל הבבינה המלאכותית שלהם ניצח את מרכז מזג האוויר המוביל באירופה על ידי חיזוי נכון של אירועי מזג אוויר ב-90% מהמקרים.

המדענים טענו שהחזאי שלהם יכול לחזות מאות משתני מזג אוויר במשך 10 ימים תוך פחות מדקה אחת. הם גם טענו שהוא תפקד טוב יותר בתחזית מזג אוויר קשה, הכוללת מעקב אחר סופות טרופייות, וטמפרטורות קיצוניות.

לידיעה המקורית לחצו כאן

9. הכרזה של תחנות שירות רפואיות - CarePods מבוססות GenAI.

חברת Forward Health הכריזה על שירות חדש של תחנות רפואיות עצמאיות בשם CarePods הניתנים להתקנה במגוון מרחבים ציבוריים לדוגמא בקניונים. השירות נועד לאפשר לקהל הרחב להירשם לשירות ולהינות מרופא מבוסס AI אשר ינתר את הבריאות שלנו ויתריע על סימנים מעידים למחלה.

השירות שהוצג על ידי המנכ"ל אדריאן אאון, צפוי לחולל מהפכה בטיפול הראשוני שחולים יקבלו על ידי כך שיאפשר למשתמשים לבצע בדיקות קליניות שונות כמו בדיקות דם, קריאת לחץ דם ובדיקה של העור ללא נוכחות של רופא או אחות.

ה-CarePods הם חלק מהאסטרטגיה של Forward Health להרחיב את שירותי הבריאות באמצעות טכנולוגיה ובעלות נמוכה ביחסת לשירותי הבריאות הקיימים כיום עם עלות שמתחילה ב $99 לחודש.

לידיעה המקורית לחצו כאן
לסרטון הסבר אודות המוצר החדש לחצו כאן

10. מודל חדש בשם Mirasol מרחיב את יכולות ניתוח הוידאו באמצעות GenAI.

מודל חדש מביתGoogle Deep mind בשם Mirasol נועד לשפר את יכולת ההבנה וניתוח של קטעי וידאו ארוכים על ידי שילוב מודלים לניתוח של וידאו, אודיו וטקסט. מירסול פותר את האתגר של סינכרון בין מודלים שונים וניהול נפחי נתונים גדולים לעיבוד וניתוח המידע בצורה יעילה ומהירה.

המודל מסוגל לעבד 128 עד 512 פריימים והוא מציב בנ'צמרק חדש ליכולת לנתח ולשאול שאלות אודות קטעי וידאו, בעודו קטן ביחס למודלים אחרים.

המודל יכול לשמש לשיפור פונקציות של צ'אטבוטים, כמו העוזר ה-AI החדש של יוטיוב, ולאפשר לשאול שאלות אודות הוידאו או לשפר פונקציות קיימות כמו חלוקת הוידאו לקטעים, עריכה אוטומטית של הוידאו ועוד.

לידיעה המקורית לחצו כאן
למחקר לחצו כאן

השבוע שהיה בבינה המלאכותית היוצרת - 17/11/23

מאמרים קשורים

נושאים מרכזיים