השבוע שהיה בבינה המלאכותית היוצרת

1. סוף סוף הוא הגיע – המולטימודל של גוגל - ג'מיני.

אי אפשר להתחיל את חדשות השבוע בלי להזכיר את המודל החדש של גוגל - "ג'מיני". לאחר בילד-אפ שנמשך חודשים, המודל החדש סוף סוף נחשף והוא מציג לטענת החברה ביצועים משופרים בכל המדדים שנבחנו. המודל בניגוד למודלים של המתחרים נבנה מהיסוד כמולטי-מודל, כלומר ככזה שיודע לטפל במספר רב של תחומים כגון טקסט, קול, וידאו, יצירה וניתוח תמונות במודל אחד.

ג'מיני (Gemini) הוא פרויקט משותף של צוותים מרובים בגוגל, לרבות Google Research ו-DeepMind. לפי הודעת החברה, המודל אמור להיות גם גמיש ביכולותו לעבוד על סוגים שונים של פלטפורמות, ממרכזי נתונים ועד מכשירים סלולריים.

מודל מגיע בשלוש גרסאות שונות: ג'מיני אולטרה - הדגם הגדול ובעל היכולות הרבות ביותר, שמסוגל לענות על שאלות ופתרון בעיות מעולמות כגון מתמטיקה, פיזיקה, היסטוריה, משפטים, רפואה ואתיקה. ג'מיני פרו, שצפוי להיות הטוב ביותר במגוון רחב של משימות, וכבר מההשקה המדוברת ישדרג את הצ'אטבוט בארד; וג'מיני נאנו, המודל שישולב במכשיר הסמארטפון של גוגל, החל מדגם פיקסל 8 ויאפשר למשל סיכום של שיחות מוקלטות.

לידיעה המקורית לחצו כאן
לעמוד הרשמי לחצו כאן

2. המודלים החדשים של OpenAI מגיעים למיקרוסופט Windows.

מיקרוסופט הודיעה כי בקרוב היא תעדכן את Copilot עם המודלים החדשים שלה GPT-4 Turbo, Dall-E 3 ו GPT-Vision כחלק ממערכת ההפעלה שלה חלונות. שילוב מודלים אלו יאפשר הנחיה מורכבת יותר וביצוע משימות ארוכות יותר. GPT-4 Turbo שהוכרז רק בחודש נובמבר, זמן קצר לפני הבלאגן בהנהלת OpenAI זמין רק למשתמשי OpenAI בתשלום, הכרזה זו תאפשר לכל מי שיש לו את מערכת ההפעלה של Windows לעשות שימוש במודלים החדשים.

בנוסף, מיקרוסופט כבר הטמיעה את DALL-E 3, מודל התמונה המתקדם ביותר של OpenAI ב Paint אפליקציית הציור מה שמאפשר יצירה של תמונות מדויקות באיכות גבוהה יותר ועם יותר פרטים.

בנוסף, מיקרוסופט משלבת את GPT-4 בבינג, ובכך טוענת שהיא תוכל לענות בצורה טובה יותר על שאילתות טקסט שמשלבות גם תמונות. בינג גם מציג פיצ'ר חדש בשם "Deep Search", שמרחיב את שאילתות החיפוש שלכם כדי למצוא תוצאות מדויקות יותר ורלוונטיות.

3. חברת מטה משיקה ממשק משתמש חדשל מודל יצירת התמונות שלה.

אחרי אין סוף הכרזות, מחקרים והדגמות מטא סוף סוף משיקה ממשק משתמש למודל יצירת התמונות שלה– Imagine שמציע יכולות יצירת תמונות בדומה לדאלי של OpenAI ו .Midjourney

הכלי החדש מבוסס על Emu מודל יצירת התמונות והסרטונים שלה. מבדיקה ראשונית שלו הוא דומה במובנים רבים לכלים המקבילים והממשק המינימליסטי שלו מאפשר לכם להזין פרומפט ולקבל 4 תמונות. כרגע הכלי תומך ביחס אחד קבוע ריבועי (1:1) אבל סביר להניח שזה ישתנה בעתיד. בנוסף בשלב זה כל התמונות יוצאות עם סימן מים די גדול בפינה השמאלית של התמונה.

בשלב הראשון הכלי זמין אך ורק בארצות הברית, וכדי להשתמש בו תצטרכו גם "חשבון Meta", שהוא לא חשבון פייסבוק או אינסטגרם אלא בחשבון שונה שמטא גם דורשת ממשתמשי ה-Quest שלה.

לידיעה המקורית לחצו כאן

4. מודל חדש להנפשת תמונות - MagicAnimate.

חברות Bytedance בשיתוף Alibaba מציגות מודלים חדשים של בינה מלאכותית המסוגלים ליצור קטעי וידאו פוטוריאליסטיים של אנשים מונפשים. שני המודלים, MagicAnimate מבית Bytedance והמעבדה המחקרית באוניברסיטת סינגפור ו-Animate Anyone מבית Alibaba עשו שימוש במודלי דיפוזיה אשר יוצרים תנועות מתמונות.

המודלים החדשים עושים שימוש במודלי ה ControlNet המוכרים לצורך השגת רמה גבוה של עקביות ביחס למודלים אחרים של טקסט-לוידאו או תמונה-לוידאו, ומדורגים גבוה יותר בהשווה למודלים המקבילים. שני המודלים דורשים תמונה אחת וסדרת של תנועות כדי ליצור את הוידאו שהמקור שלו יכול להיות אדם אמיתי, מונה ליזה או תמונה שנוצרה על ידי כלי ג'נרוט אחר.

לידיעה המקורית לחצו כאן
לקישור למחקר לחצו כאן

5. מטא חושפת את Seamless AI, טכנולוגיית תרגום שפות חדשנית בזמן אמת.

חברת מטא חושפת את Seamless AI, טכנולוגיית תרגום שפות חדשנית המאפשרת תרגום בזמן אמת תוך שמירה על אלמנטים של הדיבור כמו טון, הפסקות ודגשים. המודלים של Seamless, בנויים על בסיס SeamlessM4T v2, וכוללים שיפורים למניעת רעילות והטיות של המודל, וכן סימון בתוצרי המודל באודיו למניעת שימוש לא ראוי.

המודל כולל שני כלים:

- SeamlessExpressive: מודל לשמירה על צורת הדיבור בתרגום.

- SeamlessStreaming: מודל היוצר תרגומים בזמן אמת אשר נוצר עם דיליי (עיכוב) של שתי שניות בלבד.

Meta מציינת כי המודלים יכולים לשפר שיטות תרגום קיימות שאינן מהירות מספיק לתקשורת יעילה בין אנשים בשיחות בשפות שונות. Meta מציעה לקהילת המחקרים להשתמש במודלים הללו, הזמינים להורדה ב-GitHub, תחת רישיון שאינו מאפשר שימוש מסחרי.

לידיעה המקורית לחצו כאן

6. מודל חדש מבית ByteDance - מודל חדש ליצירת מודלים תלת-ממדיים.

חוקרים מחברת ByteDance, חברת האם של TikTok, פיתחו מודל AI בשם ImageDream, שמסוגל ליצור מודלים תלת-ממדיים מרשימים מתמונות. ImageDream יכול להפיק דיפוזיות רב-תצוגתיות של אובייקטים מכל נקודת מבט, כאשר הקלט הוא תמונה בודדת.

הצוות מאחורי ImageDream טוען ששימוש בתמונות כקלטים ליצירת מודלים תלת-ממדיים, במקום טקסט, מאפשר דרך יותר אינטואיטיבית וישירה בה המשתמשים יוכלים להביע בצורה ברורה יותר את רצונותיהם.

מודלים קודמים כמו Google DreamFusion ו-Point-E של OpenAI יצרו כבר מודלי תלת מימד מטקסטים, וגם ByteDance בנתה מודל קודם בשם MVDream. אולם, לפי הצוות, ImageDream בולט ביכולתו ליצור אובייקטים עם גאומטריה נכונה מתמונה נתונה.

לידיעה המקורית לחצו כאן
למחקר וקוד המקור לחצו כאן

7. הושקה גרסה 2 של מודל יצירת התמונות של Playground.

הסטארטאפ Playground השיק השבוע את הגרסה השניה של מודל יצירת התמונות מטקסט של הפלטפורמה המוכרת. לפי מחקר משתמשים שביצעה החברה, תמונות שנוצרו על ידי המולדלה חדש - v2 נמצאו עדיפות עד פי 2.5 על פני תמונות שנוצרו על ידי Stable Diffusion XL. המחקר המשווה בין שני המודלים התבצע על ידי אלפי משתמשים.

הפלטפורמה מציעה את המודל החדש שלה בגרסת בסיס עם רזולוציות של 512px או 256px גם ב-Huggingface. גרסה "אסתטית" של המודל עם רזולוציה של 1024px זמינה בפלטפורמה כל מי שיוצר חשבון יכול ליצור 500 תמונות ביום בחינם. התמונות יכולות לשמש לשימוש מסחרי. תמורת 12 דולר לחודש, משתמשים יכולים לגשת למגוון פונקציות עריכת תמונה וקידוד דרך ממשק גרפי קל ופשוט.

לידיעה המקורית לחצו כאן

8. הדור הבא של מודלי השפה - קלים, מדויקים ומתקדמים!

המודל החדש של Stability.ai - Stable LM Zephyr 3B הוא מודל שפה גדול (LLM) אבל קטן עם "רק" 3 מיליארד פרמטרים, ולכן הוא קטן ב-60% מהמודלים הנפוצים בגודל 7 מיליארד פרמטרים. למרות גודלו הצנוע הוא מאפשר פלט מדויק ומהיר במגוון מכשירים ללא צורך בחומרה מתקדמת. המודל זמין להורדה תחת רישיון לשימוש לא מסחרי.

זהו המודל האחרון בסדרת מודלי השפה הקלים (קטנים) והוא מתאים במיוחד למשימות הקשוורות בהבנת הוראות, שאלות ותשובות. הוא נבנה על בסיס המודל Stable LM 3B-4e1t ומתמקד ביצירת טקסט במגוון רחב של הקשרים החל משאילתות פשוטות ועד לנושאים מורכבים יותר כמו ניתוח וסיכון מאמרים.

לידיעה המקורית לחצו כאן

9. חברת הוידאו Runway חוברת ל Getty Images ליצירת פתרון לארגונים.

חברת הוידאו Runway חתמה על שותפות עם פלטפורמת התמונות Getty כחלק מהשקת מודל וידאו חדש ללקוחות עסקיים, במטרה לענות על הצורך הגובר בתוכן איכותי ומותאם אישית בארגונים.

המודל החדש ישלב את כוחה של Runway עם ספריית התוכן היצירתי מבוסס הרישוי Getty. המודל יספק דרך חדשה להביא לחיים רעיונות וסיפורים דרך וידאו בדרכים בטוחות ומותאמות לעסקים.

המודל החדש של ראנוויי וגטי אימג'ס (RGM) יאפשר לחברות לבנות מודלים מותאמים לארגונים עסקיים אשר יוכלו להתאים אישית את RGM באמצעות מערכות נתונים ייחודיות שלהם. זה יאפשר לחברות בתחומים שונים – כגון פרסום, מדיה, שידור ועוד – לשפר את מנגנוני יצירת הוידאו שלהם.

לידיעה המקורית לחצו כאן

השבוע שהיה בבינה המלאכותית היוצרת - 8/12/23

מאמרים קשורים

נושאים מרכזיים