השבוע שהיה בבינה המלאכותית היוצרת

1. גוגל מציגה: Gemini, התחרות החדשה ל Chat-GPT 4.

אין זה סוד שהפריצה של OpenAI ו ChatGPT תפסה את גוגל לא מוכנה, מי שהמציאה את היסודות של מודלי השפה שכולם עושים בהם שימוש מצאה את עצמה בפיגור בדעת הקהל, פיגור שהיא עדיין לא מצליחה לסגור. בשבוע שעבר גוגל השיקה את המודל החזק במשפחת מודלי השפה שלה Gemini שלטענתם מתמודד ראש בראש באותה רמה עם GPT-4 של OpenAI.

במסגרת ההשקה Bard המוכר שינה את שמו לGemini והגרסה המתקדמת Gemini Advanced זמינה לחודשיים ראשונים ללא עלות ולאחר מכן המחיר צפוי להיות כ 20 דולר כמו ChatGPT Plus של OpenAI ו-Copilot Pro של מיקרוסופט. הגרסה המשופרת זמינה ב-40 שפות, ובקרוב תגיע לאפליקציית Gemini החדשה באנדרואיד ובאפליקציית Google ב-iOS.

המודל החדש צפוי לעמוד בכל הציפיות של מולטימודל אמיתי, יצירת תמונות, ניתוח תמונות, כתיבת קוד, ניתוח קבצים וכמובן כתיבת טקסט. עד כמה הוא עומד בציפיות, נגלה בימים הקרובים.

לידיעה המקורית לחצו כאן

2. סם אלטמן במרוץ אחר התשתית להתפתחות ה AI בסכום עצום של 7 טריליון דולר.

סם אלטמן ו-OpenAI רוצים להיכנס לעסקי התשתיות. בהצהרתו הוא מאשר את השמועות מהחודשים האחרונים' לטענת סם - העולם זקוק ל"יותר תשתיות AI", כולל יותר יכולת ייצור שבבים, אנרגיה, ומרכזי נתונים. בניית תשתית עצומה זו ושרשרת אספקה עמידה היא קריטית להתפתחות התחום.

בנוסף, ה-Wall Street Journal מאשר שמועות קודמות כי אלטמן נמצא גם במגעים עם ממשלת איחוד האמירויות הערביות במטרה לגייס כחמישה עד שבעה טריליון דולר, המהווים פי כמה מגודלה הנוכחי של תעשיית השבבים, הצפויה לייצר הכנסה שנתית של טריליון דולר עד 2030. אלטמן מדמיין שותפות בין OpenAI (כלקוח מרכזי), משקיעים, יצרני שבבים וחברות שירותים, לבניית מפעלי שבבים אשר יופעלו על ידי יצרני השבבים הקיימים. כרגע היוזמה עדיין מתמודדת עם מכשולים רבים, בעיקר ביצירת שת"פ בין הגורמים השונים.

התוכניות לגיוס כספים של אלטמן לוקחת בחשבון גם את הצריכה העצומה של אנרגיה לתשתיות ה AI. לפי אלטמן, הפיתוח של בינה מלאכותית כללית (AGI) ידרוש כמויות גדולות של אנרגיה, מה שמחייב פריצת דרך בייצור אנרגיה.

לידיעה המקורית לחצו כאן

3. צעד חדש במאבק על אמינות התוכן ברשת: OpenAI משלבת סימון לתוכן שנוצר עם AI.

בשבוע שעבר OpenAI הודיעה על הטמעה של טכנולוגיית סימון לתכנים שנוצרו באמצעות בינה מלאכותית באמצעות תקן C2PA (Coalition for Content Provenance and Authenticity). תקן זה מאפשר להטמיע מטא-דאטה בתוכן מדיה לצורכי אימות מקור התוכן. התקן אינו מיועד רק לתמונות שנוצרו באמצעות בינה מלאכותית אלא נעשה בו שימוש גם על ידי יצרני מצלמות, ארגוני חדשות וגורמים אחרים במטרה להציג אישור למקור התוכן וההיסטוריה (או המוצא) של התוכן.

הבעיה היא שאותו מטא-דאטה ניתן להסרה מהקובץ (רוב הרשתות החברתיות מסירות את הסימון כיום) וצילום מסך של התמונה או ההתוכן אינו משמר את אותו סימון, כך שלמעשה הסימון שנוצר יחד עם התוכן לא מבטיח בהמשך זיהוי בטוח ומאובטח בצורה חד ערכית. למרות המגבלה, זהו צעד חשוב שיאפשר ברוב המקרים הפשוטים להציג סוג של סימון בערוצי התוכן השונים כאשר תוכן נוצר על ידי בינה מלאכותית, בעיקר במקרים של דיפ פייק או תכנים אחרים שאינם אמינים וזאת בתנאי שהמשתמש לא יסיר את הסימון.

לידיעה המקורית לחצו כאן

4. חברת Bria הישראלית משיקה מודל הסרת רקע בגרסה חדשה.

חברת Bria הישראלית השיקה בשבוע החולף מודל הסרת רקע מתקדם בגרסה RMBG v1.4 . המודל הושק בקוד פתוח לשימוש לא מסחרי והותאם במיוחד להפרדה בין אלמנטים בחזית לרקע בקטגוריות וסוגי תמונות מגוונים. המודל אומן על מערך נתונים רחב, כולל תמונות סטוק, תוכן למסחר אלקטרוני, גיימינג ופרסום, מה שהופך אותו למתאים לשימושים מסחריים ויצירת תוכן בקנה מידה גדול.

המודל RMBG v1.4 מתהדר בדיוק, יעילות וגמישות, עם דגש על בטיחות תוכן, ושימוש במערכי נתונים עם רישיון חוקי אשר מקטין את הסיכון להטיות, מה שהופך אותו לאידיאלי לשימוש ארגוני בטוח וחוקי.

למודלים של Bria בhuggingface לחצו כאן

5. מיקרוסופט מעדכנת את שירות Copilot שלה באינטרנט עם עיצוב ותכונות חדשות.

הפלטפורמה של Copilot שעברה עיצוב מחדש מציעה עיצוב נקי יותר, ולפי Microsoft הופכת את התקשורת עם המשתמשים לנוחה יותר אחת הדוגמאות היא שהממשק החדש כולל קרוסלה עם רעיונות לפקודות.

גם יצירת תמונות ב-Copilot שופרה משמעותית ומשתמשים כעת יכולים ליצור תמונות ולערוך אותן ישירות, על ידי הדגשת אובייקטים, טשטוש רקע של התמונה, או החלת אפקטים נוספים (בגרסה החינמית). Microsoft תשלב בקרוב "Designer GPT" ב-Copilot מה שיעניק למשתמשים אפשרויות נוספות להתאמה אישית של התמונות.

Copilot זמין ללא תשלום ומותאם לשימוש ב Microsoft Edge, Chrome, Firefox ו-Safari או כאפליקציה ניידת ל-iOS ו-Android. הפלטפורמה זמינה באתר copilot.microsoft.com ובחנויות האפליקציות של iOS ו-Android.

לפי Microsoft, הפלטפורמה מציגה "צמיחה מתמשכת" של הדפדפן Microsoft Edge ובמנוע החיפוש Bing , כחלק מהצמיחה של כלים אלו המשתמשים יצרו מאז ההשקה חמישה מיליארד תמונות.

לידיעה המקורית לחצו כאן

6. אפל שחררה מודל AI חדש בקוד פתוח, בשם "MGIE", המאפשר עריכת תמונות בשפה טבעית.

מודל MGIE ((MLLM-Guided Image Editing, מנצל מודלי שפה גדולים (MLLMs) אשר מסייעים לפרש טוב יותר את הפקודות של המשתמשים וביצוע מניפולציות בתמונות ברמת הפיקסל. המודל מסוגל להתמודד עם מגוון תרחישי עריכה, כולל שינויים בסגנון Photoshop, אופטימיזציה של איכות התמונות ועריכה של אזוריים מקומיים בתמונה.

MGIE הוא תוצאה של שיתוף פעולה בין אפל לחוקרים מאוניברסיטת קליפורניה. המודל הוצג במאמר שהתקבל בכנס הבינלאומי ICLR 2024, אחד מהפורומים המובילים למחקר AI. MGIE משלב MLLMs בתהליך עריכת התמונה בשני אופנים: ראשית, הוא משתמש ב-MLLMs ליצירת הוראות מילוליות מההנחיה של המשתמש. ושנית, הוא משתמש ב-MLLMs ליצירת דימוי חזותי, המהווה ייצוג של ההעריכה הרצויה.

לידיעה המקורית לחצו כאן

7. חברת Stability AI מעדכנת את מודל הוידאו שלה בגרסה חדשה.

חברת Stability AI השיקה את העדכון הראשון והמשמעותי למודל הווידאו הג'נרטיבי שלה, Stable Video Diffusion (SVD), שעודכן לגרסה 1.1. המודל זמין לציבור ונועד לייצר סרטונים שנוצרו על ידי בינה מלאכותית עם תנועה ועקביות משופרות. הוא זמין להורדה דרך Hugging Face, ונדרש רישום ב-Stability AI לשימוש מסחרי.

בדצמבר 2023, החברה השיקה שירות מנוי לשימוש מסחרי למודל הוידאו. עבור שימוש שאינו מסחרי, כל המודלים (תמונות ווידאו) עדיין זמינים כקוד פתוח. לפי הפירוט הטכני המודל SVD 1.1 הוא גרסה משופרת של SVD-XT הקודם ומייצר סרטונים באורך ארבע שניות עם 25 פריימים וברזולוציה של 1024576X פיקסלים.

8. חברת Brilliant Labs מפתחת את משקפי הבינה מלאכותית הראשונים בעולם.

חברת Brilliant Labs משיקה משקפי בינה מלאכותית בשם Frame, המשקפיים הראשונים בעולם עם עוזרת AI מודולארית בשם נועה המשולבת במשקפיים.

Frame מציגה תפיסה חדשה לחיי היום יום תחת הנהגתו של בובק טוואנגר, מנכ"ל Brilliant Labs בהווה ובכיר באפל בעבר. Frame מאפשרת למספר מערכות AI לשתף פעולה, ופותחת אפשרויות בלתי מוגבלות לטכנולוגיה זו בחיי היום יום. מעבר להיותה פלא טכנולוגי, Frame היא גם אמירה אופנתית, המוקירה כבוד לדמויות היסטוריות כמו ג'ון לנון, סטיב ג'ובס וגנדי, שהשפיעו על התרבות בעודם חובשים משקפיים מעגליים אייקוניים.

Frame משלבת טכנולוגיה מתקדמת בחבילה קלת משקל ואופנתית, שאינה נבדלת ממשקפיים רגילים. העוזרת Noa מתפתחת ומקבלת אישיות ייחודית תוך ניתוח האינטראקציות עם המשתמש ומסוגלת לבצע משימות כמו לסכם מאמרים, לתרגם טקסטים, ולארגן פגישות עבודה. Frame תהיה זמינה לרכישה מוקדמת החל ממרץ 2024 במחיר של 300 דולר.

לידיעה המקורית לחצו כאן

9. חברת הגיימינג רובלוקס משיקה תרגום בזמן אמת מבוסס AI.

חברת המשחק Roblox משיקה תרגום צ'אט בזמן אמת המבוסס על AI ומציעה קפיצת מדרגה בתקשורת הגלובלית בין המשתמשים השונים שלה. השירות, שיושק ב-16 שפות, מאפשר למשתמשים לתקשר בשפת האם שלהם. הטכנולוגיה המבוססת על בינה מלאכותית ייחודית שפותחה ב-Roblox, ומספקת תרגום בזמן אמת של הודעות צ'אט בין משתמשים ברחבי העולם.

לדוגמה, משתמש בקוריאה יכול להקליד הודעה בקוריאנית ומשתמש דובר אנגלית יראה אותה באנגלית, בעוד משתמש דובר גרמנית יקרא ויגיב בגרמנית. "המודל שלנו מהיר כל כך, שאנחנו מסוגלים לבצע תרגומים בזמן אמת מכל אחת מ-16 השפות לכל שאר השפות בזמן שהמשתמשים מקלידים, כדי לעזור להם להתחבר בזמן אמת, לא משנה מאיפה הם," אמר דניאל סטורמן, CTO ב-Roblox.

נכון לסוף 2023, ל-Roblox היו מעל 70 מיליון משתמשים המתחברים ומתקשרים באופן יום יומי. לנוכח העובדה שאחת משלוש הודעות צ'אט דורשת תרגום, השירות החדש מטפל בצורך משמעותי בקרב בסיס המשתמשים של Roblox.

השבוע שהיה בבינה המלאכותית היוצרת 09/02/2024

מאמרים קשורים

נושאים מרכזיים