השבוע שהיה בבינה המלאכותית היוצרת

השבוע שהיה בבינה המלאכותית היוצרת 05/04/2024

עמית קמה

2024-04-05 00:00:00

1. שוב פריצת דרך של OpenAI : Voice Engine שיבוט קול ב 15 שניות.

השבוע חברת OpenAI הצליחה להסעיר את הרשת עם מנוע שפה חדש - Voice Engine המסוגל לשכפל קול במגוון שפות מקטע טקסט של 15 שניות. בפוסט שהחברה פרסמה היא ציינה שהכלי, Voice Engine פותח כבר ב 2022 והוא לא שוחרר בשל ההשלכות האתיות והסיכונים שטמונים בטכנולוגיה זו.

עד שהמודל יהיה זמין לציבור המפתחים הרחב, OpenAI שחררו את המודל שלהם למספר חברות איתם יש להם שיתופי פעולה עסקיים. החברות שקיבלו גישה כוללות את חברת הטכנולוגיה החינוכית Age of Learning, פלטפורמת האווטרים HeyGen, ומספר חברות שעוסקות בתחום הבריאות והעשייה החברתית Dimagi, והחברות AI Livox ו Lifespan.

אם אתם שואלים את עצמכם בצדק מדוע OpenAI החליטו על הפרסום רק עכשיו, אז העיתוי אינו מקרי. החברה מנסה לתת מענה לביקורת ההולכת וגדלה של הסכנות בתחום ה AI. מצד אחד הפרסום מציג את החברה שוב כפורצת דרך ומובילת שוק ומצד שני כמבוגר האחראי בתחום השמור על האינטרסים של הציבור הרחב.

לידיעה המקורית לחצו כאן

2. ג'מבה - מודל שפה היברידי חדש מבית AI21 הישראלית.

חברת AI21 Labs הישראלית השיקה מודל שפה גדול חדש בשם Jamba, עם חלון הקשר של 256,000 טוקנים. Jamba הוא מודל היברידי ייחודי ראשון מסוגו לשימוש תעשייתי. המודל משלב את Mamba SSM של AI21 עם טכנולוגיית הטרנספורמרים המוכרת שמשמשת במודלים פופולריים כמו GPT של OpenAI.

Jamba ממוקדת בשיפור בעיות שעולות מודלים המבוססים על State Space ו-Transformer. לעומת מודלים המבוססים על טרנספורמרים באותו גודל, Jamba מספק תפוקה גבוהה פי שלוש במשימות עם הקשר ארוך, משימות שהן קריטיות לשימושי עסקי.

AI21 שחררה את המשקולות של Jamba כקוד פתוח תחת רישיון Apache 2.0 כדי לעודד חדשנות. החברה גם שילבה את Jamba בקטלוג ה-AI של Nvidia לפריסה קלה יותר בארגונים כשירות. עם חלון הקשר העצום של 256,000 טוקנים, Jamba מדורג מעל מודלים אחרים ברמה דומה במגוון רחב של בדיקות וביצועים.

לידיעה המקורית לחצו כאן
לעמוד המודל לחצו כאן

3. אינטיליגנציה רגשית מבוססת בינה מלאכותית – הכירו את EVI.

השבוע הפציע ברשת צ'טבוט קולי חדש בשם EVI או - Empathic Voice Interface, מודל בינה מלאכותית חדש שזכה לשדרוג משמעותי – יכולת לנתח להבין ולהביע רגשות ואמפטיה. מי שעומדת מאחורי המודל החדש היא חברת Hume AI שהפתיעה את כולם עם היכולות הרגשיות שהמודל מציג.

המודל של Hume AI מבוסס שיח קולי (בשלב זה), והוא מסוגל להקשיב, להבין, ולהפגין אמפטיה בשיחה עם המשתמש. בזמן השיחה המודל מנתח את הקול והטקסט של המשתמש על בסיס מודל של 27 הרגשות שפיתח מייסד החברה, אלן קואן (Alan Cowen) מתמטיקאי יישומי ומדען רגשות.

כפי שאתם מתארים לעצמכם מגוון השימושיים הארגוניים למודל שכזה הוא אין סופי, החל מניטור שיח במוקדי שירות, דרך מענה אמפטי של בוט למצבי קיצון, סיוע בעולמות התמיכה הרגשית-נפשית, הוראה, רפואה ועוד ועוד. אם בתחילת שנת 2022 גילינו שבינה המלאכותית נכנסה עמוק לתחום שהיה ייחודי עד אז לבעלי חיים – יצירתיות, עכשיו אנו חווים אבולוציה נוספת והתפתחות האמפתיה במכונה.

לאתר החברה לחצו כאן

4. עכשיו אפשר לערוך את התמונות שלנו ב ChatGPT.

חדש ב ChatGPT שהוא למעשה גם הממשק ליצירת תמונות באמצעות DALL·E: החל מהשבוע האחרון חברת OpenAI מאפשרת עריכת תמונות על ידי בחירה באזור מסוים בתמונה (In Painting) ותיאור השינויים בשפה טבעית בצ'ט.

הממשק החדש מספק אפשרויות להדגשת חלקים בתמונה שנוצרה כדי לעדכן אותם. ניתן לשנות את גודל כלי הבחירה ולבטל או לחזור על הפעולה האחרונה. העורך מאפשר להוסיף, להסיר ולעדכן חלקים בתמונה. אפשרות נוספת היא לספק תאור תמונה חלופי במצב עריכה, כך שלכל הנחיה שלכם תצורף התמונה שאתם עורכים כרפרנס, אבל אני מוכרח לציין שעד כה לא מצאתי מישהו ברשת שדווח שהוא הצליח לקבל את אותה תמונה עם השינוי הרצוי.

לידיעה המקורית לחצו כאן

5. מחקר חדש מצא - לא בטוח שכדאי לכם לסמוך על הסיכומים של מודלי השפה הגדולים.

מחקר חדש מעריך את יכולתם של מודלי שפה גדולים לסכם ספרים שלמים, ביחס לגודל חלון ההקשר שלהם, שמייצג את כמות המידע שהם יכולים לעבד בו זמנית. כיום, חלון ההקשר גדול מספיק כדי לאפשר סיכום של ספרים שלמים, כשמודלים כמו Claude 3 ו-Google Gemini 1.5 Pro מובילים את טבלאות כמות הטוקנים שהם יכולים לטפל בצ'ט אחד.

במחקר, שבוצע על ידי חוקרים מ-UMass Amherst, Adobe, מכון אלן לבינה מלאכותית ואוניברסיטת פרינסטון, החוקרים יצרו מערך נתונים חדש בשם FABLES (Faithfulness Annotations for Book-Length Summarization), שמטרתו לבחון את היכולת של המודלים השונים לסכם בצורה אמינה ומדויקת ספרים שלמים.

לאחר שהחוקרים קראו את הספרים ותייגו את האינפורמציה החשובה שבהם הם נתנו למודלים השונים לסכם את הספרים ובחנו את התוצאות. המחקר הראה שהמודל החדש של אנטרטפיק Claude 3 Opus, הצליח לקבל ציונים טובים יותר מכל המודלים בתשלום של OpenAI, עם 90 אחוז מהטענות שזוהו כאמינות.

החוקרים ציינו שכל המודלים עשו טעויות כרונולוגיות והשמיטו מידע חשוב הנוגע לאירועים, דמויות ומערכות יחסים במידע שהם סקרו, הם גם אישרו שוב את התופעה שכבר נצפתה בעברה וזכתה לשם "lost-in-the-middle" בו המודלים מעדיפים לתת יותר משקל לתוכן שבסוף התוכן, במקרה זה הספרים.

לידיעה המקורית לחצו כאן
למערך הנתונים לחצו כאן

6. אפל מציגה את ReALM מודל חדש שמאתגר את GPT-4.

אפל מציגה את ReALM, מודל AI חדש אשר נועד להתמודד מול GPT-4 של חברת OpenAI. המודל החדש של אפל מסוגל להבין קונטקסטים שונים ולספק מידע מדויק. בניגוד ל-GPT-3.5 שמבין רק טקסט, GPT-4 יכול להבין גם תמונות, אך ReALM משתמש גם בטקסט וגם בתמונות (כמו צילומי מסך) להבנה טובה יותר של קונטקסט השיח והוא מגיב בצורה יעילה יותר לשאלות המשתמשים.

ב ReALM ניתן להבנה של אלמנטים חזותיים כשהמודל משלב זאת בזרימת השיחה. ReALM מבצעת רקונסטרוקציה של המבנה החזותי של המסך באמצעות ייצוגים טקסטואליים. היא מנתחת את הישויות ומיקומם על המסך כדי ליצור פורמט טקסטואלי המתאר את תוכן ומבנה המסך.

המודל החדש צפוי לאפשר למשתמשים לתקשר עם עוזרים דיגיטליים בצורה יעילה יותר תוך הפנייתם למה שמוצג על המסך ללא צורך בהוראות מדויקות ומפורטות. יכולת זו עשויה להפוך את העוזרים הקוליים לשימושיים יותר במגוון משימות, כגון סיוע לנהגים לנווט במהלך הנסיעה או סיוע למשתמשים עם מוגבלויות על ידי הצעת אמצעי אינטראקציה עקיפים קלים ומדויקים יותר משימוש באינטראקציה עם מסך .

לקישור למחקר לחצו כאן

7. מהפכת המוזיקה הדיגיטלית הצצה ל-Stable Audio 2 מודל המוזיקה החדש של Stability AI.

חברת Stability AI השיקה את Stable Audio 2, גרסה מתקדמת של כלי יצירת מוזיקה באמצעות בינה מלאכותית שהיא הציגה לפני מספר חודשים. המודל החדש מציב רף חדש ליצירת מוזיקה באמצעות בינה מלאכותית, ומאפשר יצירת שירים רציפים באיכות סטודיו.

פונקציית ה audio-to-audio מאפשרת למשתמשים להעלות קבצי אודיו משלהם וליצור מוזיקה מלאה, תוך הגנה על זכויות יוצרים באמצעות שיתוף פעולה עם Audible Magic. המודל החדש מציע גם אפשרויות מתקדמות ליצירת אפקטים קוליים וסביבתיים, ותכונת העברת סגנון (Style Transfer) המאפשרת להתאים קבצי מוזיקה קיימים לסגנון חדש שתרצו. Stable Audio 2 זמין ללא תשלום באתר Stable Audio, ובערוץ ה-YouTube שלהם משודר "Stable Radio" שמציג רצועות שנוצרו על ידי הכלי.

בעוד שהמודל לא יכול ליצור קולות כמו המודל המפורסם של Suno, המודל של Stable Audio אופטימלי ליצירה של מוזיקה לסרטוני וידאו, פיתוח משחקים או סתם מוזיקת רקע לאירועים שונים.

לידיעה המקורית לחצו כאן
לכלי יצירת המוזיקה לחצו כאן

8. מיקרוסופט משדרגת את Copilot עם גישה מועדפת ל-GPT-4 Turbo ועוד.

מיקרוסופט ממשיכה להרחיב את הפונקציונליות של Copilot כחלק מהשירות Microsoft 365, וכחלק משיפור חוויית השימוש בכלי האופיס. לאחרונה, החברה נתקלה בקשיים, כאשר משתמשים טענו כי Copilot אינו עומד סטנדרטים של הצ'אטבוטים האחרים בשוק, וכעת הודיעה החברה על הוספת פונקציות חדשות ב Copilot, לרבות גישה מועדפת ל-GPT-4 Turbo המודל העדכני של OpenAI והגדלת כמות התמונות שניתן ליצור ב-Microsoft Designer.

הגישה המועדפת ל-GPT-4 Turbo ב-Copilot מבטיחה שמשתמשי Microsoft 365 ייהנו מהגרסה החדשה והמתקדמת ביותר של ChatGPT מבית OpenAI, אפילו בשעות השיא, ובלי הגבלה על מספר הפניות בצ'ט. בנוסף, העדכון יגדיל את הגבול ליצירת תמונות ב-Microsoft Designer מ-15 ל-100 תמונות ביום.

לקבלת הפונקציות החדשות, יש לוודא שהפלטפורמה מעודכנת לגרסה האחרונה. הגישה המועדפת ל-GPT-4 Turbo זמינה כבר למשתמשים הארגוניים בעוד שהגדלת כמות התמונות תחל מהחודש הבא. למרות האתגרים, במיקרוסופט מאמינים שהאינטגרציה המתמשכת של Copilot עם שירותי Microsoft עשויה להוכיח את עצמה כאסטרטגיה מנצחת, במיוחד עבור עסקים המשתמשים בפלטפורמה.

לידיעה המקורית לחצו כאן

9. חברת OpenAI מעדכנת את ה API שלה להתאמת מודלי השפה לשימושים עסקיים.

מתוך תפיסה כי רוב הארגונים יפתחו מודלים מותאמים אישית ב OpenAI מעדכנים את מודל ה Fine Tune של מודלי ה AI שלה. החידושים כוללים שיפורים ב-API והרחבת המודלים להם ניתן לבצע Fine Tune, כלומר התאמה של המודל לעבודה עם מידע פנים ארגוני תהליך שנועדו לאפשר למפתחים שליטה רבה יותר במודלים והתאמתם לצרכים עסקיים ספציפיים.

השיפורים ב-API כוללים יצירת צ'קפוינטים שמקטינים את הצורך בהכשרה מחדש ומפחיתים את הסיכון בהתאמה מחדש של המודל לתוכן הארגוני, וממשק משתמש חדש שמאפשר השוואות צד-אל-צד של פלט המודל, מה שמשפר את תהליך הפיתוח באמצעות בקרה אנושיות.

OpenAI רואה עתיד שבו מודלי AI מותאמים אישית יהפכו לנורמה עסקית שתסייע לנצל את הפוטנציאל המלא של הבינה המלאכותית.

לידיעה המקורית לחצו כאן