השבוע שהיה בבינה המלאכותית היוצרת

1. גרסה 6 כאן!! - מידג'רני משיקים גרסה חדשה של מודל יצירת התמונות.

בתזמון מושלם לחג הקריסמס החברים ב מידג'רני משיקים את הגרסה ה 6 (אם לא סופרים את הגרסאות הקודמות) של מסנתז התמונות שלה. הדור החדש והמתקדם של מודל יצירת התמונות הפופולרי הושק בגרסת אלפא – וכבר יש משתמשים ותיקים שמתלהבים מהשיפורים.

בין התכונות החדשות: תמונות מפורטות וריאליסטיות באופן משמעותי יותר, והיכולת להפיק טקסט קריא בתוך התמונות – משהו שלא הצליח בתחרות מול המתחרים כמו DALL-E 3 של OpenAI ו-Ideogram שכבר הציגו יכולת זו לפני מספר חודשים.

דיוויד הולץ, מייסד מידג'רני, כתב בשרת ה-Discord, שיש בו מעל 17 מיליון חברים, שהגרסה ה 6 היא הדור השלישי של מחולל התמונות שהוכשר מאפס ואינו מבוסס על המודלים הקודמים, פיתוח ואימון שנדרשו להם תשעה חודשים.

לידיעה המקורית (למשתמשי Discord) לחצו כאן

2. לצד ההשקה של גרסה 6 - מידג'רני משיקים את אתר יצירת התמונות שלהם בגרסת אלפא.

לאחר שנה (ויותר) בהן פעלה מידג'רני אך ורק באמצעות פלטפורמת המסרים Discord, בימים האחרונים החלה החברה לבחון גרסת "אלפא" של מחולל התמונות באמצעות האתר העצמאי שלה midjourney.comמשתמשים יוכלו ליצור תמונות ישירות באתר ולא דרך .Discord

האפשרות ליצור תמונות דרך האתר נפתחת בהדרגה למשתמשים הרשומים והיא כרגע נמצאת בשלבי בדיקה מתקדמים. חשוב לציין שממשק יצירת התמונות אינו כולל את כל האפשרויות שקיימות בהנחיות הטקסטואליות ב Discord , פער שיסגר בחודשים הקרובים בהדרגה.

לידיעה המקורית לחצו כאן

3. אופטימוס דור 2 - דור חדש של רובוטים אנושיים שנועדו לבצע משימות חוזרות במקום בני אדם.

הרובוט שמכונה גם Tesla Bot, לא נתפס ברצינות על ידי רבים, במיוחד לאחר ההצגה הלא מרשימה ביום ה-AI של טסלה בשנה שעברה. כעת, טסלה מציגה דור חדש, מתקדם יותר, שמבצע משימות שימושיות יותר.

בעדכון האחרון, טסלה מפרסמת שאופטימוס אומן באמצעות רשתות נוירונים מקצה לקצה ומסוגל לבצע משימות חדשות כמו מיון עצמים באופן אוטונומי. דור 2 של אופטימוס מצויד בחיישנים שתוכננו על ידי טסלה מה שמאפשר לו מגוון רחב יותר של פעולות, הרובוט יכול ללכת 30% מהר יותר והקטנה של המשקל שלו ב 10 ק"ג משפרת את האיזון שלו.

בהדגמה, נראה אופטימוס דור 2 מבצע כפיפות תוך שמירה על איזון. חלק מהאתגרים הגדולים בייצור רובוט אנושי שימושי הם הידיים, שצריכות להיות חזקות מספיק לשאת משקלים משמעותיים אך עדינות מספיק לטפל בעצמים עדינים. דור 2 של אופטימוס מציג ידיים שמסוגלות לשלב את שתי הפעולות הנ"ל. טסלה מתכננת להשתמש ברובוט בפסי הייצור שלה ולאחר מכן למכור אותו ללקוחות חיצוניים.

לידיעה המקורית לחצו כאן

4. המודל החדש של גוגל – ג'ימיני פרו מקבל ציון נמוך ביחס למודלים המתחרים.

לאחר הפארסה המדוברת והפברוק לכאורה של וידאו ההשקה של המודל של גוגל – ג'ימיני, יצא השבוע מחקר שבחן את היכולות של ג'ימיני אל מול המודלים המתחרים, והחדשות לא משמחות במיוחד עבור גוגל.

המחקר שפורסם על ידי צוות חוקרים מאוניברסיטת קרנגי מלון לצד חוקרים מחברת BerriAI מצא ש -Gemini Pro נחותה מ-GPT-3.5 Turbo של OpenAI ברוב המשימות, וזאת שהמשתמשים המשלמים של OpenAI כבר משתמשים בגרסאות המתקדמות של המודל GPT-4 ו GPT-4 Turbo.

המחקר בוצע באמצעות האתר LiteLLM במשך ארבעה ימים. החוקרים הריצו את המודלים דרך סט של פרומפטים שונים, הכוללים 57 שאלות בחירה בנושאים שונים כחלק ממבחן QA מבוסס ידע. בעוד שהמודל קיבל ציון נמוך ביחס למודלים המתחרים לרבות המודל הצרפתי המפורסם Mixtral 8x7B היא קיבלה ציון גבוה יותר בכל בדיקות התרגום בין שפות שונות.

בתגובה, גוגל טוענת ש-ג'ימיני פרו מציגה ביצועים טובים יותר מ GPT-3.5 וכי ג'ימיני אולטרה הגרסה העוצמתית יותר של המודל תשוחרר ב-2024 והיא מדייקת יותר מ-GPT-4.

לידיעה המקורית לחצו כאן
למחקר שפורסם לחצו כאן

5. מודל חדש מבית אליבאבא מאפשר החלפת בגדים על תמונות סטטיות.

כולנו מבינים שתחום הבינה המלאכותית היוצרת עומד לשנות בצורה משמעותית תחומים רבים בחיינו ותחום הרכישות און-ליין (איקומרס) עומד בפני שינויים מרחיקי לכת, דוגמאות לכך ניתן למצוא כמעט בכל מודל חדש שמושק בשנה האחרונה.

אחד מהם הוא OutfitAnyone מבית אליבאבא שלמעשה מאפשר להציג בגדים על גבי דוגמנים וירטואליים. המודל החדש למעשה מאפשר התאמה של בגדים וירטואלית. שימוש במודל זה באתרי איקומרס יאפשר למשתמשים לשים כל פריט לבוש על תמונת אדם וליצור תמונה חדשה של אותו אדם עם הבגד.

בשלב זה המודל עדיין בגרסה למחקר ולא בגרסה מסחרית והוא אינו מאפשר לשים תמונות שלכם עם הבגדים בכדי לא לאפשר לייצר תמונות Deepfake. המודל בעיקרו מבוסס על שילוב של סטייבל דיפיוזן + קונטרולנט ועוד כמה תוספות.

למודל ב Huggingface לחצו כאן
לדף הפרויקט לחצו כאן
לידיעה המקורית לחצו כאן

6. חברת Deepgram השיקה מודל טקסט לדיבור חדש שנוצר במיוחד למוקדי שירות.

חברת Deepgram השיקה את Aura, מודל טקסט-לדיבור (TTS) חדש וחזק שנועד לצ'טבוטים מבוססי בינה מלאכותית קוליים ושיחתיים בזמן אמת. המודל מיועד בעיקר לתחום שירות הלקוחות, שמהווה כ-2% מהמשרות בארה"ב. עם זמן תגובה של כ-150 מילישניות, Aura פורצת דרך ופותחת דלת למאות שימושים חדשים.

הבינה המלאכותית נמצאת כעת בנקודת פריצה ייחודית שבה:

הקול יהפוך לממשק העיקרי למודלים של שפה גדולה.
זמן התגובה המופחת מאפשר אינטראקציה חלקה וטבעית בזמן אמת.

לידיעה המקורית לחצו כאן
לקישור נוסף לחצו כאן

7. הסטארטאפ RunwayML משיק שני מאפיינים חדשים ומכוון גבוה עם תפיסה חדשה – מודל עולם כללי.

הסטארט-אפ המוכר ליצירת ווידאו משיק שני פי'צרים חדשים במחולל הווידאו שלו. המאפיין הראשון הוא "Text-to-Speech", שמאפשר לשלב קולות סינתטיים בעורך הווידאו של החברה. Runway מציעה מגוון קולות לבחירה עם גווני קוד שונים כגון איש צעיר, בוגר, נקבה, זכר וכדומה. מאפיין זה זמין בכל גרסאות התשלום בפלטפורמה. מאפיין נוסף הוא פונקציית פרופורציית התמונה - Ratio, המאפשרת המרה של וידאו שנוצר לפורמטים שונים, כגון 1:1 או 16:9, בלחיצת כפתור אחת.

בנוסף, Runway הכריזה על יוזמת מחקר חדשה בשם פיתוח "מודלי דגמי עולם או עולם כללי" - דגמי עולם מיועדים לקדם את התפתחות ה GenAi באמצעות שילוב מודלים שיכולים להבין ולדמות את העולם הוויזואלי. דגמי עולם יידמו באמצעות בינה מלאכותית את העולם האמיתי כדי לדמות אירועים עתידיים באותה סביבה. מטרה של דגמי העולם הכללי היא למפות ולדמות מצבים ואינטראקציות בעולם האמיתי באמצעות בינה מלאכותית בסביבה וירטואלית. דוגמה לדגם כזה היא GAIA-1 של Wayve, שפותח מנתונים ויזואליים וטקסטואליים לשליטה ברכבים אוטונומיים. אך, זהו תרחיש מוגבל ו Runway בוחנים הסתכלות הרבה יותר רחבה.

לידיעה המקורית לחצו כאן
לסרטון הסבר על המחקר לחצו כאן

8. מיקרוסופט הכריזה השבוע על שיתוף פעולה ושילוב CoPilot עם הסטאטאפ ליצירת מוזיקה Suno!

מיקרוסופט הכריזה על תוסף חדש לבוט השיחה המתקדם שלה,Copilot המאפשר ליצור שירים באמצעות AI בשיתוף עם הסטארט-אפ מקיימברידג ,Suno שמציע כלי להלחנת שירים מקוריים על בסיס מילים בשילוב הנחיה טקסטואלית.

משתמשי Copilot יכולים להתחבר לחשבונותיהם, להפעיל את התוסף של Suno ולהקליד בקשה טקסטואלית פשוטה לשיר שהם רוצים ובאמצעות הצ'ט תקבלו חזרה שיר מקורי, בדרך כלל באורך דקה או שתיים, כולל תמליל של המילים. בניגוד לאתר של Suno שמייצר שני שירים לכל בקשה, התוסף של Suno ב-Copilot מייצר שיר אחד לכל בקשה.

לידיעה המקורית לחצו כאן

9. חוקרים מאוניברסיטת קליפורניה, ברקלי, מציגים מערכת בקרה גמישה לרובוטים הומנואידיים.

חוקרים באוניברסיטת קליפורניה, ברקלי, פיתחו מערכת בקרה גמישה לרובוטים הומנואידיים כדי לנווט במגוון שטחים ומכשולים. המערכת פותחה על בסיס המתודולוגיה של למידה עמוקה הדומה למודלי השפה הגדולים בהסתמך על העיקרון של למידה מתוך תצפיות קודמות מה שמסייע בחיזוי מצבים ופעולות עתידיות.

המערכת הוכשרה במלואה בסימולציה, אך היא מראה ביצועים אמינים בסביבות העולם האמיתי, כאשר הסיטואציות אינן צפויות. ה-AI מנתח את האינטראקציות הקודמות שלו ומשכלל את התנהגותו לטיפול יעיל בתרחישים חדשים שלא נתקל בהם במהלך האימון.

רובוטים הומנואידיים, שתוכננו בדמותנו, נושאים את ההבטחה להפוך לעוזרים משמעותיים המסוגלים לנווט בעולם ולסייע במשימות פיזיות וקוגניטיביות. עם זאת, יצירת רובוטים הומנואידיים גמישים מציבה אתגרים רבים, ביניהם פיתוח מערכות בקרה ושליטה גמישות, בניגוד למערכות הבקרה של רובוטים במפעלים בהן סט ההנחיות נוקשה מיוחד.

לידיעה המקורית לחצו כאן

10. לקראת עידן חדש: OpenAI חושפת מסגרת עובדה ומתודולוגיה חדשה לניהול סיכונים ב-AI.

ההכרזה של החברה מגיעה בתקופה רועשת במיוחד שנתקלה לאחרונה בביקורת על הטיפול בפיטורין וההחזרה של המנכ"ל שלה, סם אלטמן. המחלוקת העלתה שאלות לגבי הניהול והאחריות של המעבדה, במיוחד בהתחשב בכך שהיא מפתחת חלק ממערכות ה-AI המתקדמות והמשפיעות בעולם.

לפי הפוסט בבלוג של OpenAI, מסגרת העבודה החדשה היא ניסיון להתמודד לפחות עם חלק מהדאגות שמלוות את התפתחות מודלי הבינה המלאכותית ולהציג את המחויבות של מעבדת הפיתוח של החברה לפעילות אחראית ואתית. המסגרת מתארת איך OpenAI תעקוב, תעריך, תנבא ותגן נגד סיכונים פוטנציאליים הנובעים ממודלי בינה מלאכותית חזקים במיוחד כמו אלה שיכולים לשמש להתקפות סייבר, הפעלת שכנוע המוני, או נשק אוטונומי.

אחד הרכיבים המרכזיים של המסגרת הוא שימוש ב"כרטיסי ציון" למודלי ה-AI, המודדים ועוקבים אחר מדדים שונים של הנזק הפוטנציאלי של המודל. אותם כרטיסי ציוד יעודכנו באופן קבוע ויפעילו בדיקות והתערבות כאשר מגיעים לרמות סיכון מסוימות. המסגרת אינה מסמך סטטי, אלא מערך בקרה דינמי ומתפתח, לפי OpenAI המתודולוגיה החדשה תמשיך להשתפר ולהתעדכן בהתבסס על נתונים חדשים, משוב ומחקר, ותשתף את ממצאיה והמתודולוגיות עם קהילת ה-AI הרחבה.

לידיעה המקורית לחצו כאן

השבוע שהיה בבינה המלאכותית היוצרת - 21/12/23

מאמרים קשורים

נושאים מרכזיים