השבוע שהיה בבינה המלאכותית היוצרת

1. גוגל משלבת את מודל ה GenAI שלה בכלי המפות והניווט שלה.

גוגל השיקה שירות חדש מבוסס בינה מלאכותית יוצרת במטרה לעזור למשתמשים לקבל הצעות למקומות חדשים באפליקציית המפות, ללא קשר לכמה הדרישות ספציפיות, נישתיות או כלליות. המשתמשים צריכים להגדיר מה הם מחפשים, ומודל הבינה המלאכותית שלהם ינתח את המידע בעזרת גוגל מפות הכולל יותר מ-250 מיליון מקומות ותובנות מקהילת התורמים הכוללת יותר מ 300 מיליון אנשים.

מדובר בגרסת בטא (ניסיונית) שמתחילה בארה"ב ונגישה בשלב זה למשתמשים נבחרים אשר התובנות והמשוב שלהם יעזרו לגוגל ללמוד ולעצב את המודל כך שבסופו של דבר הוא יוכל להיות זמין לכולם. לדברי החברה: "נניח שאתם עכשיו בביקור בסן פרנסיסקו ורוצים לתכנן כמה שעות של בילוי בו תחפשו פריטי וינטג' מגניבים, פשוט תשאלו את ה-AI בגוגל מפות מה אתם מחפשים ורוצים לעשות. מודל ה-AI של גוגל ינתח את המידע הקיים על העסקים והמקומות הקרובים אליכם ויספק לכם הצעות שונות לחנויות בגדים, תקליטים או שווקים".

לידיעה המקורית לחצו כאן

2. הסטארטאפ Hugging Face מציג עוזרים אישיים, גרסה מורחבת ל GPT’s של OpenAI.

הסטארטאפ Hugging Face מציג יכולות חדשות ליצירה של עוזרים אישיים מבוססי צ'אט. הכלי החדש מאפשר למשתמשים ליצור צ'אטבוטים אישיים בשני שלבים קצרים. העוזרים האישיים אשר מזכירים את ה-GPTs של OpenAI מאפשרים הגדרה של שמו של העוזר, אווטר שלו ותיאור המודל והיכולות שלו. בניגוד ל OpenAI במקרה זה ניתן לעשות שימוש במספר מודלים כמו Llama2 או Mixtral. באמצעות הגדרת הנחיות ספציפיות ניתן למשתמש לשלוט בהתנהגות הצ'אטבוט, עם מגוון אופציות להתחלת השיחה.

היתרונות העיקריים של העוזרים ב Hugging Face על פני GPTs כוללים את האפשרות לבחור מתוך מגוון מודלים פתוחים, שיתוף ציבורי ללא צורך במנוי ועוד. הכלי החדש עדיין בגרסת בטא וישנם תחומים שדורשים שיפור כדי להתמודד עם GPTs של OpenAI, כמו הוספת RAG ואפשרות חיפוש באינטרנט - תכונות אשר נמצאות בתוכנית הפיתוח.

לידיעה המקורית לחצו כאן

3. שופיפיי משיקים כלי חדש שיסייע למוכרים בפלטפורמה לשפר וליצירת תמונות למוצרים שלהם.

חבילת הכלים של Shopify Magic שהושקה באפריל שנה שעברה ומבוססת על בינה מלאכותית יוצרת, מתרחבת כעת עם עורך מדיה חדש המספק עיבוד תמונה ג'נרטיבי לפלטפורמה וחיפוש שיחתי המופעל על ידי AI. סוחרים יכולים כעת להשתמש בעורך התמונות לשינוי רקעים ללא ניסיון בפוטושופ, כדי להתאימו לכל נושא שהם חושבים עליו. העורך של Shopify יכול גם להציע רקעים וסגנונות התואמים לתמונות המוצרים הקיימות בספריית הסוחר.

גלן קואטס, מנהל בכיר ב-Shopify, מסביר כי רבים מהמוכרים בפלטפורמה אינם זוכים לגישה לאולפנים גדולים או לצלמים מקצועיים, אך עדיין נדרשים להציג את מוצריהם באור הטוב ביותר. הכלי החדש מספק פתרון ללא עלות נוספת. כלים נוספים שהוסיפה Shopify כוללים תיאורי מוצרים אוטומטיים, אינטגרציה של צ'אטבוט ותגובות מוצעות לשיחות בין סוחרים לקונים.

התכונה החדשה של חיפוש אינה מבוססת על חיפושים בוליאניים או התאמת מילות מפתח, אלא מאפשרת חיפוש שיחתי וסמנטי המבין את הכוונה מאחורי הבקשה ומחזיר תוצאות רלוונטיות יותר.

קואטס מציין כי Shopify פיתחה את חבילת הכלים שלה בשילוב של דגמי בינה מלאכותית, עם שימוש במודלים כמו GPT ו-Llama 2.

לידיעה המקורית לחצו כאן

4. פריצת דרך - מאסק הודיע כי שבב של ניוראלינק הותקן לראשונה במוחו של בן אדם.

מאסק הודיע השבוע כי שבב המוח של ניוראלינק הותקן לראשונה בבן אדם, השתלת השבב התאפשרה לאחר שבמאי העניק ה-FDA לחברה אישור לקיים ניסויים בבני אדם, ובספטמבר החברה החלה בגיוס מועמדים. בניסוי המדובר רובוט השתיל את השבב במוח של בן אדם, המטרה הראשונית היא לאפשר לאנשים לשלוט בסמן או במקלדת באמצעות המחשבה בלבד. עוד חשף מאסק כי המטופל הראשון קיבל את השתל של ניוראלינק ושמצבו טוב והוא מתאושש, התוצאות הראשונות מצביעות על עלייה מבטיחה בפעילות הנויירונים, כך לדבריו של מאסק.

לדבריו, המוצר יאפשר "שליטה בטלפון או במחשב, ובאמצעותם כמעט בכל מכשיר, רק על ידי מחשבות". עוד הוסיף:"דמיינו שסטיבן הוקינג היה יכול לתקשר במהירות גבוהה יותר מקצרנית או מנהל מכירות פומביות. זו המטרה".

5. עתיד ה AI במובייל – גוגל משיקה מודל יצירת תמונות שרץ ישירות מהמכשיר הנייד.

הפוטנציאל העצום של הבינה המלאכותית נמצא בשילוב הטכנולוגיה החכמה ישירות במכשירים הניידים, זו גם תיהיה קפיצת הפרודיוקטיביות הגדולה ביותר. עוזר אישי חכם ישירות מתוך הטלפון הנייד.

גוגל משיקה השבוע מודל חדש בשם MobileDiffusion אשר מאפשר יצירת תמונות מטקסט ישירות בטלפון החכם, המודל החדש מסוגל להפיק תמונות איכותיות בפחות משנייה. בעזרת דגם קטן יחסית בגודל של 520 מיליון פרמטרים שרץ ישירות על המכשיר, MobileDiffusion מסייע ביצירת התמונות ללא צורך במשאבים גדולים וזאת בניגוד למודלים מקבילים כגון Stable Diffusion ו-SDXL. הדגם מסוגל לייצר תמונות ברזולוציה של 512X512 פיקסלים על גבי טלפונים עם מערכת הפעלה של אנדרואיד ואייפון.

הפלט מתעדכן בזמן אמת עם ההקלדה, כפי שמדגים סרטון הדגמה של גוגל. MobileDiffusion מורכב משלושה רכיבים עיקריים: מקודד טקסט, רשת דיפוזיה ומפענח תמונות, מבוססת בארכיטקטורת UViT אשר דורשת כמות משאבים קטנה יותר.

לידיעה המקורית לחצו כאן

6. אחד ממודלי הקוד הפתוח החזקים ביותר שיש כיום דלף השבוע לרשת.

בימים האחרונים חוותה הקהילה הגדלה של הבינה המלאכותית היוצרת טלטלה, אפילו בסטנדרטים של הקצב המסחרר בו התעשייה הזו מתפתחת. סדרת האירועים החלה כאשר ב-28 לינואר משתמש בשם "Miqu Dev" פרסם ב-HuggingFace קבצים שהרכיבו מודל שפה גדול פתוח חדש בשם "miqu-1-70b".

בפרסום צויין שפורמט ההנחיות של המודל שפורסם זהה לזה של Mistral, סטאטאפ הבינה המלאכותית הפריזאי שעומד מאחורי המודל הפתוח Mixtral 8x7b שנחשב למודל הקוד הפתוח המוביל כיום.

ההשערות היו ש"Miqu" היא גרסה של Mistral שדלפה באופן חשאי זאת עד שארתור מנש, מנכ"ל ומייסד שותף של Mistral, הבהיר ב-X כי מדובר בדליפה של דגם ישן שהועבר ללקוחות מוקדמים לצורכי בדיקות באופן גלוי.

הסימנים מעידים שבקרוב יגיע לשוק מודל בקוד פתוח שמתקרבת ליכולות של GPT-4, המודל הכי חזק שקיים כיום. שחרור של מודל ברמה זו, שיהיה בחינם לשימוש, עלול להפעיל לחץ רב על OpenAI, במיוחד כאשר יותר מפתחים וחברות מחפשים פתרונות פתוחים או שילוב של מודלים פתוחים וסגורים להפעלת האפליקציות שלהם.

לידיעה המקורית לחצו כאן

7. חברת האווטרים הבריטית Synthesia משיקה כלי אימון ליצירת סרטונים סינתטיים ממקורות טקסט בתוך דקות.

חברת הסטארט אפ הבריטית Synthesia, המאפשרת לחברות ליצור סרטוני AI מקצועיים, הכריזה על השקת עוזר הווידאו AI שלה - כלי שיכול להמיר מקורות מבוססי טקסט לסרטונים סינתטיים מלאים בתוך דקות. הכלי החדש, הזמין החל מהיום ללקוחות המשלמים, מבוסס על מאפיינים קיימים של Synthesia ויכול לעבוד עם כל מסמך או קישור אינטרנטי, מה שמקל על צוותים עסקיים ליצור סרטונים לשימוש פנימי וחיצוני.

Synthesia, שהוקמה ב-2017 על ידי צוות של חוקרי AI ויזמים מ-UCL, סטנפורד, TUM וקיימברידג', הציעה פלטפורמה שמאפשרת למשתמשים ליצור קולות AI מותאמים אישית ואוואטרים ריאליסטיים מבוססי AI ולהשתמש בהם ליצירת סרטונים באיכות סטודיו. עם העוזר החדש, Synthesia מבטלת את כל השלבים הללו. המשתמש צריך רק לספק את מקור החומר ולבחור תבנית עם אלמנטים כמו מטרת הסרטון, מספר הסצנות, שפה וטון הדובר.

על פי סולאי, מנהל המוצר שהוביל את פיתוח העוזר ב-Synthesia, העוזר משתמש ב-AI לאיחוד חומר המקור עם מטרות המשתמש ומאפיינים נוספים. דגמים שפה גדולים לוקחים את הקלטים האלו ויוצרים גם תסריט וגם תצורות סצנה רלוונטיות מהתבנית שנבחרה. המטרה היא לשפר את חווית ההעברה של תוכן באמצעות וידאו, מתוך הכרה בכך שאנשים זוכרים 95% מהמסר כאשר הם מקבלים אותו בווידאו.

לידיעה המקורית לחצו כאן

8. התשובה של ה New York Times לאתגר הבינה המלאכותית!

בניו יורק טיימס יתחילו בבניית צוות לחקירת השימוש בבינה מלאכותית יוצרת בחדר החדשות שלה. זאך סוארד, שנקלט לאחרונה בעיתון כראש יוזמות AI פרסם בThreads כי הצוות יתמקד ביצירת פרוטוטיפים של שימושים בבינה מלאכותית יוצרת וטכניקות למידת מכונה אחרות לסיוע בדיווח ובאופן הצגת העיתון לקוראים.

בפוסט של סוארד נאמר כי בטיימס מתכננים להעסיק מהנדס למידת מכונה, מהנדס תוכנה, מעצב וכמה עורכים להשלמת יוזמת המבוססות על AI בחדר החדשות. הצוות, בהנהגת המנהל ליוזמות AI יכלול גם חברים עם מגוון כישורים בהנדסה, מחקר ועיצוב, ויפעל כצוות "סקאנקוורקס" בתוך חדר החדשות. הם ישתפו פעולה עם צוותים אחרים בחדשות, מוצר וטכנולוגיה כדי להעביר את הרעיונות הטובים ביותר מהפרוטוטיפ לייצור.

לאחר מינויו של סוארד, הטיימס פרסמה מכתב בו נאמר כי למרות התרגשותה להביא כלים של AI לחברה, היא נחושה באמונה כי "העיתונות של טיימס תמיד תדווח, תכתב ותערך על ידי העיתונאים המומחים שלנו".

לידיעה המקורית לחצו כאן

9. הכירו את "נשר" - מודל שפה חדש שמציג מתודולוגיה חדשה לתוצאות מרשימות בעלות נמוכה.

קהילה בינלאומית של מפתחי AI אשר עובדים ב Foundation Linux יצרה דגם רב-לשוני קטן אך חזק, מפגין ביצועים מרשימים ביחס לומדלים פתוחים פופולריים כמו-Mistral ו-Meta.

Eagle 7B הוא דגם שפה גדול שהוכשר על 1 טריליון טוקנים ביותר מ-100 שפות. מה שהופך אותו לייחודי הוא שימושו בארכיטקטורה החדשה RWKV (Receptance Weighted Key Value), שלפי מחברי המאמר שלו "משלבת את האימון המקבילי היעיל של הטרנספורמרים עם ההסקה היעילה של RNNs" (רשתות נוירונים חוזרות).

המשמעות היא שהוא יכול להתמודד עם מערכות טרנספורמר אך החישוב זול יותר ולכן זהו מודל יעיל בעלות מאד נמוכה. היכולות של המודל נובעות מהגרסה האחרונה של הארכיטקטורה הייחודית שלו, RWKV-v5, שתוכננה להשתמש בפחות משאבים בעת הרצה ואימון בהשוואה למערכות מבוססות טרנספורמרים. RWKV-v5 פועלת בצורה לינארית, בעוד שטרנספורמרים מסורתיים פועלים בצורה ריבועית. הצוות שמאחוריו טוען כי הגישה הלינארית מבצעת בדיוק כמו מערכות הטרנספורמרים, תוך הפחתת דרישות החישוב עד פי 100.

המודל RWKV-v5 לוקח את הטוב ביותר מהטרנספורמרים ומרשתות הנוירונים החוזרות כדי לספק רמת ביצועים איתנה עם יכולת הסקה ואימון מהירים יותר. הארכיטקטורה גם משוחררת ממנגנון תשומת הלב, כלומר היא אינה מסתמכת על מנגנון תשומת הלב המורכב ממודלי הטרנספורמרים המסורתיים, מה שמשפר את היעילות והמהירות של המודל.

למודל לחצו כאן
לבלוג לחצו כאן
לקישור לדמו ב Hugging face לחצו כאן

10. גוגל מעלים הילוך בתחרות מול OpenAI ומשלבים אפשרות ליצירת תמונות ישירות מתוך הצ'ט Bard.

Google Bard השיקו כלי יצירת תמונות חדש המופעל על ידי דגם הטקסט-לתמונה של גוגל- , Imagen 2 בעדכון שמביא גם את דגם השפה הגדול Gemini Pro ל-Bard ברחבי העולם ביותר מ-40 שפות. Gemini Pro, שהושק באנגלית בדצמבר האחרון, מחדד את יכולותיו של Bard מבחינת הבנה, הגיון, סיכום וקידוד. Imagen 2, מאפשר למשתמשים ליצור תמונות פוטוריאליסטיות מפקוד טקסטואלי, עם אמצעי בטיחות כמו סימני מים של SynthID להבחנה בין תמונות שנוצרו על ידי AI לבין יצירות אנושיות.

משתמשים יכולים לתאר תמונה ל-Bard באנגלית והוא יייצר תוצאות פוטוריאליסטיות מותאמות אישית. Imagen 2 מבין פקודות פשוטות ומורכבות כאחד. מפתחי Google Cloud יכולים כעת לנצל את Imagen 2 ליישומים עסקיים דרך Vertex AI - אינטגרציה זו מאפשרת לעסקים ליצור קטלוגים למוצרים, פרסומות ותמונות נוספות מתיאורי טקסט.

לידיעה המקורית לחצו כאן

השבוע שהיה בבינה המלאכותית היוצרת 02/02/2024

מאמרים קשורים

נושאים מרכזיים