LOADING STUFF...
K a m e d i a

Loading Website

post01

השבוע שהיה בבינה המלאכותית היוצרת 35 - 16/05/2024


השבוע התמקדנו בהכרזה של OpenAI שכבשה את הרשת – חדה, קצרה ומדוייקת. לצד 9 ההכרזות המשמעותיות מכנס המפתחים של גוגל שהיהעמוס בהכרזות GenAI אבל מאד מפוזר - נראה שגם הפעם OpenAI גנבה את ההצגה.

1. חברת OpenAI מציגה מולטימודל חדש ועוצמתי בשם OpenAI-4-Omni.


למרות שהסיכום של השבוע מוקדש להכרזות של גוגל, נתחיל דווקא בהכרזה של OpenAI  שהייתה צנועה אבל ממוקדת ולחלוטין גנבה את ההצגה מכל ההכרזות של גוגל שיופיעו בהמשך העדכון השבוע.

הכותרת כמובן, היא ההכרזה של OpenAI על המודל החדש GPT-4o המשלב עיבוד טקסט, תמונה וקול במודל אחד. המודל החדש, שמכונה "omni", מפגין ביצועים יעילים ומתקדמים יותר מקודמיו. עם שיפורים משמעותיים בעיבוד קול, ומענה לקלט קולי תוך 232 מילישניות בממוצע, בדומה לזמן התגובה האנושי בשיחה. המודל מסוגל להבחין בין נשימות רגועות ומתרגשות, להביע רגשות שונים בקול סינתטי, ואפילו לשנות את קולו לצליל רובוטי או לשיר לפי בקשה.

המודל תואם לביצועים של GPT-4 Turbo באנגלית, ומשיג ביצועים טובים יותר בשפות שאינן אנגלית. המודל מנתח וידאו או גרפיקה בזמן אמת, מזהה ומתאר רגשות על בסיס הבעות פנים ומגיב בהתאם.

יעילות ועלויות

המודל GPT-4o פי שניים יותר מהיר וזול ב-50% מ GPT-4 Turbo , אבל החלק המעניין יותר הוא שהוא יהיה זמין בתקופה הקרובה ללא עלות דרך ChatGPT גם למשתמשים שלא משלמים על מנוי ה Pro/

ביצועים

המודל החדש GPT-4o מפגין ביצועים טובים ב 60 נקודות אל מול המודל הנוכחי GPT-T Turbo במבחני טקסט, והסקת מסקנות במבחנים של האתר LMSys Arena, הוא מגיע לאותם ביצועים כמו המודל הקודם בפיתוח קוד  אך מציב סטנדרטים חדשים בהבנה רב-לשונית, קולית וויזואלית.

אפליקציית שולחן עבודה חדשה

חברת OpenAI הציגה גם אפליקציה חדשה ל-ChatGPT למערכת ההפעלה Windows וגרסת IOS שתגיע ממשק בקרוב. האפליקציה מאפשרת גישה מהירה ל-ChatGPT באמצעות קיצורי מקלדת, ושיחות על צילומי המסך של במחשב בכדי להבין את קונטקסט העבודה של המפתח בצורה טובה יותר.

עברית משודרגת

לאחר עבודה עם המודל בימים האחרונים, ניתן להבין בקפיצת מדרגה משמעותית ביכולות השפה של המודל, וכחלק משדרוג זה ההבנה והכתיבה של המודל בעברית עברו שדרוג משמעותי ביותר.

Image

קישור להכרזה - לחצו כאן


2. הכרזת הדגל בכנס המפתחים של גוגל - פרויקט אסטרה - מולטימודל שרואה שומע ומסייע.

בתזמון מושלם לאחר ההכרזה אתמול של OpenAI (ותחליטו אתם מי היה שם קודם) הכריזה גוגל על Project Astra – מודל / סוכן AI אוניברסלי מולטימודלי שיושב כעוזר, רואה ומבין את הדינמיקה של העולם ומגיב בזמן אמת כדי לעזור במשימות שגרתיות ושאלות.

הפרויקט Astra מבוסס על ההתפתחות של Gemini Pro 1.5 ומודלים נוספים שמאפשרים למשתמש לתקשר עם המודל תוך שיתוף הדינמיקה המורכבת של הסביבה בעולם האמיתי. הסוכן / מודל מבין את מה שהוא רואה ושומע ומגיב עם תשובות מדויקות בזמן אמת. לפי דמיס חסאביס, מנכ"ל Google Deepmind, הסוכן צריך להבין ולהגיב לעולם הדינמי כמו בני אדם, להיות פרואקטיבי, ניתן להכשרה ואישי.

בווידאו הדגמה שהוצג בכנס, הסוכן Astra זיהה אובייקטים, תיאר את רכיביהם הספציפיים, הבין קוד מתוך תמונה, הציע שיפורים לארכיטקטורה טכנולוגית והציג תוצאות  והסברים בזמן אמת על סביבת המשתמש באמצעות זוג משקפיים.

כרגע, Astra נמצא בשלב מוקדם של פיתוח והוא צפוי לפגות את העולם כחלק מאפליקציית Gemini בהמשך השנה.

Image

לידיעה המקורית לחצו כאן

3. עדכון למודל הדגל של גוגל 1.5 Gemini וגרסת Flash.

עוד הוכרז בכנס המפתחים של גוגל על מודל חדש בשם Gemini 1.5 Flash מולטימודלי קטן ומהיר עם חלון הקשר של מיליון טוקנים שזמין בגרסת ניסיון ציבורית דרך ה Gemini API וב ,Google AI Studio בנוסף מודל Gemini 1.5 Pro שהושק בפברואר מקבל הרחבה לחלון הקשר של שני מיליון טוקנים.

גרסת ה Flash מיועד למשימות מהירות עם חשיבות לזמן תגובה נמוך בעוד ש-Pro מתאים למשימות מורכבות יותר. למפתחים יש כעת מבחר רחב של מודלי AI לבחור מהם בהתאם לצרכים השונים של האפליקציות שהם מפתחים.

Image


4. גוגל מציגה את Gemma 2 מודל קוד פתוח עם 27 מיליארד פרמטרים.

מודל נוסף שגוגל חשפה אתמול הוא הגרסה העדכנית ל Gemma שהושק בפברואר האחרון עם שני מודלים בקוד פתוח הכוללים 2 מיליארד ו-7 מיליארד פרמטרים. הגרסה העדכנית Gemma 2 הוא מודל גדול אך קל משקל עם 27 מיליארד פרמטרים שיגיע ביוני.

המודל החדש מציג ביצועים טובים יותר ממודלים כפולים בגודלם. סדרת Gemma מיועדת למפתחים שרוצים לשלב AI באפליקציות ובמכשירים שלהם מבלי לצרוך זיכרון או כוח עיבוד רבים, ולכן היא מתאימה לשימוש במכשירים עם משאבים מוגבלים כמו סמארטפונים, מכשירי IoT ומחשבים אישיים.

Gemma 2 עם 27 מיליארד פרמטרים מציעה תוצאות מדויקות יותר וביצועים טובים יותר תוך התמודדות עם משימות מורכבות יותר מקודמיו. המודל מתוכנן לפעול על TPUv5e, השבב החדש של גוגל, מה שמאפשר חיסכון במשאבים והפחתת זמני השהייה.

Image


לידיעה המקורית לחצו כאן

5. גוגל ממשיכה בפריסה של החיפוש מבוסס GenAI שלה.

אחד האתגרים הגדולים של גוגל הוא כיצד לשלב במנגנון החיפוש שלה את  הבינה המלאכותית מבלי לכרות את ענף הקידום / פרסום עליו היא יושבת. מצד שני התחרות הגוברת מצד ChatGPT וPerplexity מחייב אותה לפעול. בכנס החברה המשיקה את תצוגת ה AI במנוע החיפוש בשלב ראשון למשתמשים בארה"ב כשהצפי הוא להרחיב את השירות למעל מיליארד משתמשים נוספים עד סוף השנה.

ליז ריד, ראש תחום החיפוש בגוגל, הסבירה שהמוצר החדש נוסה במסגרת "Search Generative Experience" מאז שנה שעברה, והמשוב של מיליוני המשתמשים מאד חיובי. התכונה מספקת תובנות משולבות עם תוצאות

מנגנון החיפוש באמצעות בינה מלאכותית יוצרת – SGE מציג מידע ממקורות שנבדקו על ידי גוגל ועל בסיס הביקורים והדירוגים של המשתמשים השונים. מנגנון החיפוש משתמשת במודל Gemini שהותאם לחיפוש, אשר משלב מידע בזמן אמת, לצד הדירוגים של גוגל ותכונות מולטימודליות לניתוח טקסט, וידאו, תמונה וקול.

Image


6. גוגל מציגה את הגרסה השלישית למודל יצירת התמונות שלה Imagen 3.

מודל יצירת התמונות של גוגל Imagen  שודרג לגרסתו השלישית. המודל האיכותי ביותר להמרת טקסט לתמונה, זמין כעת למשתמשי פיילוט. המודל החדש מציע רמת פירוט מדהימה, הבנה טובה יותר של שפה טבעית ויכולות טובות יותר להמרת טקסט לתמונה. ניתן להשתמש ב  Imagen 3 ב ImageFX אך יש להירשם לרשימת המתנה.

המודל מציג תמונות פוטוריאליסטיות עם פירוט רב ומעט מאוד עיוותים. הוא מבין פקודות (ההנחיות) בצורה טבעית, זוכר לשלב פרטים קטנים בהוראות ארוכות ומציע יכולות המרה טקסט טובות יותר מאי פעם. ההכרזה על Imagen 3 מגיעה שישה חודשים לאחר השקת Imagen 2 ב-Vertex AI.

Image

לידיעה המקורית לחצו כאן

7. המתחרה של Sora הגיע – מודל יצירת הוידאו של גוגל Veo.

מודל וידאו חדש נחפש בכנס המפתחים, לדבי גוגל Veo מתחרה ישירות ב Sora של OpenAI כשהוא מסוגל ליצור קליפים באיכות של 1080 פיקסל למשך יותר מ 60 שניות וידאו. המודל מסוגל להפיק וידאו מריאליזם פוטוראליסטי ועד אנימציה סוריאליסטית. גוגל פרסמה סרטון בו הם שיתפו פעולה עם דונלד גלובר, יוצר הסדרה "אטלנטה", כדי לבחון את היכולות החדשות של המודל.

מודל הוידאו החדש משתמש בטכנולוגיות מתקדמות כדי להימנע מתקלות ותופעות לוואי שנראות לעיתים קרובות במודלי וידאו אחרים. המודל תומך ביצירת וידאו מטקסט, מווידאו או מתמונה, ומספק שליטה יצירתית חסרת תקדים לדברי המפתחים בגוגל. כל הסרטונים שנוצרים עם Veo כוללים סימן מים שמבטיח שניתן יהיה לזהות אותם כתוכן שנוצר על ידי בינה מלאכותית. למרות ש-Veo אינו זמין לציבור הרחב כרגע, Google מציעה אותו בתצוגה מקדימה ליוצרים נבחרים, כמו כן אנו צפויים לפגוש את היכולות של המודל בעתיד הקרוב במוצרים כמו YouTube ועוד.

Image

לידיעה המקורית לחצו כאן

8. Genkit - דרך מהירה לשלב AI באפליקציות.

מסגרת פיתוח חדשה בשם Firebase Genkit אשר מיועדת לבניית אפליקציות מבוססות AI זמינה כעת בגרסת בטא, מסגרת פיתוח זו מאפשרת למפתחים לשלב יכולות GenAI באפליקציות. Genkit תומכת במגוון רחב של מקורות נתונים, מודלים, שירותי ענן ועוד, ומשתמשת בסגנון קוד שמפתחים כבר רגילים אליו.

המערכת תומכת בפרויקטים בקוד פתוח כמו מסדי נתונים וקטוריים, מודלים גדולים לשפה ועוד. המפתחים יכולים לבדוק את הפיתוח מקצה לקצה ולפרוס את הפתרון ל Firebase או ל.Google Cloud  המערכת כוללת גם תמיכה במודלים שלגוגל  Gemini ו Gemma, מה שמאפשר גמישות וניהול קל של תוספים. כמו כן סביבת הפיתוח מציעה פשטות ואינטואיטיביות למפתחים, עם עקומת למידה נמוכה. היא מאפשרת יצירת תכנים, סיכום טקסטים, תרגום שפות והפקת נתונים ממקורות מרובים.


9. אבני החן של הבינה המלאכותית – גוגל מציגה את Gems עוזרי AI בהתאמה אישית.

יכולת חדשה נוספת שנחשפה בכנס של גוגל היא "אבני חן" או "Gems"  - יכולת חדשה של של Gemini אשר מאפשרת למשתמשים להתאים אישית את הצ'ט בוט שלהם עם אישיויות ויכולות ייחודיות.

היכולת החדשה "Gems" מאפשרת למשתמשים להגדיר את הצ'ט בוט כך שיעזור במשימות מסוימות וישמור על תכונות ספציפיות, בדומה ל Character AI שמאפשר לשוחח עם גרסאות וירטואליות של דמויות מפורסמות או אפילו פסיכיאטר מזויף.

גוגל מסבירה שניתן להפוך את Gemini לשותף ריצה, טבח, שותף לפיתוח, או כל נושא אחר שתדמיינו. תהליך יצירת ה-gem כולל הגדרת ההוראות והתגובות הרצויות. למישהוא מצלצל מוכר – כלומר GPT’s.

Image


10. מודל קטן ועוצמתי להפעלת הדור החדש של מכשירי ה Pixel של גוגל.

התחרות למזעור מודלי ה GenAI נמשך כל הזמן, כחלק מהתחרות מול סמסונג גוגל מציגים את Gemini Nano מודל AI יעיל וקטן במיוחד שפותח עבור סמארטפונים. המודל הקטן מאפשר לבצע משימות בינה מלאכותית ללא צורך בחיבור לרשת. אחת התכונות הבולטות היא "Summarize in Recorder" שמאפשרת לסכם הקלטות שיחות, ראיונות והרצאות לכדי נקודות עיקריות, וכל זאת ללא צורך בחיבור לאינטרנט.

המודל Gemini Nano מאפשר גם כתיבה של הודעות בסגנונות שונים וזאת לצד יכולת לראות את המסך שלכם בנייד ולספק לכם עצות על בסיס מב שהוא רואה. וכל זאת כמור ללא חיבור לרשת. יתרון נוסף של Gemini Nano  היא יכולות המולטי-מודליות שלו אשר מאפשרות למכשיר להבין מידע כמו תמונות, קולות ושפה מדוברת, ולספק תיאורים מפורטים של תמונות או לזהות פעילות כספית חשודה בזמן אמת. המודל החדש זמין ב- Pixel 8 Pro סדרת הסמרטפונים החדשה של גוגל.

Image

לידיעה המקורית לחצו כאן

שיתוף :