K a m e d i a

Loading Website

בינה שבועית - השבוע שהיה בבינה המלאכותית היוצרת

מציג 321 ידיעות
שדרוג משמעותי למודל הוידאו של Luma הושקה גרסה 2 של מחולל הוידאו  Ray
שדרוג משמעותי למודל הוידאו של Luma הושקה גרסה 2 של מחולל הוידאו Ray
  16/01/2025   |     מודלי שפה

חברת Luma השיקה את Ray2, מודל הווידאו החדש שלה, עם עוצמת מחשוב הגדולה פי 10 מזו של הדור הקודם.

Ray2 משתמש בארכיטקטורה מולטימודלית ומציע תנועה טבעית, פרטים מדויקים ועקביות גבוהה בכל סצנה.

נכון לעכשיו, המודל זמין למנויים דרך פלטפורמת Dream Machine של Luma, עם כלים נוספים כמו תמונה לווידאו ועריכה. החברה מתכננת להנגיש את Ray2 גם דרך API בקרוב.

המודל החדש פותח בשיתוף פעולה עם Amazon AWS, ומהווה שדרוג משמעותי לעומת Ray 1.6.

הוא משתלב כברירת מחדל ב-Dream Machine, פלטפורמה שמציעה ממשק שיתופי ונוח ליצירת תוכן וידאו.

משתמשים יכולים להקליד הנחיות והמודל יוצר סרטונים באופן מהיר ואיכותי.

Ray2 מצטיין בתנועה טבעית, כמו יצירת סרטונים של כלבים בתנועה והוא עובר בצורה טובה את מבחן סרטון החיתוך.

השיפור הנוכחי משקף את הקפיצה המהירה בטכנולוגיה, שבה יצירת וידאו ברזולוציה גבוהה הפכה לנגישה ומתקדמת.

קישור לידיעה המקורית
שדרוג מבית BFL "אימון" תמונות על בסיס סגנון ומותג API
שדרוג מבית BFL "אימון" תמונות על בסיס סגנון ומותג API
  16/01/2025   |     מודלי שפה

חברת הסטארט-אפ הגרמנית Black Forest Labs השיקה API חדש שמאפשר לבצע "אימון" של מודל התמונה FLUX Pro לסגנונות מותג ספציפיים באמצעות חמש תמונות בלבד.

ה-Finetuning API נועד להתמודד עם מגבלות במודלי יצירת תמונות קיימים, כדי להבטיח התאמה מדויקת לסגנונות חזותיים וזהות המותג.

המערכת מאפשרת יצירת תמונות ברזולוציה של עד 4 מגה-פיקסל, תוך שילוב התכנים שסופקו על ידי המשתמשים עם גמישות המודל המקורית.

ה-API תומך בכל קו המוצרים של החברה, כולל FLUX.1 Pro ו-FLUX1.1 Pro Ultra, לצד כלים ייעודיים כמו FLUX.1 Fill למילוי תמונות ו-FLUX.1 Depth לשליטה מבנית.

ה-API מקבל פורמטים כמו JPG, PNG ו-WebP, עם תמונות בגודל עד מגה-פיקסל אחד.

משתמשים יכולים להעלות 1-20 תמונות אימון, כשהתוצאות האופטימליות מושגות עם לפחות חמש תמונות באיכות גבוהה.

המערכת מאפשרת התאמה של פרמטרי אימון כגון מצב האימון, מספר האיטרציות וקצב הלמידה. ה-API נמצא כרגע בשלב בטא ודורש מפתח API לגישה.

קישור לידיעה המקורית
מיקרוסופט מכריזה - Copilot לכולם
מיקרוסופט מכריזה - Copilot לכולם
  15/01/2025   |     מודלי שפה

גם אתם קיבלתם את ההודעה ש Copilot זמין לכם בכניסה ל Office ? אתם לא לבד.

מיקרוסופט משיקה את Copilot Chat, גרסה חינמית של עוזר ה-AI שלה, לצד מודל תמחור חדש לפי שימוש בבסוכני AI מבוססי Copilot.

מיקרוסופט מציגה גם מודל תמחור חדש לפי שימוש, בתמחור החדש תשלמו $0.01 להודעה או חבילות של 25,000 הודעות ב-$200 לחודש.

המודל תמחור החדש מיועד לעסקים קטנים שאינם רוצים לרכוש את הרישוי המוכר ב 30$ דולר למשתמש.

Copilot Chat מציע לעסקים שירות בסגנון ChatGPT, המאפשר העלאת מסמכים לביצוע משימות משרדיות, כמו סיכום מסמכי Word, ניתוח נתוני Excel ושיפור מצגות PowerPoint.

המערכת גם יוצרת תמונות לשיווק ברשתות חברתיות, באמצעות המודלים של OpenAI.

הגרסה החינמית היא הבסיסית ביותר, בעוד ש Microsoft 365 Copilot המוכר והותיק זמין בעלות של $30 למשתמש בחודש, והוא מציע שילוב מלא עם אפליקציות Office, אימיילים ונתוני חברה.

שתי הגרסאות כוללות את תכונת "סוכנים", המאפשרת יצירת עוזרים AI מותאמים אישית לגישה לנתוני החברה.

קישור לידיעה המקורית
חברת MiniMax פורצת את תקרת חלון ההקשר עם  4 מיליון טוקנים
חברת MiniMax פורצת את תקרת חלון ההקשר עם 4 מיליון טוקנים
  15/01/2025   |     מודלי שפה

את חברת הסטארטאפ הסינית MiniMax כולנו מכירים בגלל מודלי הוידאו המוכרים שלה,

עכשיו החברה משיקה משפחת מודלים חדשה לטקסט. משפחת MiniMax-01 כוללת מודלים בקוד פתוח עם יכולת לטפל בעד 4 מיליון טוקנים - חלון הקשר כפול מהמודלים המובילים כיום.

המשפחה כוללת שני מודלים: MiniMax-Text-01 לעיבוד טקסט ו-MiniMax-VL-01 לעיבוד נתונים טקסטואליים וחזותיים.

היכולת החדשה מעניקה לסוכני AI זיכרון ארוך-טווח, ומאפשרת להם לאסוף, לחבר ולאחסן מידע ממקורות שונים לשימוש עתידי.

כדי לטפל בהיקפים גדולים ביעילות, MiniMax פיתחה מנגנון בשם "Lightning Attention" שמשולב עם בלוקים מסורתיים של Transformer ביחס 7:1.

בנוסף, המודל משתמש במבנה של "סוכנים משולבים" (MoE) הכולל 32 תתי-מודלים, כל אחד עם 45.9 מיליארד פרמטרים, ובסך הכל 456 מיליארד פרמטרים.

המודלים זמינים להורדה ב-GitHub וב-Hugging Face, וניתן גם לבדוק אותם בצ'אטבוט Hailuo AI של MiniMax.

החברה, שקיבלה תמיכה מאליבאבא, מתמודדת עם תחרות מצד DeepSeek ומודלים נוספים, אך כולם נתונים להגבלות צנזורה של ממשלת סין.

קישור למידע נוסף
קישור למחקר
קישור לאתר החברה
קישור ל Git
קישור למודל ב huggingface
Kinetix משיקה טכנולוגיית AI לשליטה בתנועות בסרטוני וידאו
Kinetix משיקה טכנולוגיית AI לשליטה בתנועות בסרטוני וידאו
  15/01/2025   |     מודלי שפה

חברת Kinetix השיקה טכנולוגיית AI חדשנית לשליטה מדויקת בתנועות דמויות דיגיטליות.

המערכת משלבת בין סרטוני וידאו אמיתיים להוראות טקסט, ומאפשרת יצירת תנועות מדויקות לדמויות דיגיטליות.

לדוגמה, ניתן להעלות סרטון של ריקוד או תנועת יד, להוסיף טקסט כמו "הדמות מחייכת ומנופפת," והמערכת תיצור תנועות מדויקות בהתאם.

הטכנולוגיה תומכת במגוון רחב של תנועות, כולל מחוות פשוטות כמו ניפוף והנהון, תנועות גוף מורכבות כמו ריקוד וריצה, והבעות פנים עדינות כמו חיוך והפתעה.

ניתן גם להתאים את התנועות מבחינת קצב, עוצמה ותזמון. המערכת מתבססת על מאגר עצום של קליפים תלת-ממדיים ונתוני תנוחות גוף, ומייצרת תוצאות מפורטות וריאליסטיות.

הטכנולוגיה מאפשרת גם ליוצרים ללא ניסיון מקצועי ליצור אנימציות ברמה גבוהה בתוך דקות.

בהשוואה לשיטות המסורתיות שדורשות שבועות או חודשים, Kinetix מפשטת ומוזילה משמעותית את תהליך היצירה, מה שמספק הזדמנויות יצירתיות חסרות תקדים עבור צוותים קטנים ויוצרים עצמאיים. למידע נוסף

קישור לידיעה המקורית
קישור לאתר החברה
קישור להכרזה ב X

משימות - הפיצ
משימות - הפיצ'ר החדש שיהפוך את ChatGPT לעוזר האישי שלכם
  14/01/2025   |     מודלי שפה

אז שנה וחצי כולנו עושים שימוש ב ChatGPT לסייע לנו כמעט בכל משימה מבוססת טקסט או קול שאנו צריכים, אבל היה חסר משהו...

אז הנה הוא הגיע, OpenAI עושה צעד נוסף להפוך את ChatGPT לעוזר אישי, שלא לומר סוכן חכם מבוסס מבוסס AI עם פיצ'ר חדש בשם "Tasks".

הפיצ'ר מאפשר להגדיר תזכורות מתוזמנות לבקשות חוזרות.

הפיצ'ר זמין למנויי ChatGPT Plus, Team ו-Pro, בעוד שמשתמשים חינמיים יצטרכו להמתין לעדכון. בחברה מתכננים לאסוף משוב ממשתמשים בתשלום לפני הרחבת הגישה.

כדי להשתמש ב-"Tasks", יש לבחור באפשרות "4o with scheduled tasks" בתפריט.

המשתמשים יכולים להגדיר תזכורות, תחזיות מזג אוויר יומיות, או בדיחות לפני השינה.

המערכת אף מציעה משימות בהתבסס על היסטוריית השיחות, אך המשתמש שולט בהפעלה הסופית.

ניתן לנהל את המשימות דרך חלון הצ'אט או ממשק ניהול משימות ייעוד וחדש שזמין כרגע רק בגרסת הדפדפן.

בשלב הבטא, המערכת מאפשרת עד 10 משימות פעילות בו-זמנית, עם התראות המופיעות במחשב בדפדפן או למייל.

הפיצ'ר החדש הוא חלק מתוכנית רחבה יותר אשר מבוססת על תשתית ה "Operator" של OpenAI שתסייע בכתיבת קוד להזמנת נסיעות, חיפוש ברחבי הרשת, רכישת מוצרים ועוד.

קישור להכרזה

קישור להוראות השימוש
נעלי ה-AI הראשונות בעולם: העתיד פוגש את כפות הרגליים
נעלי ה-AI הראשונות בעולם: העתיד פוגש את כפות הרגליים
  11/01/2025   |     מודלי שפה

חברת הסטארטאפ Syntilay הכריזה על הנעליים הראשונות בעולם שעוצבו בעזרת בינה מלאכותית וזכו למראה עתידני המזכיר גרסה משונה של Crocs.

הנעליים מיוצרות בהדפסת תלת-ממד בהתאמה אישית לכל לקוח, בעלות של 150 דולר.

המשתמשים סורקים את כפות רגליהם באמצעות מצלמת הטלפון, והייצור מתבצע בשיתוף עם חברת Zellerfeld. ניתן לבחור מתוך חמישה צבעים: כחול, שחור, אדום, בז', וכתום.

התהליך העיצובי כלל שיתוף פעולה בין בינה מלאכותית ובני אדם. תחילה, נוצרו תמונות קונספט באמצעות Midjourney, על פיהן עיצב המעצב קידר בנג'מין סקיצות שהומרו לדגמים תלת-ממדיים באמצעות Vizcom AI.

הבינה המלאכותית תרמה גם לפיתוח הטקסטורות הייחודיות שמאפיינות את הנעליים.

Syntilay מתכננת להתרחב לשוק הנעליים האמריקאי, שעמד על מכירות של 85.8 מיליארד דולר ב-2022 וצפוי להגיע ל-104 מיליארד עד 2028.

החברה שואפת לאפשר למותגים ויוצרי תוכן לעצב ולמכור נעליים בעיצוב AI.

קישור לאתר החברה

כותרות מוצעות:

  • חדשנות ב-AI: נעליים בעיצוב אישי בהדפסת תלת-ממד
  • Syntilay משנה את חוקי המשחק בשוק הנעליים
עליבאבא משיקה את Qwen Chat - חוויית AI חדשה למשתמשים על בסיס מודלי Qwen
עליבאבא משיקה את Qwen Chat - חוויית AI חדשה למשתמשים על בסיס מודלי Qwen
  09/01/2025   |     מודלי שפה

עליבאבא השיקה פלטפורמה חדשה בשם Qwen Chat המאפשרת להשתמש במודלי הבינה המלאכותית שלה בחינם.

הפלטפורמה מציעה בדיקה של מודלים שונים, כמו Qwen2.5-Plus לשיחות כלליות, Qwen2-VL-Max להבנת תמונות, ומודלים מתקדמים כמו QwQ ו-QVQ לפתרון בעיות מורכבות.

למפתחים, זמין גם דגם Qwen2.5-Coder-32B-Instruct למשימות תכנות.

המשתמשים יכולים להעלות מסמכים ולקבל תשובות מותאמות אישית, לצד תמיכה בניתוח תמונות ותצוגת HTML.

עליבאבא מתכננת להרחיב את הפלטפורמה לשימוש בחיפוש אינטרנטי, יצירת תמונות, ואינטראקציה קולית. כמו מודלים אחרים שפותחו בסין, המודלים של Qwen כוללים מסנני תוכן למניעת ביקורת על הממשל.

מאז אוגוסט 2023, עליבאבא ממשיכה לחזק את יכולות הבינה המלאכותית שלה עם משפחת המודלים Qwen2.5, המציגים שיפורים בתכנות, מתמטיקה, והבנה לוגית. המודלים זמינים בקוד פתוח תחת רישיון Apache 2.0.

השדרוג האחרון כולל את Qwen-Agent, מערכת המנהלת שיחות מורכבות, ומתמקדת בתכנון וביצוע משימות.

קישור להכרזה המקורית

קישור לצ'ט

הדור הבא של מודלים תלת-ממדיים - Stability AI משיקה את SPAR3D
הדור הבא של מודלים תלת-ממדיים - Stability AI משיקה את SPAR3D
  08/01/2025   |     מודלי שפה

חברת Stability AI השיקה את SPAR3D, מודל חדש ליצירת אובייקטים תלת-ממדיים בזמן אמת.

SPAR3D, שפותח בשיתוף עם Nvidia, מאפשר להמיר תמונה בודדת לאובייקט תלת-ממדי מלא בפחות משנייה.

המודל מתוכנן במיוחד לעבודה עם כרטיסי המסך מסדרת Nvidia RTX ומציע שליטה מלאה על יצירת האובייקטים, כולל מחיקה, שכפול, צביעה והוספת פרטים חדשים.

המערכת פועלת בשני שלבים: תחילה נוצרת עננת נקודות מפורטת המייצגת את מבנה האובייקט, ולאחר מכן רכיב ה-Triplane Transformer מוסיף פרטים גיאומטריים, טקסטורות ותאורה.

תהליך זה הופך ענן של נקודות למודל רשת מוגמר ב-0.3 שניות בלבד. מהירות זו מסייעת במיוחד למפתחי משחקים, מעצבי מוצרים ואנשי עיצוב סביבות.

SPAR3D זמין לשימוש חופשי תחת רישיון קהילתי של Stability AI, כולל גישה לקוד מקור ב-GitHub ומשקלים להורדה ב-Hugging Face.

ארגונים גדולים מחויבים לרישיון ייעודי. המודל מצטרף לתחרות העזה בתחום, לצד פתרונות כמו Edify 3D של Nvidia ופרויקטים של Meta ו-Midjourney.

קישור לידיעה המקורית

קישור למחקר

קישור ל Huggingface

קישור ל Git
טכנולוגיה חדשה של ByteDance מחייה תמונות סטטיות
טכנולוגיה חדשה של ByteDance מחייה תמונות סטטיות
  05/01/2025   |     מודלי שפה

חברת ByteDance, חברת האם של TikTok, פיתחה מודל AI בשם INFP שמצליחה להחיות תמונות סטטיות של פורטרטים כך שיראו כאילו הם מדברים ומגיבים לאודיו.

המערכת יכולה ליצור סרטוני שיחה מציאותיים בין שני אנשים, מבלי להגדיר מראש מי מדבר ומי מאזין. המערכת מזהה את התפקידים באופן אוטומטי במהלך השיחה.

המערכת עובדת בשני שלבים עיקריים. בשלב הראשון, הנקרא "חיקוי תנועות ראש מבוססות תנועה," המערכת לומדת פרטים כמו הבעות פנים ותנועות ראש ומתרגמת אותם לדאטה.

בשלב השני, "יצירת תנועה מודרכת אודיו," היא מתאימה תנועות לאודיו באמצעות מנגנון מיוחד היוצר דפוסי תנועה טבעיים ומתוחכמים.

לצורך האימון, פיתחו ב-ByteDance מאגר חדש בשם DyConv עם מעל 200 שעות שיחות וידאו אמיתיות. INFP

מצטיינת בשמירה על התאמת תנועות שפתיים לדיבור, הבעת רגשות, ותנועות טבעיות.

החברה מתכננת להרחיב את המערכת כך שתוכל לעבוד עם תמונות, טקסט ואפילו להנפיש גוף שלם.

קישור למחקר
קישור ל Git

מחקר חדש מציג את VideoAnydoo - הוספת עצמים לוידאו
מחקר חדש מציג את VideoAnydoo - הוספת עצמים לוידאו
  03/01/2025   |     מודלי שפה

מחקר חדש בשם VideoAnydoor מציג מערכת AI חדשה ומתקדמת להוספת עצמים לסרטוני וידאו בצורה מדויקת תוך שמירה על פרטים בוידאו.

המערכת מאפשרת להכניס עצמים לסרטונים תוך התאמה מדויקת לתנועות ולהשאיר את מראה העצם המקורי ללא שינוי. המודל תומך ביישומים מגוונים כמו החלפת פנים, הוספת לוגו ועריכה של אזורים מרובים בסרטון.

המערכת מבוססת על מודל טקסט-לוידאו ומאפשרת שליטה בתנועות באמצעות "מפתח פיקסלים" (Pixel Warper) שממפה את פרטי המראה לנקודות מפתח במסלול התנועה.

שילוב טכנולוגיות אלו עם רשת U-Net לשימור פרטים, יוצר איכות יוצאת דופן ללא צורך בכיוונון נוסף למשימות שונות.

הטכנולוגיה מציעה גם אסטרטגיית אימון חדשנית שמשתמשת בסרטונים ותמונות סטטיות, ומשפרת את האיכות של הוספת האובייקט לוידאו ועריכתו.

קישור למחקר
קישור לפרויקט ב Git



חדש מודל טקסט ל CAD - יצירת אובייקטים בתלת-ממד
חדש מודל טקסט ל CAD - יצירת אובייקטים בתלת-ממד
  02/01/2025   |     מודלי שפה

מודל AI חדש של חברת Zoo מציע יצירה של עיצובי תלת-ממדיים בצורה קלה וגמישה תוך דיוק רב.

המפתחים ממליצים לתאר את תכונות העיצוב הרצויות, כמו קצוות מעוגלים או פינות משופעות, במקום רק לציין עצם כללי כמו "רכב".

באמצעות אפליקציות הקוד הפתוח שלהם – Discord Bot ו-Text-to-CAD UI – ניתן להתנסות כבר היום וליצור עיצובים מותאמים אישית.

הפלטפורמה מבוססת על B-Rep (Boundary Representation), שיטה המתארת אובייקטים תלת-ממדיים בדיוק גיאומטרי דרך קודקודים, קצוות ופאות.

שיטה זו מאפשרת שליטה מדויקת על הגיאומטריה והטופולוגיה והיא חיונית לייצור תעשייתי שבו המידות חייבות להיות מדויקות.

האפליקציות מספקות ממשק נוח לבנייה על גבי ה-API של הכלי, ומאפשרות למשתמשים ליצור פתרונות מותאמים אישית.

קישור לידיעה המקורית

קישור לכלי והמודלים
פסק דין תקדימי - קלוד של אנטרופיק כבר לא יכול לצטט מילים לשירים מוכרים
פסק דין תקדימי - קלוד של אנטרופיק כבר לא יכול לצטט מילים לשירים מוכרים
  02/01/2025   |     מודלי שפה

חברת Anthropic, מפתחת מודל הבינה המלאכותית Claude, הגיעה להסכם עם שלוש מפיצי מוזיקה גדולים בעקבות תביעה שהוגשה נגדה בגין הפרת זכויות יוצרים.

בהתאם להסכם, Anthropic תמשיך להשתמש במנגנוני הגנה המונעים מהמודל שלה לספק מילים לשירים שבבעלות המפרסמים או ליצור מילים חדשות המבוססות על חומרים מוגנים בזכויות יוצרים.

התביעה, שהוגשה ב-2023, כוללת חברות כמו Universal Music Group, Concord Music Group ו-ABKCO, שטענו כי Anthropic השתמשה בלפחות 500 שירים של אמנים מפורסמים כמו קייטי פרי, הרולינג סטונס וביונסה לאימון המודל שלה ללא אישור.

Anthropic טוענת בתגובה כי השימוש במידע המוגן הוא בגדר "שימוש הוגן" וכי מנגנוני ההגנה שלה מונעים הפרת זכויות יוצרים.

ההסכם מאפשר למפרסמים לדווח על בעיות במנגנוני ההגנה של Anthropic, והיא מחויבת להגיב במהירות ולחקור את הטענות.

פסק הדין הסופי בנושא צפוי להינתן בחודשים הקרובים ואין ספק שהוא ישפיע על שאר החברות שיוצרות מוזיקה באמצעות מודלי בינה מלאכותית.

קישור לידיה המקורית
חברת HeyGen משיקה 500+ אווטרים חדשים ואווטרים מבוססי קהילת יוצרים
חברת HeyGen משיקה 500+ אווטרים חדשים ואווטרים מבוססי קהילת יוצרים
  02/01/2025   |     מודלי שפה

חברת HeyGen פותחת את ינואר עם עדכונים מרגשים לספריית האווטרים שלה, הכוללים 500+ אווטרים חדשים שנוצרו באמצעות בינה מלאכותית.

הספריה החדשה מאפשרת לשתף אווטרים שיצרתם עם משתמשים אחרים. כלי חיפוש חדש למציאת האווטר יסייע לכם למצוא את האווטר המושלם לסרטון שלכם.


כעת תוכלו לדפדף בין אווטרים יצירתיים ששותפו על ידי משתמשי הקהילה, ולהוסיף אווטרים שנוצרו על ידכם לשימוש הקהילה.

HeyGen השיקה מעל 500 אווטרים חדשים שנוצרו בידי צוות החברה.

בנוסף, הספרייה הציבורית כוללת כעת אפשרות חיפוש נוחה שתאפשר לכם למצוא את הדמות המתאימה ביותר לצרכים שלכם – פשוט הקלידו בשורת החיפוש תחת "Public Avatars" ובחרו אווטר שיתאים לסרטון שלכם.

קישור לידיעה המקורית

חדש ממיקרוסופט - מודל AI שמבצע פעולות אמיתיות
חדש ממיקרוסופט - מודל AI שמבצע פעולות אמיתיות
  01/01/2025   |     מודלי שפה

חוקרים במיקרוסופט פיתחו מודל בינה מלאכותית חדש בשם Large Action Model (LAM), מודל שמסוגל להפעיל תוכנות Windows באופן עצמאי.

LAMs נבדלים ממודלים מסורתיים כמו GPT-4o בכך שהם לא רק מעבדים טקסט אלא גם מבצעים פעולות אמיתיות על סמך בקשות משתמשים, כגון תפעול תוכנות Microsoft Office.

המפתחים השתמשו במודל Mistral-7B וביצעו ניסויים בסביבת Word, המודל הצליח להשלים משימות ב-71% מהמקרים, לעומת 63% הצלחה של GPT-4o (ללא מידע חזותי).

ה-LAM היה גם מהיר יותר, עם ממוצע של 30 שניות למשימה לעומת 86 שניות ב-GPT-4o. עם זאת, כש-GPT-4o קיבל מידע חזותי, הצלחתו עלתה ל-75.5%.

המפתחים אספו 29,000 זוגות של משימות מתיעודי הארכיון של מיקרוסופט, wikiHow ומנוע החיפוש Bing, והשתמשו ב-GPT-4o כדי להרחיב את המידע ל-76,000 זוגות.

על אף האתגרים כמו סיכוני אבטחה, מגבלות טכניות ושאלות אתיות, מיקרוסופט רואה ב-LAMs צעד משמעותי לעבר עוזרי AI המסוגלים לבצע משימות בעולם האמיתי.

קישור לידיעה המקורית

קישור למחקר
יצירת סוכנים בצורה פשוטה עם Smolagents ב Hugging Face
יצירת סוכנים בצורה פשוטה עם Smolagents ב Hugging Face
  31/12/2024   |     מודלי שפה

חברת Hugging Face הכריזה על Smolagents, ספרייה חדשה בקוד פתוח המפשטת את תהליך בניית סוכני AI לכמה שורות קוד בלבד.

הספרייה, המכילה כאלף שורות קוד בלבד, מעוצבת במכוון באופן מינימליסטי אך מטפלת בכל החלקים המורכבים של בניית הסוכנים.

בגרסת הדמו, הסוכנים משתמשים ב-DuckDuckGo למענה על שאלות מורכבות, וכל התהליך דורש התקנה פשוטה דרך pip והרצת כמה שורות קוד.

לב הספרייה הוא CodeAgent, שמאפשר ל-AI לכתוב קוד פייתון ישירות במקום להשתמש במבנה מסורתי של קריאת כלים.

לפי החברה, גישה זו מפחיתה ב-30% את מספר השלבים ודורשת פחות קריאות ל-AI, תוך שמירה על ביצועים גבוהים.

Smolagents תומכת במגוון מודלים, כולל אלו של OpenAI, Anthropic, והמודלים האורחים ב-Hugging Face Hub.

לטובת אבטחה, ניתן להריץ קוד בצורה מקומית בסביבה מאובטחת או באמצעות סביבת Sandbox של E2B.

קישור לידיעה המקורית
קישור ל Git
מודל חדש בשם DiffSensei יוצר קומיקס מנגה בלחיצת כפתור
מודל חדש בשם DiffSensei יוצר קומיקס מנגה בלחיצת כפתור
  31/12/2024   |     מודלי שפה

חוקרים מפקין יוניברסיטי, מעבדת ה-AI בשנגחאי ואוניברסיטת טכנולוגיה נניָנג פיתחו את DiffSensei, מערכת AI המסוגלת להפוך מאמרים וסיפורים למנגה בסגנון קומיקס באופן אוטומטי.

המערכת שומרת על עקביות במראה הדמויות ושולטת בפריסת הדפים לאורך הסיפור. היא עושה זאת בשלושה שלבים: יצירת פריסות של התוכן, ציור הדמויות והוספת דיאלוגים.

כדי להדגים את יכולות המערכת, החוקרים יצרו מנגה פיקטיבית על חלוצי ה-AI ג'פרי הינטון, יאן לקון ויושוע בנג'יו. הסיפור עוקב אחר מאבקם לפתח מודל AI שעולה על ארכיטקטורת ה-Transformer, ומסתיים בזכייתם בפרס נובל.



לצורך האימון, נבנה מאגר נתונים בשם MangaZero הכולל יותר מ-43,000 עמודי מנגה ו-427,000 מתוייגים.

על אף שהמערכת לא מושלמת – ולעיתים מציגה יצירות כלליות כאשר אין דמויות או סגנון מוגדרים – החוקרים מאמינים ש-DiffSensei תוכל לייעל את תהליך יצירת הקומיקס בעתיד הקרוב.

המערכת עשויה להוות כלי חדש עבור אמנים, מוציאים לאור ויוצרים המעוניינים להפיק מנגה וקומיקס מותאם אישית תוך שמירה על שליטה בעיצוב הדמויות והפריסה.

קישור למחקר
קישור למודל ב Git

חברת Nvidia משלימה את רכישת Run:ai הישראלית
חברת Nvidia משלימה את רכישת Run:ai הישראלית
  30/12/2024   |     מודלי שפה

חברת Nvidia השלימה את רכישת הסטארט-אפ הישראלי Run:ai, שמתמחה בניהול תשתיות AI.

על פי הדיווחים השונים Nvidia מתכננת לפתוח את קוד התוכנה שהייתה עד כה בבעלות פרטית של Run:ai.

Run:ai, שנוסדה ב-2018 על ידי עומרי גלר ורונן דר, פיתחה פלטפורמה חכמה בשם Atlas, שמחלקת את משאבי המחשוב הארגוניים בצורה אוטומטית בין משימות AI מקבילות.

הלקוחות כוללים חברות Fortune 500 וסטארט-אפים במגזרים כמו פיננסים, רכב ובריאות.

במסגרת הרכישה, Run:ai תמשיך לסייע ללקוחות לשפר את ניהול מערכות ה-AI שלהם, בין אם בענן, באתר הלקוח, או באמצעות שירות DGX של Nvidia.

ההחלטה להפוך את התוכנה לקוד פתוח עשויה להרחיב את התאימות שלה גם לפלטפורמות חומרה אחרות, ולא רק ל-GPU של Nvidia.

הרכישה, שדווחה כעומדת על כ-700 מיליון דולר, מחזקת את מעמדה של Nvidia בישראל, לאחר רכישת Mellanox ב-2020.

קישור לידיעה המקורית

חברת Deepseek הסינית מציגה מהפכה במודלי שפה פתוחים עם גרסה V3
חברת Deepseek הסינית מציגה מהפכה במודלי שפה פתוחים עם גרסה V3
  26/12/2024   |     מודלי שפה

חברת Deepseek הסינית השיקה את Deepseek-V3, מודל השפה המתקדם ביותר שלה עד כה, עם ארכיטקטורת Mixture-of-Experts ו-671 מיליארד פרמטרים.

המודל, שעבר אימון על 14.8 טריליון טוקנים, מציג מהירות עיבוד של 60 טוקנים בשנייה - פי שלוש מהגרסה הקודמת.

ביצועי המודל במבחנים השונים הוכיחו עליונות בתחומים כמו MATH 500 ותכנות, עם תוצאות תחרותיות למודלים המובילים כמו GPT-4o ו-Claude-3.5-Sonnet.

המודל Deepseek-V3 פותח ביעילות יוצאת דופן, תוך שימוש בצבר של 2,000 GPUs בלבד, לעומת עשרות אלפים שמשתמשות חברות אחרות.

המודל זמין לשימוש חופשי תחת רישיון Deepseek, אך השימוש נאסר על יישומים צבאיים ושירותים משפטיים אוטומטיים.

חברת Deepseek מתכננת לשדרג את ארכיטקטורת המודל ולפתח תמיכה בחלון הקשר בלתי מוגבל, במטרה לפרוץ את גבולות הבינה המלאכותית בדרך לבינה כללית מלאכותית (AGI).

המודל זמין לשימוש באמצעות API או באופן מקומי בחינם.

קישור לידיעה ב X
קישור ל Git
קישור למחקר
מודל חזותי חדש בקוד פתוח - QVQ-72B מציב אתגר ל-OpenAI ו-Google
מודל חזותי חדש בקוד פתוח - QVQ-72B מציב אתגר ל-OpenAI ו-Google
  25/12/2024   |     מודלי שפה

צוות המחקר של Alibaba Qwen חשף את QVQ-72B-Preview, מודל בקוד פתוח חדש שמצטיין במשימות הסקת מסקנות מתמונות.

המודל, שמבוסס על Qwen2-VL-72B, מסוגל לנתח מידע חזותי, לחשוב בצורה מתודית ולהציג תשובות בליווי ציון המדגיש עד כמה הזיהוי ודאי.

הביצועים שלו נבדקו על ארבעה מדדים, כולל MMMU, MathVista ו-OlympiadBench, בהם הצליח להשתוות למודלים מתקדמים כמו OpenAI o1 ו-Claude 3.5 Sonnet.

עם זאת, QVQ עדיין בשלב ניסיוני וסובל ממגבלות שפה, לולאות חשיבה מעגליות וטעויות בזיהוי חזותי במשימות מורכבות.

הצוות מבהיר כי יש צורך בשיפורים לפני הפצה של המודל לשימוש רחב.

אך QVQ הוא צעד נוסף בדרך ליצירת מולטי מודל חזק בקוד פתוח. הקוד והמשקלים שלו זמינים כעת לשימוש חופשי ב-Hugging Face.

קישור לידיעה
קישור לדמו
קישור ל Git