[ad_1]
نوشته و ویرایش شده توسط مجله ی باماها

مایکروسافت در کنفرانس بیلد ۲۰۲۴ نسخه‌ی جدیدی از مدل زبانی کوچک خود را به نام Phi-3-vision رونمایی کرد.

Phi-3-vision یک مدل زبانی کوچک چندوجهی محسوب می‌بشود که با منفعت‌مندی از ۴٫۲ میلیارد پارامتر، قابلیت فهمیدن تصاویر و ویدئو‌ها را دارد. به‌نظر می‌رسد که هوش مصنوعی کوچک مایکروسافت با مدل‌های زبانی دیگر همانند جمنای ۱ پرو گوگل و مدل Claude 3 Haiku هم‌سطح است.

مطابق تحقیق منتشرشده در سایت Arxiv، هوش مصنوعی کوچک مایکروسافت توانست در بنچمارک‌های ScienceQA و MathVista و MMMU و ChartQA در برخی موارد از همه‌ی مدل‌های زبانی کوچک پیشی بگیرد. Phi-3-vision می‌تواند زمان نقل‌شدن سوال درمورد‌ی تصاویر یا تحلیل نمودار، استدلال بصری انجام دهد.

Arxiv

Phi-3-vision برخلاف مدل‌های هوش مصنوعی متمرکز بر عکس همانند DALL-E یا Stable Diffusion، توانایی تشکیل عکس را ندارد.

نسخه‌ی پیش‌نمایش Phi-3-vision اکنون دردسترس است و کاربران می‌توانند Phi-3 mini و Phi-3 Medium را از طریق پلتفرم هوش مصنوعی مایکروسافت آژور تهیه کنند.

Phi Silica یکی‌ دیگر از مدل‌های هوش مصنوعی مایکروسافت محسوب می‌بشود که برای پیشتیبانی از اپلیکیشن‌های هوش مصنوعی ویندوز انتشار شده و این مدل به‌طور سفارشی برای NPU کامپیوترهای کوپایلت‌پلاس در نظر گرفته شده است.

مدل هوش مصنوعی Phi Silica می‌تواند در هر ثانیه ۶۵۰ توکن ورودی را پردازش کند و بدون درگیرکردن پردازنده‌ی مرکزی و گرافیکی فقط ۱٫۵ وات برق مصرف خواهد کرد.

دسته بندی مطالب
مقالات کسب وکار

مقالات فناوری

مقالات آموزشی

مقالات سلامتی

[ad_2]