[ad_1]
نوشته و ویرایش شده توسط مجله ی باماها
مایکروسافت در کنفرانس بیلد ۲۰۲۴ نسخهی جدیدی از مدل زبانی کوچک خود را به نام Phi-3-vision رونمایی کرد.
Phi-3-vision یک مدل زبانی کوچک چندوجهی محسوب میبشود که با منفعتمندی از ۴٫۲ میلیارد پارامتر، قابلیت فهمیدن تصاویر و ویدئوها را دارد. بهنظر میرسد که هوش مصنوعی کوچک مایکروسافت با مدلهای زبانی دیگر همانند جمنای ۱ پرو گوگل و مدل Claude 3 Haiku همسطح است.
مطابق تحقیق منتشرشده در سایت Arxiv، هوش مصنوعی کوچک مایکروسافت توانست در بنچمارکهای ScienceQA و MathVista و MMMU و ChartQA در برخی موارد از همهی مدلهای زبانی کوچک پیشی بگیرد. Phi-3-vision میتواند زمان نقلشدن سوال درموردی تصاویر یا تحلیل نمودار، استدلال بصری انجام دهد.
Arxiv
Phi-3-vision برخلاف مدلهای هوش مصنوعی متمرکز بر عکس همانند DALL-E یا Stable Diffusion، توانایی تشکیل عکس را ندارد.
نسخهی پیشنمایش Phi-3-vision اکنون دردسترس است و کاربران میتوانند Phi-3 mini و Phi-3 Medium را از طریق پلتفرم هوش مصنوعی مایکروسافت آژور تهیه کنند.
Phi Silica یکی دیگر از مدلهای هوش مصنوعی مایکروسافت محسوب میبشود که برای پیشتیبانی از اپلیکیشنهای هوش مصنوعی ویندوز انتشار شده و این مدل بهطور سفارشی برای NPU کامپیوترهای کوپایلتپلاس در نظر گرفته شده است.
مدل هوش مصنوعی Phi Silica میتواند در هر ثانیه ۶۵۰ توکن ورودی را پردازش کند و بدون درگیرکردن پردازندهی مرکزی و گرافیکی فقط ۱٫۵ وات برق مصرف خواهد کرد.
دسته بندی مطالب
مقالات کسب وکار
[ad_2]