دیپ سیک

Deepseek

 
 

هوش مصنوعی deepseek چیست؟

DeepSeek یک شرکت توسعه هوش مصنوعی است که دفتر مرکزی آن در هانگجو چین قرار دارد. این شرکت را لیانگ ونفنگ، نابغه فارغ‌التحصیل از دانشگاه ژجیانگ، در ماه می سال ۲۰۲۳ تأسیس کرد. ونفنگ مؤسس High-Flyer، یک صندوق تأمینی در چین نیز هست. در حال حاضر، دیپ سیک به عنوان یک لابراتوار تحقیقاتی مستقل با کمک High-Flyer فعالیت می‌کند. مقدار کامل بودجه و ارز‌ش‌‌ این شرکت به طور عمومی منتشر نشده است.

دیپ‌سیک یک خانواده پیشگام از مدل‌های هوش مصنوعی مبتنی بر یادگیری تقویتی (RL) است که شرکت چینی دیپ سیک آن را توسعه داد. این هوش مصنوعی چینی طراحی شده تا رقیب اصلی پیشگامان هوش مصنوعی مانند OpenAI و Google باشد و قابلیت‌های استدلال پیشرفته را با دسترسی به منابع داده باز ترکیب می‌کند. مدل‌های هوش مصنوعی deepseek برخلاف مدل‌های سنتی که بر تنظیم دقیق نظارت شده (SFT) متکی هستند، از آموزش RL و روش‌های ترکیبی برای دستیابی به کارکردی پیشرفته در انجام وظایف STEM، کدنویسی و حل مشکلات پیچیده استفاده می‌کند.

انواع مدل‌های  deepseek

از زمان تأسیس DeepSeek در سال ۲۰۲۳  تا امروز، این شرکت مدل‌های هوش مصنوعی مختلفی را منتشر کرده است. با هر نسل جدید، این شرکت تلاش کرده تا هم قابلیت‌ها و هم عملکرد مدل‌های خود را ارتقا دهد. مدل‌های مختلف دیپ سیک تا امروز عبارت‌اند از:

  • DeepSeek Coder: این اولین مدل منبع باز این شرکت است که در نوامبر ۲۰۲۳ منتشر شد و به طور خاص برای کارهای مربوط به کدنویسی طراحی شده است.
  • DeepSeek LLM: این مدل اولین نسخه از مدل همه کاره این شرکت است که در دسامبر ۲۰۲۳ منتشر شد.
  • DeepSeek-V2 : این مدل نسخه دوم LLM این شرکت است که در ماه می ۲۰۲۴ منتشر شد و بر عملکرد قوی و هزینه‌های آموزشی کمتر تمرکز دارد.
  • DeepSeek-Coder-V2 : این مدل که در ژوئیه ۲۰۲۴ منتشر شد، یک مدل ۲۳۶ میلیارد پارامتری است که پنجره زمینه‌ای از ۱۲۸۰۰۰ توکن را ارائه می‌دهد و برای چالش‌های پیچیده کدنویسی طراحی شده است.
  • DeepSeek-V3: این مدل که در دسامبر ۲۰۲۴ منتشر شد، از معماری ترکیبی ساخته شده به دست متخصصان استفاده می‌کند که قادر به انجام وظایف بسیاری است. این مدل ۶۷۱ میلیارد پارامتر با طول زمینه ۱۲۸۰۰۰ دارد.
  • DeepSeek-R1: این مدل که در ژانویه ۲۰۲۵ منتشر شد، مبتنی بر DeepSeek-V3 است و بر وظایف استدلالی پیشرفته متمرکز شده که از نظر عملکرد به طور مستقیم با مدل o1 از  OpenAI  رقابت می‌کند.  این مدل مانند DeepSeek-V3، ۶۷۱ میلیارد پارامتر با طول زمینه ۱۲۸۰۰۰ دارد.
  • Janus-Pro-7B: این مدل که در ژانویه ۲۰۲۵ منتشر شد، یک مدل بصری است که می‌تواند تصاویر را درک و تولید کند.