نوشته‌ها

مجموعه داده اوپن سورس Titanic Dataset

یکی از محبوب‌ترین مجموعه داده‌ها برای شروع یادگیری ماشین، مجموعه داده Titanic است. این مجموعه داده به شما کمک می‌کند مفاهیمی مانند پیش‌پردازش داده، تحلیل ویژگی‌ها و الگوریتم‌های دسته‌بندی را تمرین کنید.


توضیح کوتاه درباره مجموعه داده Titanic

مجموعه داده Titanic اطلاعات مربوط به مسافران کشتی معروف تایتانیک را شامل می‌شود که در سال 1912 غرق شد. این مجموعه شامل ویژگی‌هایی مانند:

  • سن (Age)
  • جنسیت (Sex)
  • کلاس بلیط (Passenger Class)
  • قیمت بلیط (Fare)
  • داشتن خانواده همراه (Siblings/Spouses Aboard)
  • زنده ماندن یا فوت شدن (Survived)

هدف اصلی در کار با این مجموعه داده پیش‌بینی احتمال زنده ماندن مسافران با استفاده از ویژگی‌های موجود است.


کاربردها و مزایا

  1. تمرین دسته‌بندی: این مجموعه برای مسائل دسته‌بندی (Classification) طراحی شده است.
  2. آشنایی با پاکسازی داده: داده‌ها شامل مقادیر گمشده هستند، که این فرصت خوبی برای یادگیری تکنیک‌های مدیریت داده‌های ناقص است.
  3. تحلیل ویژگی‌ها: می‌توانید ویژگی‌های مختلف را بررسی کرده و تأثیر آن‌ها بر روی متغیر هدف (Survived) را تحلیل کنید.
  4. آسان برای شروع: حجم داده کم است و تحلیل آن پیچیدگی بالایی ندارد، بنابراین برای تازه‌کارها ایده‌آل است.

ساختار داده‌ها

تعداد کل نمونه‌ها: 891
تعداد ویژگی‌ها: 12 (شامل متغیر هدف)


چگونه به این داده‌ها دسترسی پیدا کنید؟

این مجموعه داده به صورت رایگان در وب‌سایت Kaggle منتشر شده است و می‌توانید آن را از لینک زیر دانلود کنید:

دانلود مجموعه داده Titanic از Kaggle

دانلود مستقیم مجموعه داده Titanic


پیشنهادات برای پروژه‌های یادگیری

  • ساخت یک مدل ساده با الگوریتم‌های پایه‌ای مانند Logistic Regression یا Decision Tree.
  • تحلیل تأثیر ویژگی‌های مختلف (مانند جنسیت یا کلاس بلیط) روی زنده ماندن.
  • ایجاد گزارش تصویری با استفاده از کتابخانه‌هایی مانند Matplotlib و Seaborn برای درک بهتر داده‌ها.
  • اعمال روش‌های بهینه‌سازی پیشرفته مانند Grid Search برای بهبود عملکرد مدل.

با استفاده از مجموعه داده Titanic، می‌توانید یادگیری ماشین را به صورت عملی آغاز کرده و دانش خود را به سرعت ارتقا دهید. 🌟