مجموعه داده اوپن سورس Titanic Dataset
یکی از محبوبترین مجموعه دادهها برای شروع یادگیری ماشین، مجموعه داده Titanic است. این مجموعه داده به شما کمک میکند مفاهیمی مانند پیشپردازش داده، تحلیل ویژگیها و الگوریتمهای دستهبندی را تمرین کنید.
توضیح کوتاه درباره مجموعه داده Titanic
مجموعه داده Titanic اطلاعات مربوط به مسافران کشتی معروف تایتانیک را شامل میشود که در سال 1912 غرق شد. این مجموعه شامل ویژگیهایی مانند:
- سن (Age)
- جنسیت (Sex)
- کلاس بلیط (Passenger Class)
- قیمت بلیط (Fare)
- داشتن خانواده همراه (Siblings/Spouses Aboard)
- زنده ماندن یا فوت شدن (Survived)
هدف اصلی در کار با این مجموعه داده پیشبینی احتمال زنده ماندن مسافران با استفاده از ویژگیهای موجود است.
کاربردها و مزایا
- تمرین دستهبندی: این مجموعه برای مسائل دستهبندی (Classification) طراحی شده است.
- آشنایی با پاکسازی داده: دادهها شامل مقادیر گمشده هستند، که این فرصت خوبی برای یادگیری تکنیکهای مدیریت دادههای ناقص است.
- تحلیل ویژگیها: میتوانید ویژگیهای مختلف را بررسی کرده و تأثیر آنها بر روی متغیر هدف (Survived) را تحلیل کنید.
- آسان برای شروع: حجم داده کم است و تحلیل آن پیچیدگی بالایی ندارد، بنابراین برای تازهکارها ایدهآل است.
ساختار دادهها
تعداد کل نمونهها: 891
تعداد ویژگیها: 12 (شامل متغیر هدف)
چگونه به این دادهها دسترسی پیدا کنید؟
این مجموعه داده به صورت رایگان در وبسایت Kaggle منتشر شده است و میتوانید آن را از لینک زیر دانلود کنید:
دانلود مجموعه داده Titanic از Kaggle
دانلود مستقیم مجموعه داده Titanic
پیشنهادات برای پروژههای یادگیری
- ساخت یک مدل ساده با الگوریتمهای پایهای مانند Logistic Regression یا Decision Tree.
- تحلیل تأثیر ویژگیهای مختلف (مانند جنسیت یا کلاس بلیط) روی زنده ماندن.
- ایجاد گزارش تصویری با استفاده از کتابخانههایی مانند Matplotlib و Seaborn برای درک بهتر دادهها.
- اعمال روشهای بهینهسازی پیشرفته مانند Grid Search برای بهبود عملکرد مدل.
با استفاده از مجموعه داده Titanic، میتوانید یادگیری ماشین را به صورت عملی آغاز کرده و دانش خود را به سرعت ارتقا دهید. 🌟