تحلیل دادهها در مقابل علم داده و یادگیری ماشین
تحلیل دادهها و علم داده
تحلیل دادهها و علم داده تقریباً مشابه هستن چون هدف هر دو استخراج اطلاعات ارزشمند از دادهها و استفاده از اونها برای تصمیمگیری بهتره.
- تحلیل دادهها: معمولاً به استفاده از ابزارهایی مثل Microsoft Excel و دیگر نرمافزارها برای خلاصهسازی دادهها و پیدا کردن الگوها مربوط میشه.
- علم داده: معمولاً با استفاده از برنامهنویسی برای کار با مجموعههای بزرگ داده مرتبطه. علم داده به خاطر تولید گیگابایتهای داده از منابع آنلاین و فعالیتها (موتورهای جستجو، شبکههای اجتماعی) محبوب شده.
تفاوتها
اگرچه عنوان شغلی “دانشمند داده” خیلی جذابتر از “تحلیلگر داده” به نظر میاد، اما وظایف شغلی این دو ممکنه مشابه و همپوشانی داشته باشه. هر دو با کشف الگوها و تولید بینش از دادهها سر و کار دارن. همچنین کار اونها، شامل پرسیدن سوالات هوشمندانه درباره ماهیت دادهها میشه (مثلاً: آیا نقاط دادهای به صورت طبیعی به خوشهها تقسیم میشن؟ آیا واقعاً بین سن و سرطان ارتباطی وجود داره؟).
یادگیری ماشین چیست؟
یادگیری ماشین اغلب به صورت متناوب با علم داده استفاده میشه. این به این دلیله که یادگیری ماشین درباره “یادگیری از دادهها” است. وقتی الگوریتمهای یادگیری ماشین رو اعمال میکنیم، کامپیوتر الگوها رو تشخیص میده و از “چیزی که یاد گرفته” روی دادههای جدید استفاده میکنه.
مثال:
فرض کنید میخواهیم بدونیم آیا یه نفر بدهیش رو پرداخت میکنه یا نه. خوشبختانه، ما یه مجموعه داده بزرگ درباره افراد مختلف داریم که یا بدهیشون رو پرداخت کردن یا نکردن. همچنین دادههای دیگهای هم جمعآوری کردیم (ایجاد پروفایل مشتری) مثل سن، محدوده درآمد، محل سکونت و شغل. وقتی الگوریتم یادگیری ماشین مناسب رو اعمال میکنیم، کامپیوتر از دادهها یاد میگیره. بعداً میتونیم دادههای جدید (اطلاعات یه متقاضی جدید) رو وارد کنیم و چیزی که کامپیوتر یاد گرفته روی دادههای جدید اعمال میشه.
ممکنه بعداً یه برنامه ساده بسازیم که بلافاصله ارزیابی کنه آیا یه نفر بدهیش رو پرداخت میکنه یا نه بر اساس اطلاعاتش (سن، محدوده درآمد، محل سکونت و شغل). این یه مثال از استفاده از دادهها برای پیشبینی رفتار احتمالی فرد هستش.
امکانات
یادگیری از دادهها امکانات زیادی رو باز میکنه به ویژه در زمینه پیشبینیها و بهینهسازیها. این موضوع به لطف دسترسی به مجموعه دادههای بزرگ و قدرت پردازش بالای کامپیوترها به واقعیت تبدیل شده. الان میتونیم دادهها رو در حد گیگابایت در عرض یک روز با استفاده از کامپیوترها یا قابلیتهای ابری پردازش کنیم.
اگرچه الگوریتمهای علم داده و یادگیری ماشین هنوز کامل نیستن، اما در خیلی از کاربردها مفید هستن مثل تشخیص تصویر، توصیه محصولات، رتبهبندی موتورهای جستجو و تشخیص پزشکی. و تا این لحظه، دانشمندان و مهندسین در سراسر جهان به بهبود دقت و عملکرد ابزارها، مدلها و تحلیلهاشون ادامه میدن.