وبلاگ

تخصص های علم داده

تخصص های علم داده
علم داده هوش مصنوعی

تخصص های علم داده

در مقاله ی قبلی ما در مورد اینکه علم داده چیست ؟ و همچنین مهارت هایی که برای ایجاد علم داده مورد نیاز است صحبت کردیم . در این قسمت از مقاله قصد داریم درمورد انواع مختلفی از تخصص های علم داده که مورد نیاز است، بحث کنیم پس با ما همراه باشید.

1 – ریاضیات/آمار

در سطح پایه، دانش ریاضی و آمار از تخصص های علم داده و سواد دانشمند داده است. ما این سواد را به سه سطح دانش تقسیم می کنیم.اگر یک دانشمند داده تلاش می کرد مشتریان مشابه را گروه بندی کند، دانستن اینکه روش های آماری (به نام خوشه بندی) می توانند این کار را انجام دهند، اولین قدم خواهد بود.

نحوه به کارگیری تکنیک ها :

اگرچه یک دانشمند داده ممکن است در مورد بسیاری ازتخصص های علم داده را بداند، آنها همچنین باید بتوانند پیچیدگی های به کارگیری آنها را درک کنند. علاوه بر این نحوه نوشتن کد برای اعمال روش ها، و همچنین نحوه پیکربندی آنها را باید بدانند. اگر دانشمند داده بخواهد از روشی مانند خوشه بندی k-means برای گروه بندی مشتریان استفاده کند، باید بداند که چگونه خوشه بندی k-means را در یک زبان برنامه نویسی مانند R یا Python انجام دهد. آنها همچنین باید بدانند که چگونه پارامترها را تنظیم کنند، به عنوان مثال، با انتخاب تعداد گروه هایی که باید ایجاد کنند.

نحوه انتخاب تکنیک هایی که باید امتحان شوند:

از آنجایی که بسیاری از تکنیک های ممکن را می توان در علم داده استفاده کرد، برای دانشمند داده مهم است که بتواند به سرعت ارزیابی کند که آیا یک تکنیک خوب کار می کند یا خیر. در مثال گروهبندی مشتریان ما، حتی پس از تمرکز دانشمند داده بر خوشه بندی، آنها باید دهها روش و الگوریتم مختلف را در نظر بگیرند. به جای
امتحان کردن هر روش، آنها باید بتوانند به سرعت روش ها را کنار بگذارند و فقط روی چند روش تمرکز کنند.

این نوع تخصص های علم داده به طور مداوم در نقش علم داده مورد استفاده قرار می گیرند.

برای در نظر گرفتن یک مثال متفاوت:

فرض کنید در یک شرکت تجارت الکترونیک کار می کنید. شریک تجاری شما ممکن است علاقه مند باشد که کدام کشورها بالاترین میانگین ارزش سفارش را دارند. اگر داده های موجود را دارید، پاسخ به این سوال آسان است. اما به جای ارائه این اطلاعات و اجازه دادن به مشتری خود نتیجه گیری خود را، می توانید عمیق تر کاوش کنید. اگر یک سفارش از کشور A به قیمت 100 دلار، و هزار سفارش از کشور B با میانگین 75 دلار دارید، درست است که کشور A دارای میانگین ارزش سفارش بالاتر است.

اما آیا مطمئن هستید که بگویید این بدان معناست که شریک تجاری شما باید برای افزایش تعداد سفارشات، قطعاً در تبلیغات در کشور A سرمایه گذاری کند؟ احتمالا نه. شما فقط یک نقطه داده برای کشور A دارید و شاید یک نقطه پرت باشد. اگر کشور A به جای آن 500 سفارش داشت، ممکن است از یک آزمون آماری استفاده کنید تا ببینید آیا مقدار سفارش به طور قابل توجهی متفاوت است یا خیر، به این معنی که اگر واقعاً تفاوتی بین A و B در این اندازه وجود نداشت، بعید است که تفاوت را مشاهده کنید. در این مثال طولانی یک پاراگراف، ارزیابیهای مختلف زیادی در مورد اینکه چه رویکردهایی معقول هستند، چه چیزی باید در نظر گرفته شود و چه نتایجی بی اهمیت تلقی میشوند، انجام شد.

علم داده

2 – پایگاه های داده / برنامه نویسی

یکی دیگر از تخصص های علم داده  مبحث برنامه نویسی می باشد. برنامه نویسی و پایگاه های داده به توانایی استخراج داده ها از پایگاه های داده شرکت و نوشتن کدهای تمیز، کارآمد و قابل نگهداری اشاره دارد. این مهارتها از بسیاری جهات شبیه به آن چیزی است که یک توسعه دهنده نرم افزار باید بداند. با این تفاوت که دانشمندان داده باید کدی بنویسند که تجزیه و تحلیل پایان باز انجام دهد تا خروجی از پیش تعریف شده تولید کند. Data stack های هر شرکت منحصر به فرد است، بنابراین هیچ مجموعه ای از مهارت های فنی برای یک دانشمند داده لازم نیست. اما به طور کلی، شما باید بدانید که چگونه داده ها را از یک پایگاه داده دریافت کنید و چگونه داده ها را تمیز، manipulate ، خلاصه یا summarize ، بصر سازی و به اشتراک گذاری کنید.

در اکثر مشاغل علم داده، R یا Python زبان اصلی است. R یک زبان برنامه نویسی است که ریشه در آمار دارد.  بنابراین به طور کلی برای تجزیه و تحلیل آماری و مدلسازی، تجسم و تولید گزارش های همراه با نتایج قویترین است. پایتون یک زبان برنامه نویسی است که به عنوان یک زبان عمومی توسعه نرم افزار شروع شد و در علم داده بسیار محبوب شده است. پایتون به دلیل عملکرد بهتر از R در کار با مجموعه داده های بزرگ، انجام یادگیری ماشین و تقویت الگوریتمهای بلادرنگ (مانند سیستم های توصیه آمازون) شناخته شده است. اما به لطف کار بسیاری از مشارکت کنندگان، قابلیتهای دو زبان اکنون تقریباً برابر است. دانشمندان داده با موفقیت از R برای ساخت مدلهای یادگیری ماشین استفاده میکنند که میلیونها بار در هفته اجرا میشوند، و همچنین در حال
انجام تحلیل های آماری تمیز و قابل ارائه در پایتون هستند.

دلایل محبوبیت R و Python در علم داده:

آنها رایگان و open source هستند، به این معنی که افراد زیادی، نه فقط یک شرکت یا یک گروه، کدهایی را ارائه می دهند که می توانید از آنها استفاده کنید. آنها پکیج ها یا کتابخانه های زیادی )مجموعه کد( برای انجام جمع آوری داده ها، manipulate ، تجسم، تجزیه و تحلیل آماری و یادگیری ماشین دارند.

نکته مهم اینکه ، از آنجایی که هر زبان طرفداران زیادی دارد، برای دانشمندان داده به راحتی میتوان در صورت مواجهه با مشکل کمکی پیدا کرد. اگرچه برخی از شرکتها هنوز از SAS ، SPSS ، STATA ، MATLAB یا سایر برنامه های پولی استفاده میکنند، اما بسیاری از آنها شروع به حرکت به سمت R یا Python کرده اند.

اگرچه بیشتر تجزیه و تحلیل علم داده در R یا Python انجام می شود، شما اغلب برای دریافت داده ها باید با یک پایگاه داده کار کنید. این همان جایی است که زبان SQL وارد می شود. SQL زبان برنامه نویسی است که اکثر پایگاه های داده برای دستکاری داده های درون خود یا استخراج آن ها از آن استفاده می کنند. یک دانشمند داده را در نظر بگیرید که می خواهد صدها میلیون رکورد سفارشات مشتری در یک شرکت را تجزیه و تحلیل کند تا پیش بینی کند که سفارشات در روز در طول زمان چگونه تغییر می کند.

مهارت کنترل نسخه یا ورژن کنترل :

روشی برای پیگیری نحوه تغییر کد در طول زمان. کنترل نسخه به شما امکان می دهد فایل های خود را ذخیره کنید. آنها را به زمان قبلی برگردانید. و ببینید چه کسی چه فایلی، چگونه و چه زمانی تغییر داده است. این مهارت برای علم داده و مهندسی نرم افزار بسیار مهم است. زیرا اگر شخصی به طور تصادفی فایلی را تغییر دهد که کد شما را خراب کند، می خواهید توانایی بازگرداندن یا مشاهده آنچه تغییر کرده است را داشته باشید. Git متداولترین سیستمی است که برای کنترل نسخه استفاده میشود و اغلب همراه با GitHub ، یک سرویس میزبانی وب برای
Git استفاده میشود. گیت به شما امکان می دهد تغییرات خود را ذخیره کنید و همچنین کل تاریخچه پروژه و نحوه تغییر آن با هر commit را مشاهده کنید. اگر دو نفر به طور جداگانه روی یک فایل کار میکنند، Git مطمئن میشود که کار هیچکس به طور تصادفی حذف یا بازنویسی نشده است. در بسیاری از شرکتها، به ویژه آنهایی که تیم های مهندسی قوی دارند، اگر میخواهید کد خود را به اشتراک بگذارید یا چیزی را تولید کنید، باید از Git استفاده کنید.

آیا می توانید بدون برنامه نویسی دانشمند داده باشید؟

تنها با استفاده از Excel ، PowerBI  یا سایر ابزارهای هوش تجاری که دارای رابط گرافیکی هستند، می توان بسیاری از کارهای داده را انجام داد. اگرچه شما کد نمی نویسید، اما این ابزارها ادعا می کنند که عملکردی مشابه زبان هایی مانند R یا Python دارند. همچنین بسیاری از دانشمندان داده گاهی از آنها استفاده می کنند. اما آیا آنها می توانند یک ابزار کامل علم داده باشند؟ ما می گوییم نه. در عمل، تعداد بسیار کمی از شرکتها تیم علمی دادهای دارند که در آن نیازی به برنامه نویسی ندارید. اما حتی اگر اینطور نبود، برنامه نویسی نسبت به استفاده از این ابزارها مزایایی دارد.

اولین مزیت برنامه نویسی تکرارپذیری است. هنگامی که به جای استفاده از نرم افزار نقطه و کلیک، کد می نویسید، می توانید هر زمان که داده های شما تغییر می کند. آن را دوباره اجرا کنید، چه هر روز یا در شش ماه. این مزیت به کنترل نسخه نیز مربوط می شود. به جای تغییر نام فایل خود هر بار که کد شما تغییر می کند، می توانید یک فایل را نگه دارید اما کل تاریخچه آن را ببینید.

مزیت دوم انعطاف پذیری است. برای مثال، اگر Tableau یک نوع نمودار در دسترس نداشته باشد، نمیتوانید آن را ایجاد کنید. اما با برنامه نویسی، می توانید کد خود را بنویسید تا چیزی بسازید که سازندگان و نگهبانان یک ابزار هرگز به آن فکر نکرده بودند.

سومین و آخرین مزیت زبان های open source مانند پایتون و R، مشارکت جامعه است. هزاران نفر پکیچ ها را ایجاد میکنند و آنها را آشکارا در GitHub و/یا CRAN (برای R) و pip (برای Python ) منتشر می کنند. می توانید این کد را دانلود کرده و برای مشکلات خود از آن استفاده کنید. برای افزودن ویژگیها به یک شرکت یا گروهی از افراد وابسته نیستید.

۳ – درک کسب و کار

کسب و کارها، درک متفاوتی از نحوه عملکرد علم داده دارند. اغلب، مدیریت فقط می خواهد کاری انجام شود و به تک شاخ های علم داده خود روی می آورد تا آن چیز را محقق کند. یک مهارت اصلی در علم داده این است که بدانید چگونه یک موقعیت تجاری را به یک سوال داده ترجمه کنید، پاسخ داده را پیدا کنید و در نهایت پاسخ کسب و کار را ارائه دهید. یک تاجر ممکن است بپرسد، چرا مشتریان ما را ترک میکنند ؟ اما هیچ پکیچ پایتون ندارد که بتوانید آن را وارد کنید – این به شما بستگی دارد که چگونه با دادهها به این سؤال پاسخ دهید

درک کسب و کار جایی است که ایده آل های علم داده شما با واقعیت های دنیای واقعی مطابقت میکنند.

این کافی نیست که یک بخش خاص از اطلاعات را بدون دانستن اینکه چگونه داده ها در شرکت خاص شما ذخیره و به روز می شوند، بخواهید. اگر شرکت شما یک سرویس اشتراک است، داده ها در کجا وجود دارند ؟ اگر شخصی اشتراک خود را تغییر دهد، چه اتفاقی میافتد؟ آیا ردیف آن مشترک به روز می شود یا ردیف دیگری به جدول اضافه می شود؟ اگر پاسخ این سؤالات را نمیدانید، نمیتوانید به سؤال اساسی مانند ” در ۲ مارس ۲۰۱۹ چه اتفاقی افتاد؟” پاسخ دهید.

درک کسب و کار همچنین به شما کمک می کند. تا بدانید چه سوالاتی باید بپرسید. بخش دیگری از درک کسب و کار، توسعه مهارت های تجاری عمومی است، مانند اینکه بتوانید ارائه ها و گزارش های خود را برای
مخاطبان مختلف تنظیم کنید. در نهایت، با افزایش سن، بخشی از کار شما این است که شناسایی کنید.  کسب و کار کجا می تواند از علم داده بهره مند شود. اگر میخواهید یک سیستم پیشبینی برای شرکت خود بسازید، اما هرگز پشتیبانی مدیریتی نداشتهاید، عضویت در تیم مدیریت میتواند به حل این مشکل کمک کند.

دیدگاه خود را اینجا قرار دهید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

فیلدهای نمایش داده شده را انتخاب کنید. دیگران مخفی خواهند شد. برای تنظیم مجدد سفارش ، بکشید و رها کنید.
  • عکس
  • شناسه محصول
  • امتیاز
  • قیمت
  • در انبار
  • موجودی
  • افزودن به سبد خرید
  • توضیحات
  • محتوا
  • عرض
  • اندازه
  • تنظیمات بیشتر
  • نویسنده
  • قسمت
  • زبان
Click outside to hide the comparison bar
مقایسه