معرفی حوزه Data Science یا علوم داده

 

معرفی حوزۀ علم داده (Data Science)

هم‌زمان با تولید کلان‌داده‌ها، نیاز به ذخیره‌سازی آنها نیز افزایش یافت. تا آنجا که چالش و نگرانی اصلی صنایع سازمانی تا سال 2010م موضوع ذخیره‌سازی بود و تمرکز اصلی بر ایجاد چهارچوب‌های نرم‌افزاری (Framework) و راه‌حل‌هایی مناسب برای این کار. اکنون با وجود چهارچوب‌های نرم‌افزاری قوی، مانند Hadoop، مشکل ذخیره‌سازی با موفقیت حل شده است و تمرکز بر پردازش داده‌ها ‌است.
علم داده یکی از آینده‌دارترین مسیرهای شغلی متخصصان ماهر است. بنابراین متقاضیان زیادی هم دارد. امروزه، متخصصان داده می‌دانند که باید برای تجزیه و تحلیل داده‌های حجیم، کار با داده‌های بزرگ و داده کاوی در مهارت‌های سنتی خود تجدید نظر کنند و مهارتهای متنوعی جدیدی از برنامه نویسی تا یادگیری ماشین برای خود ایجاد کنند. دانشمندان داده برای کشف هوش مفید برای سازمان‌‌های خود باید چرخۀ کامل حیات علم داده تسلط داشته باشند. امروزه، تقریباً هر استفاده‌ای از دستگاه‌های فناوری منجر به جابه‌جایی یا تولید داده می‌شود، مانند خرید کردن از سایت‌های فروش آنلاین، مطالعه پست‌ها در شبکه‌های اجتماعی، دیدن فیلم در سرویس‌هایی مثل نت‌فیلیکس (Netflix) و حتی قابلیت تشخیص چهره که برای ورود به تلفن‌های خود از آن استفاده می‌کنیم. همین مثال‌ها به‌خوبی نشان می‌دهد که آیندۀ هوش مصنوعی به علم داده گره خورده است.

 

علم داده (Data Science) چیست؟

به زبان ساده، علم داده استخراج اطلاعات معنادار و الگوهای پنهان از داده‌های خام است. مطالعه‌ای پیشرو، در سال 2013م، نشان داد که 90% از کل داده‌های جهان طی دو سال گذشته ایجاد شده‌اند، یعنی فقط در مدت دو سال انسان‌ها 9 برابر اطلاعات جمع‌آوری‌‌شده از کل تاریخ بشریت داده جمع‌آوری و پردازش کرده‌اند و در طی زمان هم از سرعت تولید داده کم نمی‌شود. پیش‌بینی می‌شود که انسان‌ها در سال 2022م، 94 زتابایت داده تولیدکنند. ما با همۀ این داده‌ها چه می‌کنیم؟ چگونه از آنها استفادۀ مفید می‌کنیم؟ این داده‌ها به چه کار ما می‌آیند؟ اینها سوالاتی هستند که در حوزۀ علم داده مطرح می‌شوند.
این رشته به‌سرعت رشد می‌کند و در بسیاری از صنایع انقلاب ایجاد کرده است. محدود کردن قابلیت‌های آن به یک تعریف خشک و رسمی دشوار است، اما به‌طورکلی می‌توان گفت علم داده استخراج اطلاعات معنادار از داده‌های خام برای تدوین نگرشی عملی است و داده‌های دیجیتال، که به «نفت قرن بیست‌ویکم» معروف است، بیشترین اهمیت را در این زمینه دارند.
علم داده مزایای بی‌شماری در امور تجاری، پژوهشی و زندگی روزمره ما دارد. انتخاب مسیر برای رفتن به سر کار، جست‌وجو کردن در گوگل برای یافتن نزدیک‌ترین کافی‌شاپ، پست اینستاگرام ما دربارۀ آنچه خورده‌ایم و حتی داده‌هایی که در ردیاب‌های تناسب اندام ثبت می‌شوند، برای دانشمندان داده مهم هستند. غربال کردن این دریای پهناور داده و جست‌وجوی اتصالات و الگوها در آن وظیفۀ علم داده است.
به عبارت دقیق‌تر علم داده ترکیبی از ابزارهای مختلف، الگوریتم‌ها و اصول یادگیری ماشین است با هدف کشف الگوهای پنهان در داده‌های خام. این الگوریتم‌ها از طریق برنامه‌‌های رایانه‌ای که معمولاً به سخت‌افزارهای قدرتمندی نیاز دارند، اجرا می‌شوند، زیرا به پردازش فراوانی نیاز دارند. علم داده ترکیبی از ریاضیات آماری، یادگیری ماشین، تجزیه و تحلیل و تجسم داده‌ها، دانش دامنه و علوم کامپیوتر است.

 

تفاوت علم داده با علم آمار چیست؟

تفاوت این دو تفاوت توضیح دادن و پیش‌بینی کردن است. تحلیلگر داده (Data Scientist) معمولاً با پردازش تاریخچه‌ای از داده‌ها، آنچه را دارد اتفاق می‌افتد توضیح می‌دهد. علاوه‌براین با تجزیه و تحلیل به کشف ارتباط بین داده‌ها می‌پردازد و با استفاده از الگوریتم‌های مختلف و پیشرفتۀ یادگیری ماشین، وقوع رویدادی مشخص را در آینده پیش‌بینی می‌کند، اما علم آمار آنچه را اتفاق افتاده است توضیح می‌دهد.

 

علم داده چگونه کار می‌کند؟

علم داده شامل انبوهی از رشته ها و زمینه‌های تخصصی برای ایجاد یک نگاه جامع، دقیق و تصفیه‌شده در داده‌های خام است. دانشمندان داده باید در همه چیز، از مهندسی داده‌ها گرفته تا ریاضیات و آمار و محاسبات پیشرفته و تجسم مهارت داشته باشند تا بتوانند به‌طور موثر توده‌های اطلاعاتی درهم را الک كنند و فقط مهم‌ترین بیت‌ها را جدا کنند.
دانشمندان داده برای ایجاد مدل‌ها و پیش‌بینی با استفاده از الگوریتم‌ها و سایر تکنیک‌ها، بسیار به هوش مصنوعی، به‌ویژه زیرشاخه‌های یادگیری ماشین و یادگیری عمیق آن، تکیه می‌کنند. بنابر آنچه گفته شد، از علم داده برای تصمیم‌گیری و پیش‌بینی استفاده می‌شود و این کار با استفاده از تجزیه و تحلیل تجویزی (علم پیش‌بینی به‌علاوّ تصمیم‌گیری) و یادگیری ماشین انجام می‌شود. بنابراین ابزارهای علم داده عبارتند از:

 

  • تجزیه و تحلیل عملی پیش‌بینی (Predictive Causal Analytics)

اگر به مدلی احتیاج دارید که بتواند احتمالات وقوع یک رویداد خاص را در آینده پیش‌بینی کند، باید از تحلیل‌های علمی پیش‌بینی استفاده کنید. برای مثال اگر پول خود را به‌صورت اعتباری تأمین می‌کنید، پس احتمال اینکه مشتریان به موقع پرداخت‌های اعتباری خود را انجام ندهند، شما را نگران می‌کند. در اینجا، شما می‌توانید مدلی بسازید که بتواند تجزیه و تحلیل پیش‌بینی‌کنندۀ تاریخ پرداخت مشتری را انجام دهد تا پیش‌بینی کند که آیا پرداخت‌های آتی به‌موقع انجام می‌شود یا خیر.

 

  • تجزیه و تحلیل تجویزی (Prescriptive Analytics)


این رشتۀ نسبتاً جدید مختص به ارائۀ مشاوره است، زیرا علاوه‌بر پیش‌بینی اقدامات تجویزشده، نتایج مرتبط با آن را نیز پیش‌بینی کرده و پیشنهاد می‌کند.

 

  • یادگیری ماشینی برای پیش‌بینی


فرض کنید داده‌های معاملاتی یک شرکت مالی را در اختیار دارید و باید مدلی برای تعیین روند آیندۀ آن بسازید. برای این کار الگوریتم‌های یادگیری ماشین بهترین گزینه هستند. این امر تحت «الگوی یادگیری نظارت‌شده» (Supervised Learning) قرار می‌گیرد. «نظارت‌شده» نامیده می‌شود، چراکه شما قبلاً داده‌هایی دارید که بر اساس آن می‌توانید ماشین‌های خود را آموزش دهید. به عنوان مثال، یک مدل کشف تقلب می‌تواند با استفاده از سوابق تاریخی خریدهای تقلبی آموزش ببیند.

 

  • یادگیری ماشین برای کشف الگو


اگر شاخص‌هایی در دست ندارید که بتوانید براساس آنها پیش‌بینی کنید، باید الگوهای پنهان را در مجموعۀ داده پیدا کنید تا بتوانید پیش‌بینی‌های معناداری بکنید. این امر «مدل‌سازی بدون نظارت» است، زیرا هیچ برچسب ازپیش‌تعیین‌شده‌ای برای گروه‌بندی ندارید. در این شرایط متداول‌ترین الگوریتم برای کشف الگو «خوشه‌بندی» است.
بنابر آنچه گفته شد، تجزیه و تحلیل داده‌ها (Data Analytics) شامل تحلیل توصیفی و تا حدی پیش‌بینی است، اما علم داده (Data Science) بیشتر دربارۀ تجزیه و تحلیل علی پیش‌بینی و یادگیری ماشین است.

 

چرا علم داده؟

در گذشته، داده‌هایی که در دست داشتیم بیشتر ساختار و اندازۀ کوچک داشتند و به‌راحتی با استفاده از ابزارهای BI می‌شد آنها را تحلیل کرد. برخلاف گذشته، داده‌های امروزی بدون ساختار یا نیمه‌ساختاری هستند. این داده‌ها از منابع مختلف، مانند لاگ‌های مربوط به پرونده‌های مالی، پرونده‌های متنی، فرم‌های چندرسانه‌ای، حسگرها و ابزارها، تولید می‌شوند و ابزارهای سادۀ BI نمی‌توانند این حجم عظیم و متنوع داده را پردازش کنند. برای همین است که برای پردازش، تجزیه و تحلیل و ترسیم نگرش معنادار از آن، به ابزارها و الگوریتم‌های تحلیلی پیچیده و پیشرفته‌تری نیاز داریم.

از علم داده درحوزه‌ها و زمینه‌های متنوعی می‌شود استفاده کرد. برای مثال در زمنیۀ فروش به این مثال دقت کنید: فروشنده در گذشته هم اطلاعاتی مانند سابقۀ مرور گذشتۀ مشتری، سابقۀ خریدش، سن و درآمدش، نیازهای دقیق مشتریان خود را داشت، اما اکنون می‌تواند با استفاده از علم داده مدلی طراحی کند تا با استفاده از آن محصولش را با دقت بیشتری به هر مشتری عرضه کند. این امر تجارت و خریدوفروش را متحول می‌کند.

مثال دیگر خودرو هوشمندی است که می‌تواند مسیریابی کند. اتومبیل‌های خودران داده‌های زنده حسگرها، ازجمله رادارها، دوربین‌ها و لیزرها، را برای برنامه‌ریزی طی مسیر از محیط اطراف خود جمع می‌کنند و براساس این داده‌ها، تصمیماتی مانند زمان افزایش سرعت، کاهش سرعت، زمان سبقت، مکان نوبت‌گیری اتخاذ می‌شود، یعنی استفاده از الگوریتم‌های پیشرفته یادگیری ماشین.

مثال دیگر پیش‌بینی وضعیت هواست. با استفاده‌ از مدل‌های مبتنی بر علم داده می‌توان داده‌های کشتی‌ها، هواپیماها، رادارها، و ماهواره ها را جمع‌آوری کرد و آنها را برای ساخت مدل تجزیه و تحلیل کرد. این مدل‌ها هم وضعیت آب‌وهوا را پیش‌بینی می‌کنند و هم به پیش‌بینی کردن وقوع بلایای طبیعی کمک می‌کنند. این پیش‌بینی سبب می‌شود که قبل از فاجعه اقدامات پیش‌گیرانه انجام شود و جان گرانبهای افرد حفظ شود.

 

دانشمند داده کیست؟

به بیان ساده، دانشمند داده کسی است که هنر علم داده را تمرین می‌کند. عنوان دانشمند داده (Data Scientist) پس از در نظر گرفتن این واقعیت که او اطلاعات زیادی را از زمینه‌ها و برنامه‌های علمی اعم از آماری یا ریاضیات به دست می‌آورد، ابداع شده است.

 

مزایای علم داده:

حوزه علوم داده گسترده است و محدودیت‌ها و مزایای خاص خود را دارد. در اینجا به بررسی بعضی از این مزایا و محدودیت‌ها می‌پردازیم:

 

  • بازار کار پررونق

این روزها بازار کار دانشمند داده بسیار پررونق است و متقاضیان کار در این حوزه احتمالاً فرصت های بی‌شماری دارند. این شغل سریع‌ترین رشد را در لینکدین (LinkedIn) داشته و پیش‌بینی می‌شود تا سال 2026م یازده‌ونیم میلیون شغل در این حوزه ایجاد شود.

دانشمند داده می‌تواند در حوزه‌های متعدی کار کند، ازجمله صنایع بهداشتی، بانکی، خدمات مشاوره‌ای و تجارت الکترونیکی و... . بنابراین برای او فرصت کار در زمینه‌های مختلف فراهم است.

  • فراوانی موقعیت‌های شغلی

درست است که بازار کار این حوزه پررونق است، تعداد بسیار کمی از افراد هستند که مجموعۀ مهارت‌های لازم برای تبدیل شدن به دانشمند داده (Data Scientist) را کامل داشته باشند. این امر سبب می‌شود موقعیت شغلی دانشمند داده نسبت به سایر بخش‌های فناوری اطلاعات کمتر اشباع شده باشد.

  • درآمد بالا

کار به‌عنوان دانشمند داده بسیار درآمد خوبی دارد. بنا بر ادعای Glassdoor، دانشمندان داده به‌طور متوسط سالانه صد تا صدوشانزده‌هزار دلار درآمد کسب می‌کنند.

  • ارزش و اعتبار شغلی

شرکت‌ها برای پردازش و تحلیل داده‌های خود به دانشمندان ماهر داده احتیاج دارند. دانشمندان داده علاوه‌بر تجزیه و تحلیل داده‌ها، کیفیتشان را نیز بهبود می‌بخشند. بنابراین دانشمندان داده اطلاعات و داده‌های شرکت‌ها را غنی‌تر و مفیدتر می‌کنند. از طرف دیگر، دانشمندان داده به شرکت‌ها کمک می‌کنند تا تصمیمات تجاری دقیق‌تری بگیرند. شرکت‌ها به دانشمندان داده اعتماد می‌کنند و از تخصص آنها برای ارائۀ نتایج بهتر به مشتریان خود استفاده می‌کنند. بنابراین دانشمندان داده موقعیت ممتاز و معتبری در سازمان خود دارند.

  • پایان کارهای خسته‌کننده

علم داده به صنایع مختلف کمک کرده‌ است تا وظایف اضافی خود را خودکار کنند. شرکت‌ها از داده‌های پیشین برای آموزش ماشین‌آلات استفاده می‌کنند تا کارهای تکراری خودکار انجام شود. این کار مشاغل طاقت‌فرسایی را که بر عهدۀ انسان بوده است حذف می‌کند.

  • هوشمندسازی محصولات

علم داده با یادگیری ماشین مرتبط است. بنابراین امکان تولید محصول بهتر و متناسب‌تر با مشتری را ممکن می‌کند. سیستم‌های توصیه کننده که توسط وب‌سایت‌های تجارت الکترونیکی استفاده می‌شوند نمونه‌ای از هوشمندسازی محصولات است. در اینجا کامپیوترها را قادر به درک رفتار انسان و تصمیم‌گیری مبتنی بر داده هستند و براساس خریدهای گذشته، نگرش مشتری به خرید را به کاربران ارائه می‌کنند.

  • نجات‌بخشی علم داده

علم داده در بهبود وضعیت بهداشت بسیار موثر بوده است. با ظهور یادگیری ماشین، تشخیص تومورهای مرحلۀ اولیه آسان‌تر شد و نیز ارائۀ خدمات و محصولات بهداشتی به مشتریان با استفاده از علم داده آسان‌تر و دقیق‌تر گشت.

  • رشد شخصیتی

علم داده در رشد شخصیتی افراد موثر است و به آنها نگرش حل مسئله می‌بخشد. علم داده به هر دو حوزۀ فناوری اطلاعات و مدیریت مربوط است و دانشمند داده می‌تواند از توانایی‌های هر دو حوزه بهره‌مند شود. داشته باشید.

 

معایب علم داده:

در کنار همۀ مزایایی که برشمردیم، علم داده معایبی نیز دارد. برای اینکه تصویر دقیق‌تری از این حوزه داشته باشیم، باید به هر دو جنبۀ مثبت و منفی آگاه باشیم.

 

  • مبهم بودن مفهوم علم داده

اصطلاح علم داده بسیار کلی است و با اینکه به کلیدواژه بدل شده است تعریف مشخصی ندارد. نقش هر دانشمند داده‌ای هم به زمینۀ شرکتی مربوط است که در آن کار می‌کند. در‌حالی‌که برخی افراد علم داده را چهارمین الگوی علوم توصیف کرده‌اند، تعداد کمی از منتقدان آن را صرفاً تغییر نام تجاری آمار خوانده‌اند.

 

  • تسلط‌ ناپذیر بودن علم داده و گستردگی دانش مورد نیازش

همان‌طور که گفته شد علم داده آمیزه‌ایست از علوم مختلف مانند کامپیوتر و ریاضیات و آمار و... و تسلط و مهارت داشتن در همۀ این علوم ممکن نیست. شخصی که سابقه فعالیت در آمار را دارد ممکن است نتواند در مدت کوتاهی بر علوم کامپیوتر تسلط یابد تا به یک دانشمند دادۀ متبحر تبدیل شود. بنابراین علم داده یک زمینۀ پویا و در حال تغییر است که فرد را ملزم می‌کند به یادگیری در زمینه‌ها متفاوت ادامه دهد و دانش خود را به‌روز نگه دارد.
از طرف دیگر، علم داده به زمینه‌ای که با آن کار می‌کند وابسته است. برای مثال صنعت مراقبت‌های بهداشتی که در زمینۀ تجزیه و تحلیل توالی‌های ژنومی کار می‌کند، به دانشمند داده‌ای نیاز دارد که دانش ژنتیک و زیست‌شناسی مولکولی نیز داشته باشد، زیرا می‌تواند برای کمک به شرکت تصمیمات حساب‌شده‌تری بگیرد. در چنین شرایطی دانشمند داده‌ای که دانش آماری و کامپیوتری درخشانی داشته باشد یه‌سختی می‌تواند خود را با یازهای شرکت منطبق کند. این امر مهاجرت از یک صنعت به صنعت دیگر را نیز برای دانشمند داده دشوار می‌کند.

 

  • مشکل حریم خصوصی داده ها

در بسیاری از صنایع داده‌ها مانند سوخت هستند. دانشمندان داده به شرکت‌ها در تصمیم‌گیری‌های داده‌محور کمک می‌کنند. بااین‌حال استفاده زا داده‌ها در فرآیند پردازش داده ممکن است حریم خصوصی مشتریان را نقض کند. داده‌های شخصی مشتریان برای شرکت مادر قابل مشاهده است و ممکن است در برخی مواقع به دلیل از بین رفتن امنیت نشت اطلاعاتی صورت گیرد. موضوعات اخلاقی مربوط به حفظ حریم خصوصی داده‌ها و استفاده از آنها هواره برای صنایع نگران‌کننده بوده است.

 

نتیجه ‌گیری:
حال اگر دوست دارید این حوزه را بیاموزید حوزه ای که هم اکنون شغل های برتر دنیا را شامل می شود و در آن ماهر شوید، می‌توانید از دوره‌های متنوع آنیسا شروع کنید. دوره‌های علم داده در حوزۀ برنامه‌نویسی، ذخیره‌سازی، کاوش و تحلیل داده ارائه می‌شوند. دوره‌های Elk Stack و Machine Learning و Deep Learning و Python for Data Science از پرطرفدارترین دوره‌های مرتبط در این حوزه هستند.

EN / FA

فناوران آنیسا - خانه لینوکس ایران

تهران، میدان آرژانتین، خ وزرا، کوچه هشتم، یحیوی، پلاک ۴

 اطلاعات تماس:

  • 021-88716168
  • 021-88712172
  • 0910-8555111

info @ anisa.co.ir

© فناوران آنیسا - خانه لینوکس ایران | تمامی حقوق این سایت تحت مجوز GFDL برای فناوران آنیسا محفوظ است.
design by www.digitaldesign.ir