مسئولیتهای یک مهندس داده ثابت نیست و به شرکتی که متخصص داده در آن مشغول به کار میشود، بستگی دارد. با اینحال، مهندسان داده برای انجام وظایف روزانه مجبور به یادگیری برخی مهارتهای مشترک هستند. فارغ از مهارتهای استانداردی که یک مهندس داده باید داشته باشد، انتظار میرود در آینده مهندسان داده دو مهارت توانایی کار با فناوریهای ابری و محصولات SaaS را داشته باشند و زمان کمتری را برای کدنویسی و زمان بیشتری را صرف نظارت کنند. اکنون اجازه دهید این مهارتها را با جزئیات بیشتری بررسی کنیم.
در دنیای مهندسی داده، ماکسیم بوشمین (Maxime Beauchemin) چهرهای شناخته شده است. یکی از اولین مهندسان داده در فیسبوک و ایربیانبی است که ابزار بسیار محبوب Apache Airflow را نوشت، آنرا منبعباز کرد و مدت کوتاهی پس از آن Apache Superset را توسعه داد؛ ابزاری که توانست با کاوش دقیق در دادهها، تحولی بزرگ در اکوسیستم گردآوری و تحلیل دادهها بهوجود آورد. در حال حاضر، بوشمین مدیرعامل و یکی از بنیانگذاران Preset است؛ استارتآپی که حوزه کاری آن مصورسازی دادههایی است که الگوریتمهای یادگیری ماشین قادر به استفاده از آن هستند.
بوشمین از تاثیرگذارترین چهرههای دنیای مهندسی داده در یک دهه گذشته است. او از طریق پستی که در وبلاگ شخصی خود در سال 2017 تحت عنوان The Rise of the Data Engineer منتشر کرد، به شرکتها نشان داد که چرا مهندسی داده یکی از مهمترین مشاغل دنیای فناوری اطلاعات است. بوشمین بر این باور است که برای مقیاسبندی دقیق دادهها و تجزیهوتحلیلهای دقیق، تیمهای داده به یک مهندس داده خبره برای مدیریت ETL، ساخت خطوط انتقال دادهها و مقیاسبندی زیرساختهای داده نیاز خواهند داشت.
مهندس داده یکی از اعضای تیم داده است که عمدتا روی ساخت و بهینهسازی پلتفرمها برای دریافت، ذخیرهسازی، تجزیهوتحلیل، مصورسازی و استفاده موثر از دادهها متمرکز است.
پرسشی که تقریبا ذهن بسیاری از متخصصان شاغل در این زمینه را مشغول کرده این است که پنج سال آینده، رشته مهندسی داده در چه جایگاهی قرار دارد و متخصصان این حوزه چه کاری انجام خواهند داد. فرآیند تمرکززدایی به چه صورتی انجام میشود، ابر چه نقشی در این زمینه خواهد داشت و پرسشهای دیگری که ممکن است به ذهن بسیاری از متخصصان خطور کند. در این مقاله برخی از نقطه نظرات و پیشبینیهای آقای بوشمین را بررسی خواهیم کرد.
ابر نقش مهمی در تغییر وظایف مهندسان داده خواهد داشت
بوشمین به این نکته اشاره دارد که زمانی نه چندان دور، مهندسان داده مجبور بودند برای انجام کارهای مرتبط با Hive که یک انبار داده مقیاسپذیر و سریع است، وقت زیادی را صرف کنند. همچنین، وظیفه مدیریت عناصر مختلف خط انتقال داده بر عهده آنها بود. به بیان صریح، مهندسی داده، فرآیندی خستهکننده و وقتگیر بود که جذابیت چندان خاصی نداشت. او در این باره میگوید: «شما برای انجام وظایف ابتدایی یک پروژه باید مدت زمان زیادی را صرف میکردید که باعث فرسودگی شغلی میشد. بهطوری که گاهیاوقات باید 10 تا 12 ساعت کار میکردید تا یک وظیفه ابتدایی را به سرانجام برسانید». در سال 2021، مهندسان داده بهلطف قدرت محاسباتی BigQuery، Snowflake، Firebolt، Databricks و دیگر فناوریهای ذخیرهسازی ابری، توانستند کارهای بزرگ را خیلی سریع انجام دهند. این پیشرفت بهلطف فناوریهای ابرمحور، SaaS و پایگاه دادههای NoSQL به میزان قابل توجهی ساده شده است، اما این تمام ماجرا نیست.
بوشمین میگوید: «درست است که فضای ابری کارها را به میزان قابل توجهی ساده کرده است، اما باید مراقب هزینههای محاسباتی خود باشید و ممکن است آخر ماه متوجه شوید که موجودی کیف پولتان بهسرعت کم شده است، زیرا شما در استفاده از منابع هیچ محدودیتی ندارید و ممکن است بهدلیل استفاده بدون دلیل از فضای ذخیرهسازی یا توان پردازشی، بیش از نیاز هزینه کنید».
با توجه به اینکه مهندسان داده دیگر مسئولیت مدیریت توان پردازشی و فضای ذخیرهسازی را بر عهده ندارند، وظایف آنها از توسعه زیرساخت به رویکردهای مبتنی بر توسعه پشته داده یا نقشهای تخصصی تغییر پیدا خواهد کرد.
ما میتوانیم این تغییر را در ظهور مفهومی که «مهندسی قابلیت اطمینان دادهها» نامگذاری شده، مشاهده کنیم. در این حالت، مهندس داده مسئول مدیریت و نه ساخت زیرساخت داده و نظارت بر عملکرد سیستمهای مبتنی بر ابر است.
دستیابی به اجماع در مورد حاکمیت داده سختتر خواهد شد
تا همین چند سال قبل، ساختار تیمهای داده کاملا متمرکز بود و مهندسان داده و تحلیلگران متبحر در فناوری نقشی شبیه به کتابداران دادهها در شرکت را عهدهدار بودند. حاکمیت داده معنای چندان خاصی نداشت و مهندسان داده بدون مشکل دادهها را از منابع مختلف جمعآوری میکردند.
بوشمین میگوید: «امروزه با مفهومی که حاکمیت توزیعشده نام دارد و مورد توجه شرکتها قرار دارد، روبهرو هستیم. هر تیمی دامنه تحلیلی خود را دارد که متعلق به خود است و ساختار تیمها بهسمت غیرمتمرکز شدن تمایل دارند و اعضا تیم مثل دانشمندان داده، تنها دادههای خوب را طلب میکنند. ما پذیرفتهایم که اجماع در انجام کارها ضروری است، اما این امر لزوما قرار نیست فرآیند انجام همه کارها را سادهتر کند. واقعیت این است که انبارهای داده از بسیاری جهات آینه سازمان است. اگر مردم در مورد آنچه که انبار داده نامیده میشود یا تعریف سنجهها توافق نداشته باشند، این عدم اجماع ممکن است باعث بروز مشکلاتی شود».
بوشمین به این نکته اشاره دارد که دستیابی به اجماع کار سادهای نخواهد بود، بهویژه اگر دادهها قرار باشد به روشهای مختلف از منابع سازمانی بهدست آیند.
این مسئله باعث میشود با مشکل افزونگی و ناهماهنگی روبهرو شویم، مگر اینکه تیمها در مورد اینکه چه دادههایی خصوصی هستند یا بخشهای مختلف سازمان اطلاعات را در اختیار آنها قرار دهند، به توافق برسند.
در حال حاضر، تیمهای دادهمحور مسئول تمام دادههای شرکت هستند. به بیان دقیقتر، مالک دادههایی هستند که جمعآوری و استفاده میکنند. وقتی دادهها توسط گروههای مختلف بهاشتراک گذاشته میشوند و در مقیاس وسیعتری در معرض دید قرار میگیرند، باید با دقت بیشتری آماده شوند و واسطهای برنامهنویسی کاربردی (API) با وسواس بیشتری توسعه پیدا کنند.
مدیریت تغییر هنوز یک مشکل است، اما ابزارهای مناسب میتوانند راهگشا باشند
در سال 2017، زمانی که بوشمین اولین مقاله مهندسی داده خود را نوشت به این نکته اشاره کرد: «زمانی که ماهیت دادهها تغییر میکنند، تاثیر شگرفی بر عملکرد شرکت خواهند گذاشت. در چنین شرایطی، فقدان مدیریتی آیندهنگر، باعث بروز شکافهای فنی و فرهنگی خواهد شد».
هنگامی که کد منبع یا مجموعه دادهها تغییر پیدا کرده یا بهروزرسانی شوند، شاهد خرابیهایی در لایههای پاییندستی مثل داشبوردها، گزارشها و سایر محصولات دادهمحور خواهیم بود. مادامی که مشکلات در لایههای پایینی برطرف نشوند، در عمل هرگونه تحلیلی غیرمعتبر خواهد بود. این خرابی دادهها برای سازمانها هزینهبر خواهند بود و زمان زیادی باید صرف حل این مشکل شود.
اغلب اوقات، خرابیها بدون هیچ نشانه آشکاری از راه میرسند. در چنین شرایطی تیمهای مهندسی داده تلاش میکنند تا بفهمند چه مشکلی رخ داده، چه کسی تحت تاثیر قرار گرفته است و چگونه میتوانند آن را برطرف کنند. امروزه، تیمهای مهندسی داده بهطور فزایندهای بر دوآپس و بهترین شیوههای مهندسی نرمافزار تکیه میکنند تا ابزارها و فرهنگ سازمانی قویتری ایجاد کنند که تاکیدش بر دو معیار مهم ارتباطات موثر و قابلیت اطمینان دادهها است.
بوشمین میگوید: «مشاهدهپذیری دادهها به تیمهای مهندسی داده کمک میکند تا مشکلات را شناسایی و برطرف کنند و حتا اطلاعاتی در مورد تاثیرگذاری خرابیها بر افراد بهدست آورند. با این حال، مدیریت تغییر به همان اندازه که فنی است، فرهنگی هم بهشمار میرود. مدیریت تغییر به این معنا است که اعضا تیم باید بر فرآیندها، پلتفرم مرکزی دادهها و جریانهای کاری نظارت دقیقی اعمال کنند».
اگر هیچ تفاوتی بین دادههای خصوصی یا عمومی وجود نداشته باشد، بهسختی از این نکته مطلع میشوید که چه کسی از چه دادههایی استفاده میکند و اگر دادهها با مشکل روبهرو شوند، چه چیزی باعث آن شده است. تجزیهوتحلیل ماهیت دادهها و توجه به اصل حاکمیت دادهها یکی از عوامل موفقیت پروژههای دادهمحور در آینده بهشمار میرود.
زمانی که بوشمین در Airbnb بود، تصمیم گرفت Dataportal را برای نظاممند کردن دسترسی به دادهها و توانمندسازی همه کارکنان Airbnb برای کاوش، درک و اعتماد به دادهها، طراحی کند. در شرایطی که چنین ابزارهایی اعلام میدارند تغییر در دادهها بر چه کارمندان یا بخشهایی از یک سازمان تاثیرگذار هستند، اما کار چندان خاصی در مورد اعمال مدیریت بر دادهها انجام نمیدهند.
دادهها باید تغییرناپذیر باشند، در غیر این صورت همهچیز از کنترل خارج میشود
فرآیند طراحی ابزارهایی که قرار است عملیاتی را روی دادهها انجام دهند وامدار الگوهای مهندسی نرمافزار است که نقطه قوت این ابزارها بهشمار میرود. با اینحال، معیارهایی وجود دارند که روی کار با خطوط انتقال داده ETL تاثیرگذار هستند.
بوشمین میگوید: «اگر بخواهم نام یک ستون در پایگاه داده را تغییر دهیم، انجام این کار نسبتا سخت است، زیرا باید ETL خود را دوباره اجرا کنیم و محاورههای اسکیوال را ویرایش کنیم. هنگامی که خطوط انتقال داده و ساختارهای داده تغییر میکنند، بر عملکرد سیستم تاثیرگذار هستند. بهطور کلی، اعمال تغییرات دشوار هستند و گاهیاوقات خرابیهای پیشبینینشدهای را بههمراه میآورند. بهطور مثال، اگر یک فرآیند افزایشی دارید که دادهها را بهصورت دورهای در یک جدول بسیار بزرگ بارگذاری میکند و بخواهید برخی از آن دادهها را حذف کنید، باید عملکرد خط انتقال دادهها را متوقف کنید، زیرساخت را دومرتبه پیکربندی کنید و پس از اینکه ستونهای جدید ایجاد شدند، منطق جدید تجاری را مستقر کرده و قبلی را کنار بگذارید.
ابزارهای مهندسی داده در این زمینه کمک زیادی نمیکنند، بهویژه اگر حجم دادهها و جریانهای کاری زیاد شود. موثرترین راهکار در این زمینه، حفظ داراییها و پیشگیری از اعمال تغییرات در دادهها است. همچنین، اگر اعمال تغییر اجتنابناپذیر باشد، همه چیز باید مستندسازی شود.
مهندسان داده بهطور گسترده از فناوریهای ابری و محصولات SaaS استفاده خواهند کرد
ده سال قبل، شرکتها برای ذخیرهسازی دادههای خود به زیرساختهای درونسازمانی وابسته بودند. به همین دلیل است که فناوریهای اولیه کار با کلاندادهها در قامت ابزارهای مختص محیطهای سازمانی پدید آمدند. در طول این دوره، مهندسان داده زمان زیادی را صرف تنظیم و پیکربندی ماشینهای خود کردند.
در مرحله بعد، ارائهدهندگان خدمات ابری با وعده ارائه سرویسهایی که فرآیند مدیریت دادهها را ساده میکند به میدان وارد شدند. بهطوریکه مهندسان داده توانستند زمان بیشتری را برای حل مشکلات تجاری اختصاص دهند.
اکنون، ارائهدهندگان خدمات ابری و شرکتهای فناوری مثل Snowflake و Databricks، فرآیند کار با کلاندادهها را سادهتر کردهاند. امروزه، فناوریهای نوینی که در دسترس قرار دارند به متخصصان اجازه میدهند بر کیفیت، حاکمیت و نحوه دریافت دادهها نظارت دقیقتری اعمال کنند و فرآیند ادغام بین محصولی را به بهترین شکل انجام دهند.
روزگاری که مهندسان داده مجبور بودند تنها از یک ابزار بنیاد آپاچی برای انجام کارهای خود استفاده کنند، سپری شده است. امروزه، آنها به ابزارهای بیشماری برای انجام وظایف محوله دسترسی دارند و همواره به دنبال انتخاب بهترین ابزار هستند. به همین دلیل باید دانش خوبی در زمینه اکوسیستم مهندسی داده داشته باشند و نحوه شناسایی معیارهای کلیدی را بدانند تا بتوانند بر مبنای این معیارها بهترین ابزار را انتخاب کنند.
انتخاب ابزار مناسب برای انجام کارها، ساده نیست و متاسفانه یکپارچهسازی ابزارها با هدف ساخت یک پلتفرم داده ثابت چالش دیگری است که مهندسان داده با آن روبهرو هستند. برخی از مهندسان داده از زیرساخت بهعنوان کد برای جمعآوری اطلاعات و استقرار خودکار زیرساخت استفاده میکنند و بهنظر میرسد این روند در آینده نزدیک به یکی از مهارتهای اجباری که یک مهندس داده به آن نیاز دارد، تبدیل خواهد شد.
مهندسان داده زمان کمتری را برای کدنویسی و زمان بیشتری را صرف نظارت خواهند کرد
در آینده نزدیک، مهندسان داده مجبور نخواهند بود برای طراحی و توسعه خطوط انتقال دادههای پیچیده از ابزارهای تخصصی ETL بههمراه اسکالا و اسپارک استفاده کنند.
برای استخراج دادهها، آنها به فناوریهایی مثل Airbyte برای برنامهریزی فرآیندهای استخراج اطلاعات از منابع دادهای مختلف دسترسی خواهند داشت. همچنین، فرآیند دانلود یا آپلود دادهها سادهتر از قبل میشود. بهطور مثال، زیرساخت Snowflake فرآیند بارگذاری یک فایل از منابع ذخیرهسازی blob را که در یک جدول هستند ساده کرده است. بهطوری که متخصصان داده میتوانند از یک دستور SQL تکخطی برای انجام اینکار استفاده کنند.
در مرحله تبدیل نیز، dbt پارادایم جدیدی در اختیار مهندسان داده قرار میدهد تا دادههای خود را در انبار داده ذخیرهسازی کنند و از SQL بهعنوان زبان اصلی تبدیل دادهها استفاده کنند. به بیان دقیقتر، فرآیند تغییر دادهها از ETL به ELT متمایل خواهد شد.
در چنین شرایطی، استقرار یک گردش کار سادهتر از زمان حال میشود و قادر هستیم از پشته دادههای مدرن در این زمینه استفاده کنیم. پشته دادهها، اشاره به مجموعهای از فناوریها دارد که هدفش کاهش پیچیدگی گردش کار دادهها و افزایش سرعت انجام وظایف است. پشته دادههای مدرن به تحلیلگران داده اجازه میدهند وظایف خود را بهشکل مستقل انجام دهند و دیگر نیازی به کمک مهندسان داده برای جمعآوری و تبدیل دادههای خام نخواهند داشت. آیا این حرف بدان معنا است که مهندسان داده دیگر در تیمهای داده جایگاهی نخواهند داشت؟ پاسخ منفی است. نقش مهندس داده بهسمت نقشی عملیاتمحورتر متمایل خواهد شد. نسل بعدی مهندسان داده بر بهبود قابلیت اطمینان دادهها متمرکز خواهند شد. انتظار میرود در آینده یک مهندس داده مسئولیتهای زیر را داشته باشد:
- نظارت بر اجرای گردش کار دادهها و پیکربندی هشدارها در صورت بروز اتفاقات پیشبینینشده
- آمادهسازی زیرساختی که برای استفاده از دادهها مورد استفاده قرار خواهد گرفت
- ساخت خطوط انتقال دادهها بر مبنای الگوی CI/CD با هدف تایید صحت کدها و استقرار خودکار
- اطمینان از کیفیت دادهها در هر زمانی
مشابه آنچه که چند سال قبل با ظهور مهندسان قابلیت اطمینان نرمافزار (SRE) درباره توسعه نرمافزار مشاهده کردیم، ممکن است روند مشابهی را در دنیای داده مشاهده کنیم. به بیان دقیقتر، عنوان شغلی جدیدی خواهیم دید که «مهندس قابلیت اطمینان دادهها» نام خواهد داشت. آنها تضمین میکنند که دادهها در دسترس و قابل اعتماد هستند.
در چنین شرایطی، مهندسان داده بیشتر مسئول تعریف شاخصهای سطح خدمات (SLI) و اهداف سطح خدمات (SLO) هستند. در آینده، مهندسان داده وظیفه مهم پاسخگویی به حوادث را بر عهده خواهند داشت. دورنمای پیشرفتهای مستمر در این حوزه نشان میدهد که در آینده عنوان شغلی مهندس داده دستخوش تغییرات اساسی میشود.
نسل بعدی مهندسان داده روی یک محصول دادهای خاص کار نخواهند کرد و کمک خواهند کرد تیمهای دادهمحور محصولات سازندهتری را تولید کنند. برای این منظور، آنها مسئول تهیه مجموعه ابزارهای مناسب خواهند بود. این همان چیزی است که تحت عنوان «پارادایم مش داده» خواهیم شناخت.
بنابراین، در آینده که نیاز به ساخت داشبورد برای گزارشهای مالی دارید، نیازی به تیمی متشکل از مالک محصول، تحلیلگر داده و مهندس داده نخواهید داشت. تحلیلگر داده مستقل خواهد بود و از ابزارهایی که تیم برای او آماده کرده استفاده میکند تا بتواند بهسرعت دادههای لازم را استخراج کند و سپس معیارهای کلیدی شاخص را بر مبنای این دادههای خام محاسبه کند.
ماهنامه شبکه را از کجا تهیه کنیم؟
ماهنامه شبکه را میتوانید از کتابخانههای عمومی سراسر کشور و نیز از دکههای روزنامهفروشی تهیه نمائید.
ثبت اشتراک نسخه کاغذی ماهنامه شبکه
ثبت اشتراک نسخه آنلاین
کتاب الکترونیک +Network راهنمای شبکهها
- برای دانلود تنها کتاب کامل ترجمه فارسی +Network اینجا کلیک کنید.
کتاب الکترونیک دوره مقدماتی آموزش پایتون
- اگر قصد یادگیری برنامهنویسی را دارید ولی هیچ پیشزمینهای ندارید اینجا کلیک کنید.
نظر شما چیست؟