تغییر و تحولات دنیای مهندسی داده
ماکسیم بوشمین، چهره تاثیرگذار مهندسی داده، آینده این حوزه را چگونه می‌بیند؟
رشته مهندسی داده به‌سرعت در حال پیشرفت است و همین مسئله باعث شده تا بازار کار این متخصصان فناوری اطلاعات حسابی داغ باشد. بد نیست بدانید که عنوان شغلی مهندس داده تا همین ده سال پیش تقریبا وجود نداشت، اما نیاز سازمان‌ها به گرایش خاصی از مهندسی نرم‌افزار باعث شد تا این عنوان شغلی به‌وجود آید و به‌سرعت در مسیر پیشرفت گام بردارد.

مسئولیت‌های یک مهندس داده ثابت نیست و به شرکتی که متخصص داده در آن مشغول به کار می‌شود، بستگی دارد. با این‌‌حال، مهندسان داده برای انجام وظایف روزانه مجبور به یادگیری برخی مهارت‌های مشترک هستند. فارغ از مهارت‌های استانداردی که یک مهندس داده باید داشته باشد، انتظار می‌رود در آینده مهندسان داده دو مهارت توانایی کار با فناوری‌های ابری و محصولات SaaS را داشته باشند و زمان کمتری را برای کدنویسی و زمان بیشتری را صرف نظارت کنند. اکنون اجازه دهید این مهارت‌ها را با جزئیات بیشتری بررسی کنیم. 

در دنیای مهندسی داده، ماکسیم بوشمین (Maxime Beauchemin) چهره‌ای شناخته شده است. یکی از اولین مهندسان داده در فیس‌بوک و ایربی‌ان‌بی است که ابزار بسیار محبوب Apache Airflow را نوشت، آن‌را منبع‌باز کرد و مدت کوتاهی پس از آن Apache Superset را توسعه داد؛ ابزاری که توانست با کاوش دقیق در داده‌ها، تحولی بزرگ در اکوسیستم گردآوری و تحلیل داده‌ها به‌وجود آورد. در حال حاضر، بوشمین مدیرعامل و یکی از بنیان‌گذاران Preset است؛ استارت‌آپی که حوزه کاری آن مصورسازی داده‌هایی است که الگوریتم‌های یادگیری ماشین قادر به استفاده از آن هستند. 

بوشمین از تاثیرگذارترین چهره‌های دنیای مهندسی داده در یک دهه گذشته است. او از طریق پستی که در وبلاگ شخصی خود در سال 2017 تحت عنوان The Rise of the Data Engineer منتشر کرد، به شرکت‌ها نشان داد که چرا مهندسی داده یکی از مهم‌ترین مشاغل دنیای فناوری اطلاعات است. بوشمین بر این باور است که برای مقیاس‌بندی دقیق داده‌ها و تجزیه‌و‌تحلیل‌های دقیق، تیم‌های داده به یک مهندس داده خبره برای مدیریت ETL، ساخت خطوط انتقال داده‌ها و مقیاس‌بندی زیرساخت‌های داده نیاز خواهند داشت. 

مهندس داده یکی از اعضای تیم داده است که عمدتا روی ساخت و بهینه‌سازی پلتفرم‌ها برای دریافت، ذخیره‌سازی، تجزیه‌وتحلیل، مصورسازی و استفاده موثر از داده‌ها متمرکز است. 

پرسشی که تقریبا ذهن بسیاری از متخصصان شاغل در این زمینه را مشغول کرده این است که پنج سال آینده، رشته مهندسی داده در چه جایگاهی قرار دارد و متخصصان این حوزه چه کاری انجام خواهند داد. فرآیند تمرکززدایی به چه صورتی انجام می‌شود، ابر چه نقشی در این زمینه خواهد داشت و پرسش‌های دیگری که ممکن است به ذهن بسیاری از متخصصان خطور کند. در این مقاله برخی از نقطه نظرات و پیش‌بینی‌های آقای بوشمین را بررسی خواهیم کرد. 

مطلب پیشنهادی

30 پرسش و پاسخ مهم مصاحبه‌های استخدامی مهندس داده
آشنایی با پرسش‌های فنی مهندسی داده

ابر نقش مهمی در تغییر وظایف مهندسان داده خواهد داشت

بوشمین به این نکته اشاره دارد که زمانی نه چندان دور، مهندسان داده مجبور بودند برای انجام کارهای مرتبط با Hive که یک انبار داده مقیاس‌پذیر و سریع است، وقت زیادی را صرف کنند. همچنین، وظیفه مدیریت عناصر مختلف خط انتقال داده بر عهده آن‌ها بود. به بیان صریح، مهندسی داده، فرآیندی خسته‌کننده و وقت‌گیر بود که جذابیت چندان خاصی نداشت. او در این باره می‌گوید: «شما برای انجام وظایف ابتدایی یک پروژه باید مدت زمان زیادی را صرف می‌کردید که باعث فرسودگی شغلی می‌شد. به‌طوری که گاهی‌اوقات باید 10 تا 12 ساعت کار می‌کردید تا یک وظیفه ابتدایی را به سرانجام برسانید». در سال 2021، مهندسان داده به‌لطف قدرت محاسباتی BigQuery، Snowflake، Firebolt، Databricks و دیگر فناوری‌های ذخیره‌سازی ابری، توانستند کارهای بزرگ را خیلی سریع انجام دهند. این پیشرفت به‌لطف فناوری‌های ابرمحور، SaaS و پایگا‌ه‌ داده‌های NoSQL به میزان قابل توجهی ساده شده است، اما این تمام ماجرا نیست. 

بوشمین می‌گوید: «درست است که فضای ابری کارها را به میزان قابل توجهی ساده کرده است، اما باید مراقب هزینه‌های محاسباتی خود باشید و ممکن است آخر ماه متوجه شوید که موجودی کیف پول‌تان به‌سرعت کم شده است، زیرا شما در استفاده از منابع هیچ محدودیتی ندارید و ممکن است به‌دلیل استفاده بدون دلیل از فضای ذخیره‌سازی یا توان پردازشی، بیش از نیاز هزینه کنید».

با توجه به این‌که مهندسان داده دیگر مسئولیت مدیریت توان پردازشی و فضای ذخیره‌سازی را بر عهده ندارند، وظایف آن‌ها از توسعه زیرساخت به رویکردهای مبتنی بر توسعه پشته داده یا نقش‌های تخصصی تغییر پیدا خواهد کرد. 

ما می‌توانیم این تغییر را در ظهور مفهومی که «مهندسی قابلیت اطمینان داده‌ها» نام‌‌گذاری شده، مشاهده کنیم. در این حالت، مهندس داده مسئول مدیریت و نه ساخت زیرساخت داده و نظارت بر عملکرد سیستم‌های مبتنی بر ابر است.

دستیابی به اجماع در مورد حاکمیت داده سخت‌تر خواهد شد

تا همین چند سال قبل، ساختار تیم‌های داده کاملا متمرکز بود و مهندسان داده و تحلیل‌گران متبحر در فناوری نقشی شبیه به کتاب‌داران داده‌ها در شرکت را عهده‌دار بودند. حاکمیت داده معنای چندان خاصی نداشت و مهندسان داده بدون مشکل داده‌ها را از منابع مختلف جمع‌آوری می‌کردند. 

بوشمین می‌گوید: «امروزه با مفهومی که حاکمیت توزیع‌شده نام دارد و مورد توجه شرکت‌ها قرار دارد، روبه‌رو هستیم. هر تیمی دامنه تحلیلی خود را دارد که متعلق به خود است و ساختار تیم‌ها به‌سمت غیرمتمرکز شدن تمایل دارند و اعضا تیم مثل دانشمندان داده، تنها داده‌های خوب را طلب می‌کنند. ما پذیرفته‌ایم که اجماع‌ در انجام کارها ضروری است، اما این امر لزوما قرار نیست فرآیند انجام همه کارها را ساده‌تر کند. واقعیت این است که انبارهای داده از بسیاری جهات آینه سازمان است. اگر مردم در مورد آن‌چه که انبار داده نامیده می‌شود یا تعریف سنجه‌ها توافق نداشته باشند، این عدم اجماع ممکن است باعث بروز مشکلاتی شود».  

بوشمین به این نکته اشاره دارد که دستیابی به اجماع کار ساده‌ای نخواهد بود، به‌ویژه اگر داده‌ها قرار باشد به روش‌های مختلف از منابع سازمانی به‌دست آیند.

مطلب پیشنهادی

رشته مهندسی داده چیست و چرا پدید آمده است؟
تخصصی ویژه در زمینه مدیریت داده‌ها

این مسئله باعث می‌شود با مشکل افزونگی و ناهماهنگی روبه‌رو شویم، مگر این‌که تیم‌ها در مورد این‌که چه داده‌هایی خصوصی هستند یا بخش‌های مختلف سازمان اطلاعات را در اختیار آن‌ها قرار دهند، به توافق برسند. 

در حال حاضر، تیم‌های داده‌محور مسئول تمام داده‌های شرکت هستند. به بیان دقیق‌تر، مالک داده‌هایی هستند که جمع‌آوری و استفاده می‌کنند. وقتی داده‌ها توسط گروه‌های مختلف به‌اشتراک گذاشته می‌شوند و در مقیاس وسیع‌تری در معرض دید قرار می‌گیرند، باید با دقت بیشتری آماده شوند و واسط‌های برنامه‌نویسی کاربردی (API) با وسواس بیشتری توسعه پیدا کنند. 

مدیریت تغییر هنوز یک مشکل است، اما ابزارهای مناسب می‌توانند راهگشا باشند 

در سال 2017، زمانی که بوشمین اولین مقاله مهندسی داده خود را نوشت به این نکته اشاره کرد: «زمانی که ماهیت داده‌ها تغییر می‌کنند، تاثیر شگرفی بر عملکرد شرکت خواهند گذاشت. در چنین شرایطی، فقدان مدیریتی آینده‌نگر، باعث بروز شکاف‌های فنی و فرهنگی خواهد شد».

هنگامی که کد منبع یا مجموعه داده‌ها تغییر پیدا کرده یا به‌روزرسانی شوند، شاهد خرابی‌هایی در لایه‌های پایین‌دستی مثل داشبوردها، گزارش‌ها و سایر محصولات داده‌محور خواهیم بود. مادامی که مشکلات در لایه‌های پایینی برطرف نشوند، در عمل هرگونه تحلیلی غیرمعتبر خواهد بود. این خرابی داده‌ها برای سازمان‌ها هزینه‌بر خواهند بود و زمان زیادی باید صرف حل این مشکل شود. 

اغلب اوقات، خرابی‌ها بدون هیچ نشانه آشکاری از راه می‌رسند. در چنین شرایطی تیم‌های مهندسی داده تلاش می‌کنند تا بفهمند چه مشکلی رخ داده، چه کسی تحت تاثیر قرار گرفته است و چگونه می‌توانند آن را برطرف کنند. امروزه، تیم‌های مهندسی داده به‌طور فزاینده‌ای بر دوآپس و بهترین شیوه‌های مهندسی نرم‌افزار تکیه می‌کنند تا ابزارها و فرهنگ سازمانی قوی‌تری ایجاد کنند که تاکیدش بر دو معیار مهم ارتباطات موثر و قابلیت اطمینان داده‌ها است. 

بوشمین می‌گوید: «مشاهده‌پذیری داده‌ها به تیم‌های مهندسی داده کمک می‌کند تا مشکلات را شناسایی و برطرف کنند و حتا اطلاعاتی در مورد تاثیرگذاری خرابی‌ها بر افراد به‌دست آورند. با این حال، مدیریت تغییر به همان اندازه که فنی است، فرهنگی هم به‌شمار می‌رود. مدیریت تغییر به این معنا است که اعضا تیم‌ باید بر فرآیندها، پلتفرم مرکزی داده‌ها و جریان‌های کاری نظارت دقیقی اعمال کنند».

اگر هیچ تفاوتی بین داده‌های خصوصی یا عمومی وجود نداشته باشد، به‌سختی از این نکته مطلع می‌شوید که چه کسی از چه داده‌هایی استفاده می‌کند و اگر داده‌ها با مشکل روبه‌رو شوند، چه چیزی باعث آن شده است. تجزیه‌وتحلیل ماهیت داده‌ها و توجه به اصل حاکمیت داده‌ها یکی از عوامل موفقیت پروژه‌های داده‌محور در آینده به‌شمار می‌رود.

زمانی که بوشمین در Airbnb بود، تصمیم گرفت Dataportal را برای نظام‌مند کردن دسترسی به داده‌ها و توانمندسازی همه کارکنان Airbnb برای کاوش، درک و اعتماد به داده‌ها، طراحی کند. در شرایطی که چنین ابزارهایی اعلام می‌دارند تغییر در داده‌ها بر چه کارمندان یا بخش‌هایی از یک سازمان تاثیرگذار هستند، اما کار چندان خاصی در مورد اعمال مدیریت بر داده‌ها انجام نمی‌دهند. 

داده‌ها باید تغییرناپذیر باشند، در غیر این صورت همه‌چیز از کنترل خارج می‌شود 

فرآیند طراحی ابزارهایی که قرار است عملیاتی را روی داده‌ها انجام دهند وام‌دار الگوهای مهندسی نرم‌افزار است که نقطه قوت این ابزارها به‌شمار می‌رود. با این‌حال، معیارهایی وجود دارند که روی کار با خطوط انتقال داده ETL تاثیرگذار هستند. 

بوشمین می‌گوید: «اگر بخواهم نام یک ستون در پایگاه داده را تغییر دهیم، انجام این کار نسبتا سخت است، زیرا باید ETL خود را دوباره اجرا کنیم و محاوره‌‌های اس‌کیو‌ال را ویرایش کنیم. هنگامی که خطوط انتقال داده و ساختارهای داده تغییر می‌کنند، بر عملکرد سیستم تاثیرگذار هستند. به‌طور کلی، اعمال تغییرات دشوار هستند و گاهی‌اوقات خرابی‌های پیش‌بینی‌نشده‌ای را به‌همراه می‌آورند. به‌طور مثال، اگر یک فرآیند افزایشی دارید که داده‌ها را به‌صورت دوره‌ای در یک جدول بسیار بزرگ بارگذاری می‌کند و بخواهید برخی از آن داده‌ها را حذف کنید، باید عملکرد خط انتقال داده‌ها را متوقف کنید، زیرساخت را دومرتبه پیکربندی کنید و پس از این‌که ستون‌های جدید ایجاد شدند، منطق جدید تجاری را مستقر کرده و قبلی را کنار بگذارید. 

ابزارهای مهندسی داده در این زمینه کمک زیادی نمی‌کنند، به‌ویژه اگر حجم داده‌ها و جریان‌های کاری زیاد شود. موثرترین راهکار در این زمینه، حفظ دارایی‌ها و پیشگیری از اعمال تغییرات در داده‌ها است. همچنین، اگر اعمال تغییر اجتناب‌ناپذیر باشد، همه چیز باید مستندسازی شود. 

مهندسان داده به‌طور گسترده از فناوری‌های ابری و محصولات SaaS استفاده خواهند کرد

ده سال قبل، شرکت‌ها برای ذخیره‌سازی داده‌های خود به زیرساخت‌های درون‌سازمانی وابسته بودند. به همین دلیل است که فناوری‌های اولیه کار با کلان‌داده‌ها در قامت ابزارهای مختص محیط‌های سازمانی پدید آمدند. در طول این دوره، مهندسان داده زمان زیادی را صرف تنظیم و پیکربندی ماشین‌های خود کردند. 

در مرحله بعد، ارائه‌دهندگان خدمات ابری با وعده ارائه سرویس‌هایی که فرآیند مدیریت داده‌ها را ساده می‌کند به میدان وارد شدند. به‌طوری‌که مهندسان داده توانستند زمان بیشتری را برای حل مشکلات تجاری اختصاص دهند. 

اکنون، ارائه‌دهندگان خدمات ابری و شرکت‌های فناوری مثل Snowflake و Databricks، فرآیند کار با کلان‌داده‌ها را ساده‌تر کرده‌اند. امروزه، فناوری‌های نوینی که در دسترس قرار دارند به متخصصان اجازه می‌دهند بر کیفیت، حاکمیت و نحوه دریافت داده‌ها نظارت دقیق‌تری اعمال کنند و فرآیند ادغام بین محصولی را به بهترین شکل انجام دهند. 

روزگاری که مهندسان داده مجبور بودند تنها از یک ابزار بنیاد آپاچی برای انجام کارهای خود استفاده کنند، سپری شده است. امروزه، آن‌ها به ابزارهای بی‌شماری برای انجام وظایف محوله دسترسی دارند و همواره به دنبال انتخاب بهترین ابزار هستند. به همین دلیل باید دانش خوبی در زمینه اکوسیستم مهندسی داده داشته باشند و نحوه شناسایی معیارهای کلیدی را بدانند تا بتوانند بر مبنای این معیارها بهترین ابزار را انتخاب کنند. 

انتخاب ابزار مناسب برای انجام کارها، ساده نیست و متاسفانه یکپارچه‌سازی ابزارها با هدف ساخت یک پلت‌فرم داده ثابت چالش دیگری است که مهندسان داده با آن روبه‌رو هستند. برخی از مهندسان داده از زیرساخت به‌عنوان کد برای جمع‌آوری اطلاعات و استقرار خودکار زیرساخت استفاده می‌کنند و به‌نظر می‌رسد این روند در آینده نزدیک به یکی از مهارت‌های اجباری که یک مهندس داده به آن نیاز دارد، تبدیل خواهد شد. 

مهندسان داده زمان کمتری را برای کدنویسی و زمان بیشتری را صرف نظارت خواهند کرد

در آینده نزدیک، مهندسان داده مجبور نخواهند بود برای طراحی و توسعه خطوط انتقال داده‌های پیچیده از ابزارهای تخصصی ETL به‌همراه اسکالا و اسپارک استفاده کنند. 

برای استخراج داده‌ها، آن‌ها به فناوری‌هایی مثل Airbyte برای برنامه‌ریزی فرآیندهای استخراج اطلاعات از منابع داده‌ای مختلف دسترسی خواهند داشت. همچنین، فرآیند دانلود یا آپلود داده‌ها ساده‌تر از قبل می‌شود. به‌طور مثال، زیرساخت Snowflake فرآیند بارگذاری یک فایل از منابع ذخیره‌سازی blob را که در یک جدول هستند ساده کرده است. به‌طوری که متخصصان داده می‌توانند از یک دستور SQL تک‌خطی برای انجام این‌کار استفاده کنند. 

در مرحله تبدیل نیز، dbt پارادایم جدیدی در اختیار مهندسان داده قرار می‌دهد تا داده‌های خود را در انبار داده ذخیره‌سازی کنند و از SQL به‌عنوان زبان اصلی تبدیل داده‌ها استفاده کنند. به بیان دقیق‌تر، فرآیند تغییر داده‌ها از ETL به ELT متمایل خواهد شد. 

در چنین شرایطی، استقرار یک گردش کار ساده‌تر از زمان حال می‌شود و قادر هستیم از پشته داده‌های مدرن در این زمینه استفاده کنیم. پشته داده‌ها، اشاره به مجموعه‌ای از فناوری‌ها دارد که هدفش کاهش پیچیدگی گردش کار داده‌ها و افزایش سرعت انجام وظایف است. پشته داده‌های مدرن به تحلیل‌گران داده اجازه می‌دهند وظایف خود را به‌شکل مستقل انجام دهند و دیگر نیازی به کمک مهندسان داده برای جمع‌آوری و تبدیل داده‌های خام نخواهند داشت. آیا این حرف بدان معنا است که مهندسان داده دیگر در تیم‌های داده جایگاهی نخواهند داشت؟ پاسخ منفی است. نقش مهندس داده به‌سمت نقشی عملیات‌محورتر متمایل خواهد شد. نسل بعدی مهندسان داده بر بهبود قابلیت اطمینان داده‌ها متمرکز خواهند شد. انتظار می‌رود در آینده یک مهندس داده مسئولیت‌های زیر را داشته باشد: 

  • نظارت بر اجرای گردش کار داده‌ها و پیکربندی هشدارها در صورت بروز اتفاقات پیش‌بینی‌نشده
  •  آماده‌سازی زیرساختی که برای استفاده از داده‌ها مورد استفاده قرار خواهد گرفت 
  •  ساخت خطوط انتقال داده‌ها بر مبنای الگوی CI/CD با هدف تایید صحت کد‌ها و استقرار خودکار
  •  اطمینان از کیفیت داده‌ها در هر زمانی 

مشابه آن‌چه که چند سال قبل با ظهور مهندسان قابلیت اطمینان نرم‌افزار (SRE) درباره توسعه نرم‌افزار مشاهده کردیم، ممکن است روند مشابهی را در دنیای داده مشاهده کنیم. به بیان دقیق‌تر، عنوان شغلی جدیدی خواهیم دید که «مهندس قابلیت اطمینان داده‌ها» نام خواهد داشت. آن‌ها تضمین می‌کنند که داده‌ها در دسترس و قابل اعتماد هستند. 

در چنین شرایطی، مهندسان داده بیشتر مسئول تعریف شاخص‌های سطح خدمات (SLI) و اهداف سطح خدمات (SLO) هستند. در آینده، مهندسان داده وظیفه مهم پاسخ‌گویی به حوادث را بر عهده خواهند داشت. دورنمای پیشرفت‌های مستمر در این حوزه نشان می‌دهد که در آینده عنوان شغلی مهندس داده دست‌خوش تغییرات اساسی می‌شود. 

نسل بعدی مهندسان داده روی یک محصول داده‌ای خاص کار نخواهند کرد و کمک خواهند کرد تیم‌های داده‌محور محصولات سازنده‌تری را تولید کنند. برای این منظور، آن‌ها مسئول تهیه مجموعه ابزارهای مناسب خواهند بود. این همان چیزی است که تحت عنوان «پارادایم مش داده» خواهیم شناخت. 

بنابراین، در آینده که نیاز به ساخت داشبورد برای گزارش‌های مالی دارید، نیازی به تیمی متشکل از مالک محصول، تحلیل‌گر داده و مهندس داده نخواهید داشت. تحلیل‌گر داده مستقل خواهد بود و از ابزارهایی که تیم برای او آماده کرده استفاده می‌کند تا بتواند به‌سرعت داده‌های لازم را استخراج کند و سپس معیارهای کلیدی شاخص را بر مبنای این داده‌های خام محاسبه کند.

ماهنامه شبکه را از کجا تهیه کنیم؟
ماهنامه شبکه را می‌توانید از کتابخانه‌های عمومی سراسر کشور و نیز از دکه‌های روزنامه‌فروشی تهیه نمائید.

ثبت اشتراک نسخه کاغذی ماهنامه شبکه     
ثبت اشتراک نسخه آنلاین

 

کتاب الکترونیک +Network راهنمای شبکه‌ها

  • برای دانلود تنها کتاب کامل ترجمه فارسی +Network  اینجا  کلیک کنید.

کتاب الکترونیک دوره مقدماتی آموزش پایتون

  • اگر قصد یادگیری برنامه‌نویسی را دارید ولی هیچ پیش‌زمینه‌ای ندارید اینجا کلیک کنید.

ایسوس

نظر شما چیست؟