چگونه داده‌ها به گزاره‌های تصمیم‌ساز برای مدیران تبدیل می‌شود/جهان کلان داده‌ها در جهان ما

سایت بدون -می‌توان گفت یکی از اصطلاحاتی که در سال‌های اخیر در زمینه فناوری اطلاعات زیاد شنیده شده است، بیگ دیتا یا کلان داده است. بیگ دیتا (Big Data) فقط در حوزه فناوری اطلاعات مطرح نمی‌شود کاربرد‌های زیادی در پزشکی، اقتصاد، بانکداری، حسابداری و … دارد، داده‌هایی که هر روز از حساب‌های بانکی، بورس،تراکنش‌های بانکی، بیماران و آزمایش‌های تجربی، اطلاعات بیمه‌شدگان یا هر اطلاعات عظیم سازمانی حاصل می‌شود، همه و همه بیگ دیتا یا کلان داده هستند.

تعریف و ویژگی‌های کلان داده        اما در دنیای فناوری اطلاعات، داده‌ها از منابع گوناگونی تولید می‌شوند، این داده‌ها در قالب‌های ساختار‌ یافته (structured)، ساختار نیافته (unstructured) و نیمه 
ساختار یافته (semi-structured) در اندازه پتابایت (PB)، اگزابایت (EB)، زتابایت (ZB) و حتی بیشتر وجود دارند. کلان‌داده که آن را مِه‌داده نیز می‌نامند، با چند کلمه که در انگلیسی با حرف «V» آغاز می‌شوند تعریف می‌کنند، که از اصلی‌ترین آن‌ها می‌توان به حجم volume، سرعت velocity ، تنوع variety ارزش Value اشاره کرد.[۱]
حجم داده یا Volume: از سال‌۲۰۱۲، تقریباً روزانه ۲٫۵‌اگزابایت داده تولید می‌شود و این مقدار، هر ۴۰ماه، دوبرابر می‌شود. همچنین تخمین زده می‌شود که وال مارت[۲]، هر ساعت ۲٫۵‌پتابایت داده از تراکنش‌های مشتریانش، جمع‌آوری می‌کند. همچنین، موفقیت شبکه‌های اجتماعی، موجب تولید حجم عظیمی از محتوا شده است؛ برای نمونه، توییتر، روزانه به تنهایی ۱۲ترابایت داده تولید می‌کند.
تنوع داده یا Variety: منابع داده‌های عظیم می‌تواند از چندین مبدأ و در شکل‌های ناهمگون مانند، پیام‌ها، بهنگام‌سازی‌ها و تصاویر ارسال شده در شبکه‌های اجتماعی، سیگنال‌های GPS از گوشی‌های سلولی و غیره باشد. به‌علاوه این داده‌ها فاقد شِما هستند.
 سرعت رشد داده یا Velocity: در بسیاری از کاربردها، سرعت تولید داده‌ها، از حجم داده‌ها مهم‌تر است. اطلاعات بی‌درنگ موجب می‌شود تا سرعت عمل، عامل سوددهی یک شرکت و سبقت از شرکت‌های رقیب باشد.
ارزش داده یا Value: پیش از تصمیم‌گیری برای ذخیره داده‌های عظیم، باید مشخص گردد که آیا این داده‌ها ارزشمند هستند و پردازش، تحلیل یا حتی فروش آن‌ها به‌صورت خام، موجب درآمدزایی برای شرکت می‌شود یا خیر.
گاهی از V‌پنجمی نام برده می‌شود ؛صحت داده یا Veracity: با رشد سریع داده‌ها از نظر حجم و تنوع، احتمال وجود داده‌های نادرست در آن‌ها نیز افزایش می‌یابد. در نتیجه اگر ورودی قابل اعتماد نباشد، نمی‌توان به اطلاعات استخراج شده از آن اعتماد کرد. در دنیای کسب‌و‌کار نیز، مدیران به‌طور کامل به اطلاعات استخراج شده از داده‌های عظیم، اعتماد نمی‌کنند.

کلان داده شبکه‌های اجتماعی
اما در مورد کلان داده شبکه‌های اجتماعی باید این نکته را در نظر گرفت که اصلی‌ترین ویژگی آن رشد فزاینده حجم داده است، به‌عنوان مثال در حال حاضر بیش از دو میلیارد کاربر فیس‌بوک در جهان، بیش از یک میلیارد کاربر اینستاگرام ، چند صد میلیون کاربر توییتر و… به صورت لحظه در حال تولید داده، محتوا و کنش نسبت به محتواهای دیگر کاربران هستند، به صورتی که در سال‌۲۰۱۹ در هر دقیقه بیش از چهل میلیون پیام در واتس‌آپ و چت فیس‌بوک تبادل شده است و در همین شصت ثانیه بیش از چهار و نیم میلیون ویدیو در یوتیوب دیده شده است و داده‌های زیادی توسط چند میلیارد کاربر در بسترهای مختلف در قالب متن، فیلم و عکس در حال تولید است.

کلان داده شبکه‌های اجتماعی فارسی‌زبان
در مورد شبکه‌های اجتماعی فارسی‌زبان و فعالیت کاربران ایرانی با توجه به محدودیت‌های فیلترینگ یا تحریم‌ها و… اعداد دقیقی از سوی شبکه‌های اجتماعی بین‌المللی در مورد ایران اعلام نمی‌شود اما از منابع مختلف می‌توان در مورد حدود کابران و محتواهای تولید شده ایرانی در بستر شبکه اجتماعی اظهار نظر کرد، تعداد نصب نرم‌افزار، تعداد دنبال‌کننده‌های کاربران ایرانی، شرکت‌های جمع‌آوری‌کننده داده‌های عمومی، ارقام ارائه شده از بعضی سایت‌ها و… از جمله این منابع هستند.
باتوجه به نظر کارشناسان برآورد می‌شود بیش از چهل میلیون اکانت تلگرام، بیش از سی‌و‌پنج میلیون اکانت اینستاگرام توسط ایرانی‌ها فعال باشد، هرچند با فیلتر شدن تلگرام ممکن است بعضی این کاربران تمام یا بخشی از فعالیت یا مصرف رسانه خود را به بعضی از پیام‌رسان‌های داخلی یا خارجی منتقل کرده باشند.
برای درک بهتر حجم داده‌هایی که به صورت لحظه توسط کاربران فارسی زبان در شبکه‌های اجتماعی منتشر می‌شود می‌توان به موضوعات کرونا که در چند‌ماه اخیر اتفاق افتاده اشاره کرد، فقط در موضوع کرونا در طول چهار ماه گذشته بیش از سی میلیون داده در شبکه‌های اجتماعی به صورت عمومی منتشر شده است یا در انتخابات مجلس در بازه زمانی کوتاهی در یکی از بسترها در حدود دو میلیون محتوا منتشر شد یا همزمان با شهادت سردار سلیمانی در بسترهای شبکه‌های اجتماعی بیش از ۶ میلیون پست توسط کاربران شبکه‌های اجتماعی فارسی زبان به اشتراک گذاشته شد.[۳]
حالا باید فکر کنید با این حجم عظیم از داده‌ها که به صورت عمومی به اشتراک گذاشته شده است والبته پردازش، تحلیل و داده‌کاوی آن‌ها و همچنین تبدیل‌شان به گزاره‌های قابل تصمیم‌سازی برای مدیران، می‌توان چه کمک‌های زیادی در اقتصاد، بورس، مطالعات علمی، بازاریابی و فروش، سیاست و حتی بهبود خدمات دولتی و سازمان‌ها و… کرد.
 
[1] – با گذشت زمان برای تعریف کلان داده از V‌های بیشتری استفاده شده است که به بیش از ۴۲‌واژه رسیده است.
[۲] – این شرکت، با دارا بودن بزرگترین شبکه خرده‌فروشی، یکی از با ارزش‌ترین شرکت‌های جهان محسوب می‌شود.
[۳] – این داده‌ها مربوط به پست‌هایی هستند که در کانال‌های تلگرام ، صفحات اینستاگرام و توییتر عمومی به صورت دسترسی آزاد منتشر شده است، و شامل صفحات پرایویت و خصوصی، گروه‌ها و… نمی‌شود.

مطلب پیشنهادی

حتما باید دید/ مارمولک؛ روایت راه های رسیدن به خدا

سایت بدون – فیلم مارمولک یکی از برجسته‌ترین و محبوب‌ترین آثار سینمای ایران است که …

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *