سایت بدون -میتوان گفت یکی از اصطلاحاتی که در سالهای اخیر در زمینه فناوری اطلاعات زیاد شنیده شده است، بیگ دیتا یا کلان داده است. بیگ دیتا (Big Data) فقط در حوزه فناوری اطلاعات مطرح نمیشود کاربردهای زیادی در پزشکی، اقتصاد، بانکداری، حسابداری و … دارد، دادههایی که هر روز از حسابهای بانکی، بورس،تراکنشهای بانکی، بیماران و آزمایشهای تجربی، اطلاعات بیمهشدگان یا هر اطلاعات عظیم سازمانی حاصل میشود، همه و همه بیگ دیتا یا کلان داده هستند.
تعریف و ویژگیهای کلان داده اما در دنیای فناوری اطلاعات، دادهها از منابع گوناگونی تولید میشوند، این دادهها در قالبهای ساختار یافته (structured)، ساختار نیافته (unstructured) و نیمه
ساختار یافته (semi-structured) در اندازه پتابایت (PB)، اگزابایت (EB)، زتابایت (ZB) و حتی بیشتر وجود دارند. کلانداده که آن را مِهداده نیز مینامند، با چند کلمه که در انگلیسی با حرف «V» آغاز میشوند تعریف میکنند، که از اصلیترین آنها میتوان به حجم volume، سرعت velocity ، تنوع variety ارزش Value اشاره کرد.[۱]
حجم داده یا Volume: از سال۲۰۱۲، تقریباً روزانه ۲٫۵اگزابایت داده تولید میشود و این مقدار، هر ۴۰ماه، دوبرابر میشود. همچنین تخمین زده میشود که وال مارت[۲]، هر ساعت ۲٫۵پتابایت داده از تراکنشهای مشتریانش، جمعآوری میکند. همچنین، موفقیت شبکههای اجتماعی، موجب تولید حجم عظیمی از محتوا شده است؛ برای نمونه، توییتر، روزانه به تنهایی ۱۲ترابایت داده تولید میکند.
تنوع داده یا Variety: منابع دادههای عظیم میتواند از چندین مبدأ و در شکلهای ناهمگون مانند، پیامها، بهنگامسازیها و تصاویر ارسال شده در شبکههای اجتماعی، سیگنالهای GPS از گوشیهای سلولی و غیره باشد. بهعلاوه این دادهها فاقد شِما هستند.
سرعت رشد داده یا Velocity: در بسیاری از کاربردها، سرعت تولید دادهها، از حجم دادهها مهمتر است. اطلاعات بیدرنگ موجب میشود تا سرعت عمل، عامل سوددهی یک شرکت و سبقت از شرکتهای رقیب باشد.
ارزش داده یا Value: پیش از تصمیمگیری برای ذخیره دادههای عظیم، باید مشخص گردد که آیا این دادهها ارزشمند هستند و پردازش، تحلیل یا حتی فروش آنها بهصورت خام، موجب درآمدزایی برای شرکت میشود یا خیر.
گاهی از Vپنجمی نام برده میشود ؛صحت داده یا Veracity: با رشد سریع دادهها از نظر حجم و تنوع، احتمال وجود دادههای نادرست در آنها نیز افزایش مییابد. در نتیجه اگر ورودی قابل اعتماد نباشد، نمیتوان به اطلاعات استخراج شده از آن اعتماد کرد. در دنیای کسبوکار نیز، مدیران بهطور کامل به اطلاعات استخراج شده از دادههای عظیم، اعتماد نمیکنند.
کلان داده شبکههای اجتماعی
اما در مورد کلان داده شبکههای اجتماعی باید این نکته را در نظر گرفت که اصلیترین ویژگی آن رشد فزاینده حجم داده است، بهعنوان مثال در حال حاضر بیش از دو میلیارد کاربر فیسبوک در جهان، بیش از یک میلیارد کاربر اینستاگرام ، چند صد میلیون کاربر توییتر و… به صورت لحظه در حال تولید داده، محتوا و کنش نسبت به محتواهای دیگر کاربران هستند، به صورتی که در سال۲۰۱۹ در هر دقیقه بیش از چهل میلیون پیام در واتسآپ و چت فیسبوک تبادل شده است و در همین شصت ثانیه بیش از چهار و نیم میلیون ویدیو در یوتیوب دیده شده است و دادههای زیادی توسط چند میلیارد کاربر در بسترهای مختلف در قالب متن، فیلم و عکس در حال تولید است.
کلان داده شبکههای اجتماعی فارسیزبان
در مورد شبکههای اجتماعی فارسیزبان و فعالیت کاربران ایرانی با توجه به محدودیتهای فیلترینگ یا تحریمها و… اعداد دقیقی از سوی شبکههای اجتماعی بینالمللی در مورد ایران اعلام نمیشود اما از منابع مختلف میتوان در مورد حدود کابران و محتواهای تولید شده ایرانی در بستر شبکه اجتماعی اظهار نظر کرد، تعداد نصب نرمافزار، تعداد دنبالکنندههای کاربران ایرانی، شرکتهای جمعآوریکننده دادههای عمومی، ارقام ارائه شده از بعضی سایتها و… از جمله این منابع هستند.
باتوجه به نظر کارشناسان برآورد میشود بیش از چهل میلیون اکانت تلگرام، بیش از سیوپنج میلیون اکانت اینستاگرام توسط ایرانیها فعال باشد، هرچند با فیلتر شدن تلگرام ممکن است بعضی این کاربران تمام یا بخشی از فعالیت یا مصرف رسانه خود را به بعضی از پیامرسانهای داخلی یا خارجی منتقل کرده باشند.
برای درک بهتر حجم دادههایی که به صورت لحظه توسط کاربران فارسی زبان در شبکههای اجتماعی منتشر میشود میتوان به موضوعات کرونا که در چندماه اخیر اتفاق افتاده اشاره کرد، فقط در موضوع کرونا در طول چهار ماه گذشته بیش از سی میلیون داده در شبکههای اجتماعی به صورت عمومی منتشر شده است یا در انتخابات مجلس در بازه زمانی کوتاهی در یکی از بسترها در حدود دو میلیون محتوا منتشر شد یا همزمان با شهادت سردار سلیمانی در بسترهای شبکههای اجتماعی بیش از ۶ میلیون پست توسط کاربران شبکههای اجتماعی فارسی زبان به اشتراک گذاشته شد.[۳]
حالا باید فکر کنید با این حجم عظیم از دادهها که به صورت عمومی به اشتراک گذاشته شده است والبته پردازش، تحلیل و دادهکاوی آنها و همچنین تبدیلشان به گزارههای قابل تصمیمسازی برای مدیران، میتوان چه کمکهای زیادی در اقتصاد، بورس، مطالعات علمی، بازاریابی و فروش، سیاست و حتی بهبود خدمات دولتی و سازمانها و… کرد.
[1] – با گذشت زمان برای تعریف کلان داده از Vهای بیشتری استفاده شده است که به بیش از ۴۲واژه رسیده است.
[۲] – این شرکت، با دارا بودن بزرگترین شبکه خردهفروشی، یکی از با ارزشترین شرکتهای جهان محسوب میشود.
[۳] – این دادهها مربوط به پستهایی هستند که در کانالهای تلگرام ، صفحات اینستاگرام و توییتر عمومی به صورت دسترسی آزاد منتشر شده است، و شامل صفحات پرایویت و خصوصی، گروهها و… نمیشود.