دادههای کلان به مجموعه ای از داده ها گفته می شود که به خاطر بزرگی و حجم وسیعشان نمی توان آنها را همانند پایگاه های داده معمولی مدیریت کرد. این داده ها آنقدر وسیع و حجیم هستند که با نرم افزارها و ابزار معمولی مدیریت داده ها نمی توان عملیات مختلفی از قبیل گردآوری، ذخیره سازی، مدیریت و پردازش را بر روی آنها انجام داد.
در عصر حاضر به خاطر تولید فزاینده داده ها و رشد شتابنده فناوری های اطلاعاتی نمی توان تعریف مشخصی از دادههای کلان به دست داد، اما هم اکنون مجموعه داده های چند ترابایتی (هر ترابایت= ۱۰۰۰ گیگابایت) تا چند پتابایتی (هر پتابایت= ۱۰۰۰ ترابایت) را دادههای کلان می نامند. البته برخی موسسات پژوهشی برای تعریف دادههای کلان علاوه بر ویژگی حجم، از دو شاخص سرعت تبادل و تنوع داده ها هم استفاه می کنند.
البته ظرفیت و توانمندی سازمانها و شرکتهای مختلف در زمینه مدیریت داده ها هم در این تعریف دخیل است. گاهی ممکن است چند گیگابایت داده برای شرکتی «دادههای کلان» به حساب آید، اما ممکن است شرکت دیگری ده ها یا صدها ترابایت داده را برای خود دادههای کلان بنامد. هم اکنون وبلاگ ها، شبکه های اجتماعی، نتایج جستجوهای اینترنتی و پایگاه های داده مربوط به رشته های علمی مختلف از مهمترین دادههای کلان به شمار می روند. یکی از مثال های بارز در این زمینه پایگاه های داده ها و اطلاعات هواشناسی است. این پایگاه ها روزانه حجم بسیار وسیعی از داده های مربوط به آب و هوا و تغییرات جوی را گردآوری و ذخیره می کنند.
یکی از مهمترین ویژگی دادههای کلان این است که هیچ ساختار و نظم مشخصی بر آنها حاکم نیست. حجم وسیع این داده ها نیز باعث شده است که پردازش آنها عمدتاً به وسیله فناوری رایانش ابری صورت گیرد، چرا که تحلیل آنها مستلزم این است که از ده ها، صدها و یا حتی هزاران رایانه به طور همزمان استفاده شود.
دشواری مدیریت و پردازش دادههای کلان باعث شده تقاضا برای متخصصان مدیریت و پردازش اطلاعات در شرکتهایی مثل اوراکل، آی بی ام، مایکروسافت و SAP افزایش یابد.
دادههای کلان چگونه به وجود می آیند؟
گفته می شود هم اکنون روزی ۲٫۵ کینتی لیون بایت (هر کینتی لیون= یک میلیون تریلیون) به حجم داده ها و اطلاعات موجود در سراسر جهان افزوده می شود و سرعت افزایش داده ها نیز به حدی است که همیشه بیش از ۹۰ درصد داده های موجود در دوسال گذشته تولید شده است. ابزار و فناوری های مختلفی که در دسترس انسان امروزی قرار دارد، از دوربین و میکروفون و تلسکوپ و گوشی تلفن گرفته تا شبکه های بیسیم و ماهواره ای همگی در حال تولید اطلاعات و افزایش حجمِ دادههای کلان هستند.
برآوردها نشان می دهد هم اکنون ۴٫۶ میلیارد گوشی موبایل در سراسر جهان وجود دارد و حدود ۱ تا ۲ میلیارد نفر هم به اینترنت دسترسی دارند. تعداد افرادی که امروزه با داده ها و اطلاعات سرو کار دارند به مراتب بیشتر از گذشته است. شرکت سیسکو پیش بینی کرده است تا سال ۲۰۱۳ حجم تبادل داده ها سالانه ۶۶۷ اگزابایت (هر اگزابایت= ۱ میلیون ترابایت) افزوده خواهد شد.
مشکلات و انتقادات
استفاده از دادههای کلان با مشکلات بسیار زیادی همراه است. اول اینکه نمی توان با ابزار و نرم افزارهای معمولی مدیریت داده ها سراغ آنها رفت. مشکل بزرگ دیگر این است که کار با آنها مستلزم استفاده از ده ها نرم افزار و برنامه های موازی است که بر روی ده ها، صدها و یا هزاران سرور نصب شده است. برای اینکه بتوان حجم وسیعی از داده ها را در مدت زمان قابل قبولی مدیریت و پردازش کرد، باید از فناوری های ویژه ای استفاده کرد. هم اکنون برخی از مهمترین فناوری های در این زمینه عبارتند از: پردازش موازی در مقیاس وسیع (MPP)، شبکه های داده یابی، سیستم فایل های توزیعی (DFS)، پایگاه های داده توزیعی، پلتفرم های رایانش ابری، اینترنت، سیستم های ذخیره قابل ارتقا و غیره.
دشواری مدیریت و پردازش دادههای کلان باعث شده است که تقاضا برای متخصصان مدیریت و پردازش اطلاعات در شرکت هایی مثل اوراکل، آی بی ام، مایکروسافت و SAP افزایش یابد، به طوری که این شرکت ها تاکنون بیش از ۱۵۰ میلیارد دلار به شرکت هایی پرداخته اند اند که در زمینه مدیریت و تحلیل داده ها تخصص دارند. ارزش صنعت پردازش و مدیریت داده ها هم اکنون بیش از ۱۰۰ میلیارد دلار برآورد می شود و سالانه ۱۰ درصد هم بدان افزوده می شود.