قبل از اینکه درباره بیگ دیتا (big data) یا کلان داده صحبت کنیم، اول باید کمی از مفاهیم زیر را بدانید :
داده (data) چیست؟
مقادیر، کاراکترها و علامت هایی که کامپیوتر روی آنها عملیات انجام میدهد. آنها قابلیت ذخیره و انتقال را دارند. و به صورت سیگنال های الکتریکی روی سیستم های ضبط رسانه مکانیکی، نوری یا مغناطیسی ذخیره شوند.
بیگ دیتا چیست؟
بیگ دیتا مجموعه ای از داده است که حجم بزرگی دارد و با زمان رشد میکند. داده ای آنقدر بزرگ و پیچیده است که هیچ ابزار مدیریت داده معمولی نمیتواند آنها را به درستی پردازش یا ذخیره کند. بیگ دیتا هم داده است فقط حجم خیلی زیادی دارد.
نمونه هایی از بیگ دیتا
بورس اوراق بهادار نیویورک نمونه ای از کلان داده است که روزانه حدود یک ترابایت اطلاعات جدید تولید میکنند.

این آمار نشان می دهد که روزانه بیش از 500 ترابایت داده جدید به پایگاه داده هایی نظیر فیسبوک وارد می شود. این داده ها بیشتر در قالب آپلود عکس و ویدیو، تبادل پیام، گذاشتن نظرات و غیره تولید می شوند.
یک موتور جت می تواند 10+ ترابایت داده را در 30 دقیقه زمان پرواز تولید کند. با هزاران پرواز در روز، تولید داده ها به تعداد زیادی پتابایت (Petabyte) می رسد.
انواع بیگ دیتا
بیگ دیتا به دسته های زیر تقسیم می شود.
- ساختار یافته
- بدون ساختار
- نیمه ساختار یافته
ساختار یافته
هر دادهای را که بتوان در قالبی ثابت ذخیره و پردازش و به آن دسترسی پیدا کرد را دادههای «ساختار یافته» نامیده میشود.
در طول مدت زمان، استعدادهای علوم کامپیوتر در توسعه تکنیکهای کار با چنین دادههایی (که قالب آن از قبل معروف است) و استخراج ارزش از آن، موفقیت بیشتری کسب کرده است.
با این حال، امروزه ما مشکلاتی را پیشبینی میکنیم وقتی که اندازه چنین دادههایی تا حد زیادی رشد میکند. اندازههای معمولی در حدود چندین زتابایت (zettabyte) هستند.
*هر زِتابایت شامل یک میلیارد ترابایت است.*
با نگاه کردن به این تصاویر به راحتی میتوان فهمید که نام بیگ دیتا از کجا می آید و میتوان چالش های ذخیره سازی و پردازش آن را تصور کرد.
*داده های ذخیره شده در یک سیستم مدیریت پایگاه داده رابطه ای نمونه ای از داده های «ساختار یافته» است.*
مثالی از داده های ساختار یافته
جدولی در یک پایگاه داده به نام «کارمندان» نمونه ای از داده های ساختار یافته هستند.

بدون ساختار
هر داده ای با شکل یا ساختار ناشناخته به عنوان داده های بدون ساختار طبقه بندی می شود.
علاوه بر بزرگ بودن اندازه، داده های بدون ساختار چالش های متعددی را در زمینه پردازش آن برای استخراج ارزش آن ایجاد می کند.
یک مثال معمولی از دادههای بدون ساختار، یک منبع داده ناهمگن است که حاوی ترکیبی از فایلهای متنی ساده، تصاویر، ویدئوها و غیره است.
امروزه سازمانهای امروزی دادههای زیادی را در اختیار دارند، اما متأسفانه، نمیدانند چگونه ارزش آن را استخراج کنند. این داده ها به صورت خام یا بدون ساختار هستند.
مثال های داده بدون ساختار
نتایج خروجی از جستجوی گوگل

نیمه ساختار یافته
داده های نیمه ساختاریافته می توانند شامل هر دو شکل داده باشند.
ما میتوانیم دادههای نیمهساختاریافته را بهعنوان یک شکل ساختاریافته ببینیم، اما درواقع همراه با (مثلا ً)یک تعریف جدول در DBMS رابطه ای تعریف نشدهاند.
نمونه ای از داده های نیمه ساختار یافته، داده ای است که در یک فایل XML نشان داده شده است.
مثال داده نیمه ساختار یافته
داده شخصی ذخیره شده در یک فایل XML

رشد داده طی سال ها

لطفاً توجه داشته باشید که دادههای Web application، که بدون ساختار است، شامل فایلهای گزارش، فایلهای سابقه تراکنش و غیره است.
سیستمهای OLTP برای کار با دادههای ساختار یافته ساخته شدهاند که در آن دادهها در روابط (جدول ها) ذخیره میشوند.
ویژگی های بیگ دیتا
کلان داده را میتوان با ویژگی های زیر شرح داد :
- حجم
- تنوع
- سرعت
- تغییر پذیری
حجم (Volume)
نام Big Data به خودی خود مربوط به اندازه ی بسیار زیادش است.
اندازه داده ها نقش بسیار مهمی در تعیین ارزش داده ها دارد.
همچنین، اینکه آیا یک داده خاص واقعاً می تواند به عنوان یک داده بزرگ در نظر گرفته شود یا خیر، به حجم داده ها بستگی دارد. از این رو، «حجم» یکی از ویژگی هایی است که حین برخورد با راه حل های بیگ دیتا باید در نظر گرفته شود.
تنوع (Variety)
جنبه بعدی Big Data تنوع آن است.
تنوع به منابع ناهمگن و ماهیت داده ها، چه ساختار یافته و چه بدون ساختار اشاره دارد.
در روزهای قبل، صفحات گسترده و پایگاه های داده تنها منابع داده ای بودند که توسط اکثر برنامه ها مورد توجه قرار می گرفت.
امروزه داده ها در قالب ایمیل، عکس، فیلم، دستگاه های مانیتورینگ، پی دی اف، صوت و … نیز در برنامه های آنالیز مورد توجه قرار می گیرند.
این تنوع داده بدون ساختار مسائل خاصی را برای ذخیره سازی، استخراج و تجزیه و تحلیل داده ها ایجاد می کند.
سرعت (Velocity)
اصطلاح «سرعت» به سرعت تولید داده ها اشاره دارد. سرعت تولید و پردازش داده ها برای پاسخگویی به نیازها، پتانسیل واقعی داده ها را تعیین می کند.
سرعت بیگ دیتا با سرعتی که داده ها از منابعی مانند فرآیندهای تجاری، گزارش برنامه ها، شبکه ها و سایت های رسانه های اجتماعی، حسگرها، دستگاه های تلفن همراه و غیره جریان دارد، سروکار دارد. جریان داده ها عظیم و پیوسته است.
تغییر پذیری (Variability)
این به ناهماهنگی اشاره دارد که امکان دارد در مواقعی توسط دادهها نشان داده شود. بنابراین فرآیند توانایی مدیریت دادهها را به طور موثری مختل میکند.
مزایای پردازش کلان داده
توانایی پردازش Big Data در DBMS مزایای متعددی را به همراه دارد، از جمله :
- کسب و کارها می توانند حین تصمیم گیری از هوش بیرونی استفاده کنند
دسترسی به دادههای اجتماعی از موتورهای جستجو و سایتهایی مانند فیسبوک، توییتر، سازمانها را قادر میسازد تا استراتژیهای تجاری خود را تنظیم کنند.
- بهبود خدمات مشتری
سیستم های سنتی بازخورد مشتری با سیستم های جدیدی که با فناوری های Big Data طراحی شده اند جایگزین می شوند. در این سیستمهای جدید، دادههای بزرگ و فناوریهای پردازش زبان طبیعی برای خواندن و ارزیابی پاسخهای مصرفکننده استفاده میشوند.
- شناسایی زود هنگام خطر برای محصول/خدمات، در صورت وجود
- بازدهی عملیاتی بهتر
فناوریهای Big Data را میتوان برای ایجاد یک منطقه مرحلهبندی یا منطقه فرود برای دادههای جدید قبل از شناسایی اینکه چه دادههایی باید به انبار داده منتقل شوند، استفاده کرد.
علاوه بر این، چنین ادغامی از فناوریهای کلان داده و انبار داده به یک سازمان کمک میکند تا دادههایی را که بهندرت به آنها دسترسی داده می شود، بارگیری کند.
خلاصه
تعریف کلان داده: Big Data به معنی داده ای است که اندازه آن بزرگ است. Bigdata اصطلاحی است که برای توصیف مجموعه ای از داده ها استفاده می شود که از نظر اندازه بزرگ هستند و در عین حال با گذشت زمان به طور تصاعدی در حال رشد هستند.
مثال های تجزیه و تحلیل داده های بزرگ شامل بورس ها، سایت های رسانه های اجتماعی، موتورهای جت و غیره است.
کلان داده می تواند 1) ساختاریافته 2) بدون ساختار و 3) نیمه ساختاریافته باشد.
حجم، تنوع، سرعت و متغیر بودن چند ویژگی بیگ دیتا هستند.
بهبود خدمات مشتری، بهره وری عملیاتی بهتر، تصمیم گیری بهتر از مزایای Bigdata هستند.
منبع : guru99