مقدمه ای بر مفاهیم و اصطلاحات کلان داده ها

کلان داده یک واژه جامع است برای استراتژی های مدورن و تکنولوژی که نیاز به گردآوری سازماند هی و پردازش اطلاعات و ایجاد بینش از یک دسته داده را دارد .

کلان داده ها یک واژه جامع برای استراتژی های مدرن و تکنولوژی هایی که نیاز به گردآوری سازماندهی و پردازش و ایجاد بینش از یک دسته داده میباشند اطلاق می شود .در حالی که مشکل کار کردن با داده ها از قدرت محاسباتی یا ذخیره یک واحد کامپیوتر متجاوز است مقیاس های فراگیر و ارزش این و محاسبات امروزه به طور وسیعی گسترده شده است

تعریف دقیق کلان داده ها به واسطه به واسطه نوع پروژه ها و دست اندر کاران و متخصصان هر تجارت و افرادی که از آن استفاده می کنند متفاوت است .

تعریف دقیق کلان داده ها دشوار است زیرا پروژه‌ها فروشندگان دست اندر کاران و متخصصان تجارت به طور متفاوتی از آن استفاده می کنند با توجه به این موضوع به طور کلی و کلان داده ها عمل داده‌های عظیم هستند.

کلان داد ها شامل

۱-مجموعه داده ها : رسته استراتژی های محاسباتی و تکنولوژیکی که به منظور اداره داده های کلان استفاده می شوند

۲- این زمینه داده های کلان به معنای مجموعه ای از داده های بسیار زیاد هستند که به طور خردمندانه ای فرایند می‌کنند یا ذخیره می کنند با ابزارهای سنتی یا در یک کامپیوتر این بدان معنی است که مقیاس مشترک کلان داده ها به طور مداوم در حال تغییر هستند و ممکن است از سازمانی به سازمان دیگر متفاوت باشد

اصول اصلی کار با کلان داده ها همانند اصول اساسی کار کردن با چند مجموعه داده در اندازه های متفاوت است با این حال مقیاس بسیار زیاد سرعت مصرف ،  سرعت فرایند و خصوصیات داده ها که باید در هر مرحله از فرایند آنها توجه شود این موارد هنگام طراحی راه‌حل‌ها ما را با چالش‌های جدیدی مواجهه می کند .

هدف اصلی اغلب کلان داده ها افزایش بینش و پیوند سطح وسیعی از داده های ناهمگن است با روش های مرسوم و معمول ای امکان پذیر نیست.

آقای دوگ لنی Doug Laney  در سال ۲۰۰۱ –  ۳ V را برای معرفی کلان داده ها و خصوصیاتی که کلان داده ها دارند را معرفی می کند .

حجم .مقیاس کامل از اطلاعات پردازش شده که به تعریف سیستم ها کمک می کند

این مجموعه داده ها می توانند اندازه ای بزرگ تر از مجموعه های گذشته را فراهم کند که در هر مرحله چرخه عمر پردازش و ذخیره سازی نیازمند توجه و دقت  بیشتر است.

غالباً به دلیل آن که نیازهای کاری ما از توانایی‌های کامپیوتر ها فراتر میرود ، ادغام کردن تخصیص و هماهنگ کردن گروهی از کامپیوترها و مدیریت خوشه ای و توانایی شناخت الگوریتم با هدف تقسیم وظایف به تکه های کوچکتر یک چالش می‌شود که بسیار اهمیت دارد .

سرعت و شتاب

راه دیگری که در آن کلان داده ها با سایر سیستم های دیتا تفاوت پیدا می کنند سرعت حرکت اطلاعات از طریق سیستم است .

داده ها به سیستم از چندین منبع  جریان پیدا می کنند و انتظار می‌رود در زمان مقتضی برای این که نتیجه ای خردمندانه  ارائه دهند پردازش و مفاهیم جاری از سیستم را به روز رسانی می کنند.

این روش بر بازخوردهای فوری که داده های کلان را به راه حل های کاربردی سوق میدهد تمرکز دارد.

و از رویکرد دسته ای (در نقطه مقابل عدم تعامل با کاربران ) اجتناب کرده  و در کوتاه ترین زمان ممکن داده ها را پردازش می کند .

داده ها پیوسته اضافه ، آماده سازی ، پردازش ، تجزیه و تحلیل و جهت ارائه گزارشات آماده نگه داشتن می شوند .

ورود اطلاعات جدید و داده و تبدیل آنها به  اطلاعات ارزشمند در زمان مناسب، نیازمند سیستم های با ویژگی در دسترسی بالا به جهت محافظت در برابر خرابی ها و مشکلات متنوع هستند.

تنوع

اغلب به دلیل طیف گسترده از منابع مورد پردازش و کیفیت نسبی آنها با مشکلات کلان داده ها روبرو می شویم .

داده ها می توانند از سیستم های داخلی مانند برنامه های کاربردی ، اطلاعات سرور ، بازخوردهای رسانه های اجتماعی ،رابطه های نرم افزاری ، سنسورهای دستگاه فیزیکی و ورودی های دیگر وارد شود .

کلان داده ها صرف نظر از اینکه از کجا آمدند و به طور بالقوه به دنبال دستیابی به داده های مفید هستندو هدفشان  یکی کردن همه اطلاعات در سیستم به صورت واحد  می باشد.

قالب رسانه ها می تواند به میزان قابل توجهی تفاوت داشته باشند مانند تصاویر فایل های ویدیویی و فایل های صوتی در کنار فایل های متنی ساختارهای لگاریتمی و غیره وجود دارد تا زمانی که سیستم های پردازش سنتی داده ها  انتظار داریم که داده ها از مسیر مشخص داده‌های به برچسب خورده و طبقه بندی شده وارد شوند .و سازماندهی شوند

و سیستم های کلان داده معمولا داده ها را را به حالت اولیه خود و نگهداری و ذخیره می کنند  آنها را همان طور که حالت اولیه و خام هستند می پذیرد و هر گونه تغیر و در داده های خام در حافظه و در همان لحظه پردازش انجام می شود .

اشخاص مختلف و سازمان‌ها پیشنهاد کردند که ۳V توسعه دهیم  را هر چند که آنها گرایش دارند که توصیف چالش‌ها مهمتر است از کیفیت کلان داده ها

خصوصیات دیگر

صحت : تنوع منابع و پیچیدگی پردازش منجر به ایجاد چالش در ارزیابی کیفیت داده ها می شود و به تبع آن تجزیه و تحلیل نتایج آن نیز به چالش می کشد .

تنوع : تغییر در داده ها منجر به تغییرات گسترده در کیفیت آنها می شود . برای کارآمدی بیشتر ممکن است منابع اضافی برای شناسایی، پردازش یا فیلتر کردن داده ها با کیفیت پایین مورد نیاز باشد .

ارزش : چالش نهایی کلان داده ها  ارائه ارزش است . گاهی سیستم ها یا فرایند ها به اندازه کافی پیچیده هستند استفاده از داده ها و استخراج مقدار واقعی می تواند مشکل باشد

منحنی عمر کلان داده ها چقدر است

داده ها وقتی که با یک سیستم کلان داده ترکیب میشود چگونه پردازش می شوند ؟

در جواب به این سوال می توان گفت با توجه به اینکه رویکردهای اجرایی متفاوت هستند و برخی نقاط مشتریک استراتژی ها  و نرم افزار ها وجود دارند که می توان درباره آنها به طور عمومی صحبت کرد.

اگر چه راه حلی که در زیر ارائه شده ممکن است برای همه موارد ها به کار نرود اما استفاده وسیعی از آن ها می شود.

طبقه بندی کلی  فعالیت های مرتبط با پردازش کلان داده ها

۱ جذب داده ها به سیستم ۲ ورود داده ها به سیستم ذخیره ۳ محاسبه و تجزیه و تحلیل داده ها ۴ و نمایش نتایج

محاسبات خوشه ای

پیش از این که به تفصیل به این چهار دسته از جریان کار مراجعه کنیم لازم است درباره محاسبات خوشه ای که یک استراتژی مهم در راه حل های کلان داده است صحبت کنیم

تنظیم یک خوشه محاسباتی اغلب پایه و اساس فناوری مورد استفاده در هر یک از مراحل چرخه حیات می باشد

به واسطه خصوصیات کلان داده ها کامپیوتر های فردی اغلب برای اداره کردن داده ها در مراحل مختلف کافی نیستند برای دستیابی به ذخیره‌سازی بالاتر و نیازهای محاسباتی کلان داده ها خوشه‌ های رایانه‌ای و مناسب تر هستند نرم افزارهای خوشه بندی کلان داده ها و منابع بسیاری از ماشین های کوچک تر را ترکیب می کند.

جمع بندی

کلان داده ها موضوعی گسترده و به سرعت در حال تحول است البته برای هر نوع محاسباتی شاید مناسب نباشد اما بسیاری از سازمان‌ها برای اینکه از نوع مشخصی از بارهای کاری و استفاده از ابزارهای تجزیه و تحلیل استفاده کنند به کلان داده ها روی می آورند . سیستم کلان داده به طور مشخصی منحصر به فرد است . این سیستم ها برای یافتن الگوهای دشوار مناسب و به جهت شناسایی و ارائه بینش از رفتارهای که در ارائه راهکار ها  از طریق معمول غیر ممکن است مناسب می باشد .

با اجرای درست سیستم هایی که با کلان داده ها کار میکنند ، سازمان‌ها می‌توانند ارزش های باورنکردنی از داده های که معمولاً موجود است به دست بیاورد.

منبع :digitalocean نویسنده :   Justin Ellingwood  سعید خیرآبادی | iranmarketingmag

به ما ایمیل بفرستید