بیکاری در انتظار تحلیلگران اَبَر داده (بخش دوم)
به گزارش واحد فناوری اطلاعات سایبربان؛ وِراماچانِنی گفت: «با توجه به تجربیاتی که ما در زمینهی مهندسی ویژگی1 کسب کردیم؛ اولین قدم برای این کار، تحلیل حجم بسیار زیادی از اطلاعات در پایگاههای داده است و برای این کار باید ایدههای بسیاری را بررسی کرد.»
به عنوان مثال در زمینهی ترک تحصیل، دو دستهی کلی از اطلاعات وجود دارد. اولین دسته مربوط به زمانی است که دانشآموز برای رفع مشکلات خود اختصاص میدهد. دومین دسته مربوط به میزان زمانی است که یک دانشآموز در مقایسه با دوستان خود در وبگاه به درس خود اختصاص میدهد.
پلتفرم آموزشی آنلاین دانشگاه امآیتی (MitX) همهی اطلاعات را ذخیره نمیکند بلکه اطلاعاتی را که میتواند استنباط کند ذخیره میکند. یکی از این روشها استفاده از رابطهی بین جدولها در پایگاههای داده است. هر پایگاه داده از تعداد مختلفی جدول تشکیل شده که دادههای متفاوتی را در خود نگهداری میکنند. این جدولها با استفاده از روابط مختلفی به یکدیگر متصل میشوند تا بتوانند از اطلاعات استفاده کرده و مانع تکرار داده در جدولها بشوند. سامانه علمی دادهها از این ویژگی برای انجام وضایف خود استفاده میکند.
به عنوان مثال در یک جدول اقلام و قیمتهای یک خردهفروشی و در جدول دیگر اقلام خریداری شده توسط مشتریها نگهداری میشود. سامانه علمی کار خود را با بررسی و انتقال قیمتها از جدول اول به دوم شروع کرده و سپس رابطهی بین اقلام خریداری شده و تعداد آنها را در هر دو جدول را بررسی میکند. در نهایت هزینهی نهایی، حداقل هزینهی خرید به ازای هر کالا و مواردی از این قبیل را تولید میکند پن مدیسن دادههای عددی که در جدول پخش شده است را پیدا کرده و بررسی میکند. همچنین انواع دیگر دادها را نیز بررسی کرده و بر اساس ارزشی که دارند آنها را دستهبندی میکند.
این سامانه بعد از طبقه بندی دادهها از آنها برای پیشبینی اطلاعات استفاده میکند.
___________________________________
1- مهندسی ویژگی یا Feature Engineering به پردازش دامنهای از دادهها برای ایجاد ویژگیهایی الگوریتمهای یادگیری ماشین بر اساس آنها کار میکنند گفته میشود.