مقاله بررسی کاربردی مدل های داده چند بعدی (OLAP) و استفاده از الگوهای آماری در word دارای 253 صفحه می باشد و دارای تنظیمات و فهرست کامل در microsoft word می باشد و آماده پرینت یا چاپ است
فایل ورد مقاله بررسی کاربردی مدل های داده چند بعدی (OLAP) و استفاده از الگوهای آماری در word کاملا فرمت بندی و تنظیم شده در استاندارد دانشگاه و مراکز دولتی می باشد.
این پروژه توسط مرکز مرکز پروژه های دانشجویی آماده و تنظیم شده است
توجه : توضیحات زیر بخشی از متن اصلی می باشد که بدون قالب و فرمت بندی کپی شده است
بخشی از فهرست مطالب پروژه مقاله بررسی کاربردی مدل های داده چند بعدی (OLAP) و استفاده از الگوهای آماری در word
-1 مقدمه ای بر پایگاه داده اوراکل g
1-1-1 اثر جو اقتصادی بر هزینه تکنولوژی
2-1-1 یکپارچگی
3-1-1 یکپارچه سازی سخت افزار
4-1-1 یکپارچه سازی داده ها از دید یک شرکت معمولی
5-1-1 یکپارچه سازی برنامه های کاربردی
6-1-1 Gridدر پایگاه داده اوراکل 10g
2-1 انبار داده چیست؟
1-2-1 چرا به یک انبار داده نیاز دارید؟
3-1 چشم انداز تاریخی
1-3-1- ظهور انبار داده
. 4-1 از مدلسازی ارتباط –موجودیت (E-R)استفاده نکنید
1-4-1 مدل سازی ابعاد
3-4-1 جدول حقیقی
4-4-1جدول ابعادی (چند بعدی)
5-4-1 کلید های مخزن
5-1 پیکر بندی های سخت افزار برای یک انبار
1-5-1معماری سرویس دهنده:
2-5-1معماری پایگاه داده اراکل
فصل دوم : ابزار های انبار اراکل
1-2: کدام ابزار
2-2: سازنده انبار اوراکل یا OWB
1-2-2: تنظیم سازنده انبار
2-2-2: مشتری سازنده انبار اراکل
3-2-2: اهداف و منابع داده ها
4-2-2: تعریف جداول موجود در انبار داده هایمان
5-2-2: ایجاد ابعاد
6-2-2: ایجاد یک مکعب
7-2-2: تعریف منبع برای هدف نقشه کشی ها
8-2-2: تایید طرح
9-2-2: ایجاد طرح
10-2-2: استقرار طرح
3-2: کاشف اراکل
1-3-2: چرا Discoverer؟
2-3-2: تنظیم محیط
3-3-2: پرس و جو با استفاده از Plus Discoverer
4-2: گزارشات اراکل 10g
1-4-2: ایجاد یک گزارش با استفاده از سازنده گزارش
2-4-2: مثال های بیشتر از گزارش های اراکل
3-4-2:انتشار گزارش
5-2: خلاصه
فصل سوم : انبار داده و وب
1-3: بررسی بیشتر
1-1-3: اینترنت و اینترانت
2-1-3: نرم افزار اراکل برای انبار داده
2-3: سرور کاربردی اراکل10g
1-2-3: چرا یک پرتال تنظیم می کنند؟
2-2-3: پرتال AS Oracle
1-3-3: Discoverer
2-3-3:انتشار یک پورت لت
3-3-3: ایجاد گزارش استاتیک
4-3: خصوصی سازی اراکل
5-3: انبار داده ها و هوشمندی تجارت الکترونیکی
فصل چهارم: OLAP
1-4: چرا نیاز به انتخاب اراکل OLAP داریم؟
1-1-4: کاربردهای OLAP
2-1-4: ROLAP و MOLAP
3-1-4: اراکل OLAP
2-4: معماری اراکل OLAP
3-4: فضاهای کاری آنالیزی
1-3-4: مدل چند بعدی
2-3-4: ایجاد فضای کاری آنالیزی
1-4-4: تعریف متاداده OLAP برای شمای رابطه ای
2-4-4:دیدگاه های متاداده OLAP و ارزیابی آن
5-4: مدیر فضای کاری آنالیزی
1-5-4: ایجاد ویزارد فضای کاری آنالیزی
2-5-4: تجدید فضای کاری آنالیزی
3-5-4: ایجاد یک طرح تجمعی
4-5-4: فعال سازهای فضای کاری آنالیزی
6-4: پرس وجوی فضاهای کاری آنالیزی
1-6-4: DML OLAP
2-6-4: بسته DBMS-AW
3-6-4: دسترسی SQL به فضای کاری آنالیزی
4-6-4: OLAP API و اجزاء BI
7-4: خلاصه
فصل پنجم : داده کاوی اراکل
51: داده کاوی در پایگاه داده اوراکل g
5.2. :روش های داده کاوی اوراکل
521 : قوانین پیوستگی
522 : گروهبندی
523 : استخراج ویژگی
524 : طبقه بندی
525 : بازگشت
526 : استاندارد PMML
5.3.1 : فرمت داده
2-3-5 آماده سازی داده
4-5: استفاده از واسط های داده کاوی اوراکل
1-4-5: نصب و پیکربندی
2-4-5: روند آنالیز داده کاوی
3-4-5: مثالی با استفاده از جاوا API
4-4-5: مثال استفاده از روال های PL/SQL
5-5: خلاصه
فصل ششم: قابلیت دسترسی بالا و انبار داده
1-6: مقدمه
2-6: یک سیستم با قابلیت دسترسی بالا چیست؟
1-2-6: ویژگی های یک سیستم با قابلیت دسترسی بالا
2-2-6: نقش بهترین تجربیات عملکردی
3-6: مرور اجمالی پایگاه داده اوراکل 10g با ویژگی قابلیت دسترسی بالا
4-6: حفاظت در برابر نقص های سخت افزاری/ نرم افزاری
1-4-6: گروههای با عملکرد حقیقی (RAC)
2-4-6: ذخیره سازی مطمئن
3-4-6: آشکار سازی و نمایش خط
4-4-6: مدیریت منابع
5-6: حفاظت در برابر فقدان داده
1-5-6: بازیابی از نقص(خطا) متوسط
2-5-6: بازیابی از خطاهای انسانی با استفاده از flash back
3-5-6: بازیابی خطا بوسیله گارد یا نگهبان داده
4-5-6: معماری حداکثر قابلیت دسترسی اوراکل
5-5-6: حفاظت متا داده
6-6: مدیریت زمان برنامه ریزی شده
1-6-6: پیکربندی مجدد نمونه پویا
2-6-6: حفظ آنلاین
3-6-6: تعریف مجدد آنلاین
4-6-6: ارتقاء درجه
7-6: مدیریت طول عمر اطلاعات
8-6: خلاصه
11 مقدمه ای بر پایگاه داده اوراکل g
1-1-1 اثر جو اقتصادی بر هزینه تکنولوژی
یکی از چالشهای عصر حبابی امروز post-dot-comکه بسیاری از سازمانها با آن مواجه می شوند ایناست که انتظار می رود به منظور بهبود سود و زیان شرکت بدون هیچ بودجـه یـا بـا بودجـه کمـی محـصول بیشتری را ارائه دهند. ممکن است شما به دنبال روشهای جدیدی برای کاهش هزینه های تکنولـوژی باشـید در حالیکه در همان زمان از تقاضاهای جدید و بهبود بهره وری حمایت کنید .بعوه به دنبال رسوایی های اخیر حسابداری شرکتها قوانین جدیدی تدوین شد تا مسئولیت شـرکتها را با و ببرد افشا سازی مالی را بهبود بخشد و با جرائم مـالی شـرکت مبـارزه کنـد . Sarbanes-Oxle بـه شرکتها امر می کند تا کنترل جامعی بر مدیریت داشته باشند و اطعات مالی شرکت را گزارش کنند و برایانجام این کنترلها مسئولیتهایی را برروی مدیر عامل و مدیر ارشد قرار می دهد.این عمل به نوبه خود نیازهای جدیدی را بر سازمانIT تحمیل می کند. بنابراین چگونه قادرید هزینه ها را قطع و در همـان زمـان دیـدگاه کلـی از اطعـات مهـم تجـاری راگسترش دهید ؟ چگونه می توانید از اطعاتتان برای استفاده بهتـر از فرصـتهای برابـر تـاثیر اجـرا بهبـود تصمیم گیری بدست آوردن مرز رقابت افزایش سود و تهیه گزارش مالی بهره ببرید؟
2-1-1 یکپارچگی
امکان یک پاسخ برای یکپارچگی وجود دارد. بسیاری از شـرکتها فعالیتهایـشان را بـا یکپارچـه سـازی سخت افزار اطعات و تقاضا ها تسهیل می کنند و فعالیتهای تجاری خود را به تعداد کوچکتری از سیـستمهای متمرکز ساده می کنند سپس ، سادگی از طریق یک شالوده مشترک می تواند بدست آیـد توانـایی برای جمع آوری اطعات هر بخش از شرکت دید سازمانی قابل قبـولی را بـه همـراه دارد. در ایـن یکپارچـهسازی انبار داده نقش بسزایی دارد
3-1-1 یکپارچه سازی سخت افزار
در گذشته شرکتها معمو برای هر تقاضای جدید سیستم های اختصاصی خریداری مـی کردنـد. ایـن سیستمها زم بود به اندازه ای باشند که تقاضاهای زیادی را جوابگو باشند به این معنا که بعـضی منـابع درزمان های دیگر بیهوده بودند .آیا بهتر نبود این منابع در کاربردهای دیگری که به آنها نیاز بـود بکـار گرفتـه می شدند؟
یکپارچه سازی شامل استفاده مجدد از سخت افزار موجـود و هـم خریـدهای جدیـد اسـت . امـروزه بسیاری از فروشندگان سخت افزار قطعات سریع و ارزان قیمت تری مانند سـرویس دهنـده هـا و تجهیـزات شبکه ای را عرضه می کنند . صرفه جویی در هزینه ها می تواند از طریق تغییر جهت سخت افزار اختـصاصی سیستم عامل به سخت افزار ارزان تر با استفاده از پردازشگرهای اینتل که سیستم عامل لینوکس را اجرا میکنند بدست آید . مزیت هزینهای که بر روی لینوکس است در مقایسه با یک سیستم چند پردازشـی کـه بـر روی سیستم عامل اختصاصی است دارای اهمیت می باشد
هزینه های ذخیره سازی در هر سال در حال کاهش است و این امکـان وجـود دارد تـا منبـع ذخیـره سازی را با پول کمتری بخریم .چرا باید برای یک سیستم میلیونها در هزینـه شـود در حـالی کـه میتوانیـد همان قابلیت ها را با صدها در بدست آورید؟
ممکن است یکپارچه سازی برای شرکتهای بزرگ ادغام مراکز اطعاتی غیر متمرکز به مراکز اطعات محدود باشد . در نتیجه یکپارچه سازی سخت افزار ی وجود سیستمهای کمتری جهت ساماندهی نـرم افـزار جهت نصب و تعمییر و امنیت و کاهش بیشتر هزینه ها را بدنبال دارد
4-1-1 یکپارچه سازی داده ها از دید یک شرکت معمولی
سیستم های یکپارچه داده ها می توانند در یک مکان ، اغلب در پایگاه داده ها یکپارچه سازی شـوند . حذف داده های اضافی باعث بهبود کیفیت و قابل دسترس بودن اطعات می شود. بسیاری از شرکتها شـمار قابل توجهی از پایگاه داده اوراکل و دیگر فروشنده ها را بدست می آورند. با یکپارچه کردن ایـن مـوارد و بـا کاهش تعداد مدیران مورد نیاز برای پشتیبانی سیستم ها می توان در هزینه صرفه جویی کرد
5-1-1 یکپارچه سازی برنامه های کاربردی
با یکپارچه سازی داده ها،کاربردهای خودکار امکان پذیر می شـود و بـه کـاربران اجـازه مـی دهـد تـا اطعات شخصی خودشان را بروزکنند.همانطور که بیشتر تقاضاهای کاری )تجاری( به طرف وب پیش رفتـه اند درگاهها به کاربران امکان دسترسی به پایگاه داده های مرکزی با یک مرورگر وب و یا تلفن همرا ه را مـی دهد که نیاز به خریداری ونصب نرم افزارهای دسک تاپ خاص را ازبین می برد
برنامه های کاربردی خودکار در کاهش هزینه های عملی بـا حـذف بـسیاری از فرآینـد هـای اجرایـی،کاهش هزینه های شخصی و دسترسی 42 ساعته سودمند هستند. عوه بر برنامه های کاربردی مانندfronts storeبسیاری از برنامه های کاربردی back-officeهم می توانند خودکار باشـند ماننـد مـسافرت، صـورت حساب ، و منابع انسانی
6-1-1 Gridدر پایگاه داده اوراکل 10g
یکپارچه سازی مرحله ای برای انجام محاسبات شبکه فراهم مـی آورد.محاسـبات شـبکه اوراکـل یـک شالوده بهم پیوسته از پایگاه داده اوراکل 10gسرویس دهنده کاربردی اوراکل 10gومدیر سـازمانی اوراکـل است .با محاسبات شبکه،مخازن مرکزی از منابع محاسباتی ایجاد می شود که می تواند با بسیاری از تقاضـاها ترکیب شود.اصطح محاسبه شبکه از مقایسه با شبکه انرژی الکتریکی سرچشمه گرفتـه شـده اسـت. منـابع متنوعی در ارائه انرژی به مخزن مشترک همکاری دارند که بسیاری از مصرف کنندگان در صورت نیاز بـه آن دسترسی دارند. محاسبه شبکه روشی برای یکپارچه سازی سخت افزار برای بهبود اسـتفاده و کـارآیی منـابع است . بدون نیاز به دانستن اینکه اطعات در کجـا قـرار دارنـد یـا کـدام کـامپیوتر درخواسـت داده شـده را پردازش می کند ، برای کاربر منابع مود نیاز در دسترس است
همانطور که در اینترنت آمده ،محاسبات شبکه در مجامع تحقیقاتی وآکادمیک بوجود آمد.یکـی از اجراهای اولیه یک شبکه،پروژه SETI@homeاست که تحقیق برای هوش ماورا است کـه در سـال 1991 دردانشگاه برکلی کالیفورنیا آغاز شد.نوسانات سـیگنال رادیـویی از تلـسکوپ رادیـویی Arecibonvدر Puerto Rico جمع آوری شد .این نوسانات ممکن است عئمی از زندگی هوشمند در فضا باشـد .هـر روزه داده هـای بیشتر از آنچه کامپیوترها در دانشگاهها مـی تواننـد پـردازش کننـد بدسـت مـی آیـد بنـابراین از داوطلبـان درخواست می شود زمان بیکاری کامپیوترهای خانگی خود را مشخص کنند.بیشتر از 5 میلیـون نفـر از 622 کشور نرم افزاری را دانلود کردند که هر وقت بیکار هستند کامپیوترشان در دسترس باشد و ممکن است شما قب چیزی مشابه این کار را انجام داده باشید ،منابع ذخیره سازی را در زمانهای off-peakپیک خاموشـی پاک کرده باشید و آنها را برای تقویت پردازش برای یک برنامه کاربردی یا بیشتر استفاده کنید. در حالی که نظریه محاسبه خدماتی یا شبکه ای جدید نیست اما امکان پیشرفتهایی را هـم در سـخت افزار و هم در نرم افزار داده است . Blade farms یا گروههایی از کامپیوترهای پر سـرعت اسـاس محاسـبات شبکه را تشکیل می دهند.برنامه های کاربردی خوشـه ای اوراکـل RACبـه عنـوان پایـه ای بـرای شـبکه سازمانی بکار می رود که این سکوهای سخت افزاری ارزان قیمت را قادر می سازد باترین کیفیت خدمات را از نظر دسترس بودن و مقیاس پذیری ارائه دهد. شما می توانید بـرای نیازهـای اولیـه سیـستم فقـط مقـدار ظرفیت کافی سخت افزار را خریداری کنید ،در حالی که می دانید می توانید سرویس دهنده های اضـافی بـا حداقل هزینه را وصل کنید تا نوسانات ترافیکی موقت یا دائمی را کنترل کنـد. وقتـی یـک سـرویس دهنـده جدید به گروه اضافه شد بطور اتوماتیک نمایان می شود و ظرفیت کار برای ترکیب سیـستم جدیـد متعـادل می شود . اگر نودی در گروه(کستر) دچار خرابی شود برنامه کاربردی هنوز می تواند با نود باقی مانده که از ظرفیت کاری نود خراب است ،کار کند
درست همانطور که شرکتهای امروزی هم اینترانت داخلی و هم اینترنت خارجی دارند، ممکن است شرکتهادر آینده شبکه داخلی و خارجی داشته باشند بدون اینکه بخواهند تمـام تکنولـوژی هـا را خریـداری کنند . در مرکز داده ها در آینده شما قادر به خرید نیروی محاسباتی که نیاز دارید خواهید بود و تنهـا بـرای آنچه که استفاده می کنید پرداخت می کنید
2-1 انبار داده چیست؟
حال پس از همه این موارد یک انبار داده چیست ؟ یک انبار داده ،یک بانک اطعاتی است که حـاوی داده ها از چندین سیستم عملیاتی است که یکپارچه ،به هم پیوسته ، مرکب و سازمان بندی شـده اسـت بـه طوری که می تواند برای حمایت فرآیند تحلیل و تصمیم گیری یک فرایند تجاری بکار گرفته شود
1-2-1 چرا به یک انبار داده نیاز دارید؟
آیا تمام اطعات مورد نیاز برای اجرای کارهای تجاریتان زمانی که به آن نیاز است با جزئیات کافی برمبنای تصمیمات در دسترس است .؟ یا آیـا ایـن کـه چگونـه مـی شـود 2 کـاربر وارد جلـسه ای شـوند کـه گزارشهایشان با هم منطبق نیست؟ یکی از آنها فکر می کنـد فـروش مـاه مـارس 500 میلیـون در اسـت و دیگری می گوید 524 میلیون در است . پس از بررسی های زیاد می فهمید کـه داده هـای متفـاوتی بـرای
محاسبه فروش در هر گزارش استفاده شده است و شما زمان زیادی را برای فهمیدن علـت آن و اصـح ایـن مشکل صرف می کنید
آیا شرکت شما سیستم های گوناگونی برای یک وظیفه دارد، سیستم صورت برداری قدیمی و سیستم جدیدی که میلیونها در صرف ساخت آن کرده اید؟ آیا نیاز دارید داده ها را از هر دو روی ایـن سیـستم هـا بدست آورید تا بنا به اهداف گزارشی آنها را ادغام کنید ؟چگونه این روش به خوبی انجام می شـود ؟آیـا نیـاز است کاربران تفاوت بین این دو سیستم را برای پرس و جوی آن ین بفهمند؟ ممکن اسـت ایـن زمینـه ای باشد که بخواهید یکپارچه کنید.آیا برای اهداف تحلیلی جزئیات کافی در دست دارید؟ چه ماههایی از تاریخ را قـادر هـستید آن یـن نگه دارید؟آیا سطح درست جزئیات را ذخیره کرده اید؟ آیا تا کنون تمام داده های تـاریخی را ذخیـره کـرده اید؟ آیا قادرید فروش هر محصول در هر منطقه جغرافیایی را قبـل و بعـد از سـازماندهی مجـدد از سـاختار گزارش نیروی فروش تحلیل کنید؟ انبار داده برای کمک به حل این نوع مشکت ساخته شده است
3-1 چشم انداز تاریخی
در دهه 1970 اولین برنامه های کاربردی تجاری ساخته شد تا عملیات روزمره مـشاغل را کـامپیوتری کند . این سیستم ها بر روی کامپیوتر های بزرگ و گران قیمت سـاخته شـدند تنهـا تجارتهـای بـزرگ مـی توانستند از عهده سخت افزار ،برنامه سازانی برای برنامه ریـزی آنهـا ،و کارکنـان عملیـاتی بـرای بـه جریـان انداختن آنها برآیند. این سیستم ها بر اساس قرار دادن داده های جدید و خواندن آنها بطور متوالی با استفاده از نوارهای مغناطیسی عمل می کنند
با اختراع دیسکهای ذخیره سازی، داده ها می توانستند مستقیما در دسترس باشند .این امر منجـر بـه تولید اولین سیستم های مدیریتی پایگاه داده شد که داده ها را یا بطور سلسله مراتب یا در شبکه سازماندهی می کرد. این سیستم های پایگاه داده خیلی پیچیده بودند . برنامه سازان باید درک می کردند چگونه داده ها در دیسک ذخیره شده اند و از طریق داده به گزارشات ایجاد شده هدایت شـوند. برنامـه سـازان برنامـه هـای کاربردی از Cobolبرای ایجاد گزارشهای اختصاصی استفاده می کردند. برای نوشتن برنامه برای هر گـزارش جدید روزها و یا حتی هفته ها زمان می برد. گزارشات بر روی برگه کامپیوتری چاپ و بین کاربران با دسـت توزیع می شد .هرگز برنامه سازان به مقدار کـافی وجـود نداشـتند بنـابراین همیـشه انباشـتگی یـک برنامـه کاربردی وجود داشت .وقتی داده ها می توانستند مستقیما در دسترس باشند اولین سیستم هـای پردازشـگر تراکنشی آن ین (OLTP) ساخته شد. در اواخر دهه 1970 و اوایل 1980کامپیوترهای کوچکی ماننـد 11- Digital’s PDPو 780/11 VAX هزینه های سخت افزار را پایین آوردند . داده ها اغلب در پایگاه داده CODAYSLذخیره می شدند،که برای تغییر بی نهایت مشکل و برای درک و طراحی سخت بودند. با معرفی پایگاه داده رابطه ای تمـام اینهـا تغییـرکرد . در سال 1979 پایگاه داده اوراکل اولین سیستم رابطه ای موجود از نظر تجاری شناخته شد . بـا مـدل رابطه ای ،داده ها بر اساس ستون و ردیف در جدولهایی سازماندهی شدند . بجای استفاده از نشانه روها برای حفظ رابطه بین داده ها ، یک شماره منحصر به فرد مانند شماره مشتری یا شماره شناسایی یک دانشجو در جدولهای چندگانه برای شناسایی سطر ذخیـره مـی شـدند.فهمیـدن مـدل رابطه ای آسان تر بود واز زبان SQLبرای دسترسی به پایگاه داده استفاده می شد، نیازمند آگـاهی بـه ایـن موضوع نبود که چگونه داده های زیرین از نظر فیزیکـی ذخیـره شـده انـد.. همچنـین سـاختن برنامـه هـای کاربردی که منجر به استفاده گسترده از سیستم های مدیریتی پایگاه داده شد آسان تر بـود . پـس از آمـاده سازی اولیه سیستم های به هم مرتبط، بسیاری از شرکتها برای دستیابی به پایگاه داده های رابطه ای ماننـد پرس و جوی ویژه ،گزارش و ابزارهای تحلیلی اقدام به توسعه محصوت بکار رفته کردند
با معرفی PCمحاسبه از سیستم های کامپیوتر بزرگ به سیستم های سرویس دهنـده/ گیرنـده پـیش رفت برنامه های کاربردی اوراکل در اواخر دهه 1980 معرفی شدند. شرکتها به طـور طـونی مـدت مجبـور
نبودند برنامه های کاربردی سفارشی خودشان را بسازند بلکه می توانستند نرم افزاری را خریداری کننـد کـه کاربردهای مبنایی مانند اوراکل ، PeopleSoftو SAPرا فراهم آورد
هنگامی که پایگاه داده های رابطه ای در دهه 1980 تکمیل شد ،سیـستم هـای OLTPبـا اسـتفاده از سیستمهای رابطه ای برای اتوماتیک کردن جنبه های عملـی تجـارت سـاخته شـدند.ایـن سیـستم هاشـامل سیستم هایی مانند پردازشگر دستو،ورود دستور، انبار،دفتر کل عمومی و حسابداری بود
OLTPبطوراتوماتیک پردازش می کنندو وضعیت یک سیستم رادریک زمـان دریـک حالـت رایـج ارائـه مـی دهند.در یک برنامه کاربردی صورت برداری،تراکنش هایی وجود داردتااقم جدید رابـه انبـار وارد کنـدواقم فروخته شده راحذف کندو مقدارموجود را به روز نگه دارد در حـالی کـه همیـشه تعـادل موجـودراحفظ مـی کنند.مقدار محدودی از تاریخ هم حفظ می شود.به عنوان مثال تععین این که چـه تعـداداز محـصول 222-95-111 موجود است یا این که در کدام تاریخ دستور شماره 45321 فرستاده شـده اسـت ،آسـان اسـت. درطی این مدت فروشندگان پایگاه داده رابطه ای برروی بهبود اجرای برای برنامه های کاربردی OLTPتمرکـز کرده و با استفاده از گواهینامه های استاندارد صنعتی TCP-Cبا یکدیگر رقابت می کردند
1-3-1- ظهور انبار داده
وقتی سیستم های OLTPساخته شدند تا بطور موثر داده ها را جمع آوری کند، برای بهترین تفـسیرآن چالش ایجاد شد . در اواخر دهه 1980 و اوایل دهه1990 در تشی برای بینش گسترده در سراسر بـازارتجارت اولین بانکهای اطعاتی بزرگ (اصطحی که توسط بیل اینمون ،پدر بانک اطعاتی بنا نهـاده شـد) ساخته شدند. اطعات از بسیاری از سیستم های عملیاتی برای اجرای عملیـات تجـاری روزمـره بـه منظـور فراهم آوردن دید گسترده همکاری جمع آوری شدند. بانک اطعاتی ساخته شد تا تجارت را در طول زمان مشاهده و خواسته ها را در نظر بگیرد. بسیاری از تصمیمات به توانایی در دیدن ماوراء جزئیات عملیات امروزه نیاز دارند و دید گسترده تـری از تجـارت دارنـد. پرس و جوهای بانک اطعاتی گزارش بر روی فروش محصوت را بالغ بر دو سال گذشته در بر دارد . یـا در تاثیر تغییرات اساسی در فروشهای جزئی در مقابل فروشهای اینترنتی دقت دارد.پرس و جوها شامل دقـت دراین که چگونه ارزشها در طول زمان تغییر کرده اند و چه چیز دیگری هم باید تغییر کند و احتما ارتباطـات را کشف کنند،بود.به منظور انجام این نوع تحلیل ،داده در انبار داده نیاز دارد تا برای دوره های طونی مـدت 5 تا 10 سال نگهداری شوند. انبار داده به منظور بررسی ماوراء در داده ها جهت یافتن اطعات استفاده می شود در یک انبار داده فعالیت اولیه ،پرس و جو یا خواندن داده ها است . وقتی داده های جدیـد بارگـذاری شوند تنها فعالیت به روزرسانی روی می دهد . سیستم های پشتیبانی از تصمیم[1] مانند کشف کننـده اوراکل[2]، پرس و جوی تعاملی، نمودار گیری، گراف ها و قابلیتهای گزارش دهـی را فـراهم مـی آورد اوراکـل انواع خاصی از ساختارهای دسترسی مانند شاخصهای نقش بیتی ،شاخصهای متصل نقش بیتی1 و مـشاهدات برنامه ریزی شده برای بهبود اجرای پرس و جو دارد .نرم افزار OLAPبرای تحلیل داده های تجاری در یک روش سلسله مراتبی از بـا بـه پـایین اسـتفاده شده است . به نظر می رسد پرس و جوها مکررا مطرح می شوند که در نتیجه یک پرسش منجر به پرسـیدن سوات بیشتری می شود دانستن اینکه سود امسال چقدر بوده است کافی نیست،تحلیل پـر هزینـه ای نیـاز دارد که سود هر محصول را در طول زمان برای هر منطقه جغرافیایی بدانند. این یک پرس و جوی سه جانبه از ابعاد محصوت زمان و منطقه جغرافیایی است. ممکن است یک تحلیل گر نیاز داشته باشد فروش ایـن مـاه را بـا مـاه سـال گذشـته در برابـر سـایت اینترنتی مقایسه کند.ممکن است او به سطح مفصلتری در سلسله مراتب برسد تـا فـروش را در فروشـگاهای مشخصی بدست آورد و تعیین کند کدام یک پر بازده تر و کدام یک باعث از دست دادن پول می شود
انبار داده نیاز به طراحی یک پایگاه داده متفاوت دارد
پایگاه های داده برای بازیابی سریع زمانی که مسیر دستیابی از قبل مشخص نیست طراحی شده انـد .اطعات اغلب از دیگر داده ها با خصه کردن داده ها و بدست آوردن جزئیات بیـشتر یـا دقـت در الگوهـا و روندها بدست می آید. در یک سیستم OLTP شیوه های نمودار سازی ارتباط موجودیتهـا (E-R)بـرای طراحـی پایگـاه داده استفاده می شود. هر موجودیت یک جدول می شود،و هر صفت مشخصه ستونها را ارزیابی می کند و روابط با اتصال کلید ابتدایی و ستونهای کلید خارجی به یکدیگر در زمان اجرا ارائه می شوند. یک طراحی متعارف اجرای بهینه ای را برای سیـستم هـای OLTPفـراهم مـی آورد از حجـم بـای تراکنشهایی که دادن داده های مربوطه در یک جدول و حذف افزونگی شـکل گرفتـه انـد تنهـا بـا در دسـت داشتن یک نسخه از داده ها ،از ترتیب های نادرست جلوگیری و ثبات حفظ می شود پس از متعـارف سـازی داده ها ،بعضی افزونگی ها ممکن است بر روی ستونهایی که برای بهبود اجرا به روز شده اند . دوباره معرفـی شوند. به منظور بهینه سازی عملکرد برای یک انبارداده که فعالیت اولیه پرس وجو از داده هاست یک مدل جدید داده مورد نیاز است . رالف کیمبل[3] اولین سـخنگوی صـنعتی بـرای مـدل سـازی ابعـاد و نویـسنده انبار داده تولکیت[4] نمودار ستاره ای ، روش جدیـدی ازطراحـی پایگـاه داده را بـرای تـسهیل کـردن پردازش OLAPمعرفی کرد . به منظوربهینه کردن اجرا برای یک پایگاه داده . شیوه های مدلـسازی ابعـادی استفاده شده است .شیوه ابعادی برای مدلـسازی . داده هـا را بـه شـکل حقیقـی وجـدولهای ابعـادی سـازمان دهـی مـی کند.دادها را در روشی ارائه می دهد که توسط کابران به راحتی فهمیده می شوند.کـاربران اغلـب بـه دنبـال گزارشهایی ازنتایج فروش بصورت هر سه ماه یکبار و طبقه بنـدی بـصورت فروشـگاهی و منطقـه جغرافیـایی هستند. تعداد فروش حقایق(facts) هستند. فروشگاه، منطقه و فصل ابعاد داده ها هـستند کـه بـر اسـاس آن تحلیل می شوند و برای سازمان دهی داده ها استفاده می شود. با مدل سازی ابعادی نداشتن نرمال سازی[5] و مجود افزونگی[6] معرفی می شود. در فصل های بعد خواهیم دید چگونه برای یک فروشگاه اینترنتـی یـک طراحـی واقعی ایجاد کنیم این نمونه شرکتی است که در سراسر این کتاب استفاده خواهد شد. اوراکل برای حمایت ازطرحهای ابعادی ترکیبات زیادی را اضافه کرده است .بهینه ساز مـی توانـد یـک نمودار ستاره ای راشناسایی کند. شما می توانید عوه بر ایجاد جدولها و ستونها ، ابعاد را هم تعریف کنید تا به تحلیل داده های شما در روشهای گوناگون کمک کند
در ادامه طراحی یک انبار را بررسی می کنیم، پیشنهاداتی که در این زمینه مطرح است عبارتست از
1)هرگز از قبل یک پایگاه داده طراحی نکنید
2)یک پایگاه داده با سیستمی با نوع پردازش تراکنش طراحی کنید
3)یک سیستم پایگاه داده بسازید
گزینه آخر را شما در نظر نگیرید یا از آن به عنوان کمک استفاده کنید، بویژه اگر از آخرین پایگاه اوراکل استفاده کرده باشید . بنابر این ، این موضوع خوانندگانی را مورد هدف قرار می دهد که در داده جریان یک یا دو مقوله قرار گیرند ،که ممکن است شخصی را که قب پایگاه داده یک مخزن بدون داده راطراحی کرده است متعجب سازد ،چرا؟ زیرا مهارتها و تکنیک های زم برای ایجاد یک پایگاه داده برای یک مخزن داده متفاوت از آنهایی است که برای سیستم با نوع پردازشگر تراکنش مورد نیاز است در نتیجه اگر شما به خاطر بعضی تکنیکهایی که مثل هم هستند یک شروع اصلی[7] را خواهید داشت ، این مهم است که به خود بگویید : من نوعی متفاوت از مخزن را طراحی کرده ام . بنابراین تفاوت در طراحی پایگاه داده در یک مخزن داده چیست ؟ در یک سیستم با نوع پردازش تراکنش هدف طراح این است تا تراکنش را خیلی سریع و کامل بسازد و همچنین طراح با امیدواری میداند چگونه شرکتهای بازرگانی از داده پرس و جو و از آن استفاده کند . عمدتاَ ، تغییر داده فقط رکورد های فردی خاص برای تراکنش است و گزارشات تنها به روز، هفته یا ماه جاری است. نقطه مقابل یک مخزن داده اگر چه پرس و جو ها باید با سرعت ممکن تکمیل شود ،آنها می توانند ساعت ها به طول بینجامند. در یک مخزن داده ، به منظور تکمیل انواع پرس و جوهای هوشمند ، حجم زیاد داده به دو صورت متداول و قدیمی با دقت مورد بررسی قرار می گیرند. مشکل عمده دیگر این است که چه اطعاتی باید در مخزن قرار بگیرد و در چه سطح مجزایی باید حفظ شود . این کتاب ،تکنیک هایی برای تعیین آنچه که باید در مخزن قرارگیرد و یا چگونه آن اطعات را جمع آوری کند مورد بحث قرار نمی دهد ، زیرا قب کتابهایی بوده اند که به طور جامع این موضوع را مورد برسی قرار داده اند . با این وجود ،اهمیت تس در تعیین اینکه چه چیزی باید در مخزن داده قرار گیرد نمی تواند فشار زیادی وارد کند . این خیلی مهم است زیرا ممکن است ، یک سال بعد که مخزن مورد استفاده قرار گرفته شود ، ناگهان متوجه شوید که اطعات وجود ندارد و یا در سطح نادرستی قرار دارد و در این مورد انواع پرس و جوهایی را که میتوانید بر روی مخزنتا ن اجرا کنید را محدود و یا ممنوع می کند .به عنوان مثال ، یک شرکت مخابراتی تصمیم میگیرد تا هر تلفنی را در پایگاه داده اش قرار ندهد ،و در عوض، مجموع آنچه را که مشتری در طول روز صرف کرده است را حفظ کند . سپس فردی در شرکت تصمیم میگیرد وقتی شماره های خاص گرفته میشود به مشتری تخفیف دهد . اکنون اگر مخزن ، هر شماره ای که توسط مشتریانش گرفته شد را ، شامل می شد شرکت قادر است دقیقا بفهمد این برنامه اگر در 12ماه گذشته انجام می شد چه هزینه ای را در بر می گرفت . در عوض این شرکت هیچ داده قابل استفاده را ندارد و یا باید حدس میزد چه هزینه ای دارد و یا اینکه طراحی سیستم جدید را به تعویق اندازد تا اینکه
داده کافی در دسترس باشد تا به طور دقیق هزینه واقعی شرکت را تعیین کند .یکی از مشکت طراحی این است که تعیین می کند داده در چه سطحی در مخزن ذخیره خواهد شد.اغلب ، ذخیره سازی هر تراکنش مانند مثال تلفن ، ممکن است بیش از اندازه به نظر برسد و از آنجایی که میتواند به معنای رشد مخزن به اندازه ترابایتها باشد ، وسوسه ای برای سازمان های داده به وجود می آورد . اداره کردن مخزن یک ترابایتی به روالهای کنترل شده و دقیق نیازدارد که باید دنبال شود . هر چه پایگاه داده بزرگتر شود،مدیریت پرس و جوی آن سخت تر می شود . به هر حال با دسترسی آسانتر به شیوه های ذخیره سازی ارزان، حفظ مقادیر زیادی از داده ها در سطح جزئی امکان پذیر و ارزشمندتر می شود .از آنجایی که انباشتگی[8] یک تصمیم مهم طراحی است ، طراحی باید دقیق باشد و قبل از آنکه یک چنین استراتژی را بپذیرد به دنبال تعیین کاربران مخزن باشد . همچنبن باید به این کاربران به طور واضح محدودیت هایی را که احتما به خاطر انباشتگی داده روی میدهد توضیح داد . با دسترس بودن حافظه ، بسیاری از سایت ها تمام داده هایی را که نیاز دارند ذخیره خواهند کرد
. 4-1 از مدلسازی ارتباط –موجودیت (E-R)[9]استفاده نکنید
شیوه جدیدی که برای ساخت یک سیستم یا پردازشگر تراکنش استفاده شده است ساخت یک نمودار ارتباط موجودیت از تجارت است . این شیوه سر انجام به عنوان داده فیزیکی استفاده شد ، زیرابسیاری از عناصر در مدل ما جدولهایی در پایگاه داده شوند ، اگر شما تا به حال یک مخزن داده را ایجاد نکرده اید اما در طراحی سیستم ها با پردازشگر تراکنش آن را تجربه کرده اید ، احتما می توانید در نظر بگیرید،یک مخزن داده از هیچ پایگاه داده متفاوت نیست و می توانید از همان روش استفاده کنید .متاسفانه ، این طور نیست و طراحان مخزن خیلی سریع می فهمند که مدل ارتباط موجودیت برای طراحی یک مخزن راه مناسب نیست ، مقامهای پیشتاز در این موضوع مانند رالف کیمبال از استفاده مدل چند بعدی طرفداری کرده اند و ما فهمیدیم که این روش برای یک مخزن داده ایده ال است .یک نمودار ارتباط موجودیت در جرئیات قابل توجهی میتواند ، فعل و انفعال بین تعداد اعضا را درسیستم مان نشان دهد و هر وقت ممکن است افزونگی را در سیستم حذف کند . نتیجه، یک دید بسیار یکسان از سازمان است که صد ها موجودیت را در امتداد روابطشان با دیگرموجودیتها توصیف میکند.درحالی که این روش در پردازش تراکنش جهان که به این سطح از جزییات نیاز داریم خوب است ،این برای مخزن داده بیش از حد پیچیده است . اگر شما از یک مدیرپایگاه داده[10] بپرسید : آیا نمودار ارتباط موجودیت را دارد ؟ مدیر پایگاه داده احتما پاسخ میدهد که قب زمانی که سیستم برای اولین بار طراحی شده بود ،اولین نمودار را طراحی کرده است . اما به دلیل اندازه اش و تغیرات بسیاری که در سیستم در طی عمرش روی داده نمودار ارتباط موجودیت به روز نبوده ،و اکنون تنها تا حدی دقیق است
خیلی ساده است اگر ما روش متفاوتی را برای مخزن داده استفاده کنیم ، تا اینکه این روش را به روز نگه داریم و آن را به کاربران نهایی بدهیم تا به آنها در فهم مخزن داده کمک کند . فاکتور دیگر که باید درنظر گرفته شود این است که نمودار ارتباط موجودیت به نتیجه بخشی در یک طرح پایگاه داده عادی گرایش دارد ، در حالی که در یک مخزن داده ، اغلب یک طرح غیر عادی استفاده شده است
1-4-1 مدل سازی ابعاد