วันพุธที่ 19 มกราคม พ.ศ. 2554

Class9: Data Management and BI

Single Sign-on >> การ Log-in ด้วยรหัสเดียวกันทั้งองค์กร
ปัญหาด้าน Consistency ของข้อมูล คือ Format เช่น ว/ด/ป, ด/ว/ป และ ด/ป เป็นต้น รวมถึงการ Update ที่ไม่ตรงกัน เช่น ข้อมูลของกองคลัง Update สุด แต่ข้อมูลตำแหน่งทางวิชาการ update เมื่อ 5 ปีก่อน
Data Depository การรวบรวมข้อมูลเพื่อการ Analytical
ประโยชน์ของ DW คือ เพิ่มความสามารถในการเข้าถึงข้อมูล เนื่องจากถูกรวมไว้ ณ ที่เดียว ทำให้เกิดความรวดเร็วและง่ายต่อการเข้าถึง
Drill-down คือข้อมูลสรุปแบบเจาะลึก โดยเริ่มจากภาพกว้างแล้วเจาะลงไปในแต่ละกลุ่มย่อย ผู้บริหารใช้บ่อย (ตรงกันข้างกับ Roll-up) เช่น ข้อมูลจำนวนนักศึกษา “คณะพาณิชย์” >> แยกตามสาขาวิชา >> แยกตามวิธีรับเข้าศึกษา >> แยกตามภูมิลำเนา
DW Process คือการคัดกรองข้อมูลจาก Operational/ External เข้าสู่ Meta Data (Data ของ Data) หรือสิ่งที่ใช้ในการอธิบายข้อมูล รวมถึงบอกแนวทางการเคลื่อนย้ายข้อมูล
ECTL = Extract – Clean – Transform – Load หรือ Data Staging
Data Cleansing คือการแก้ปัญหา Consistency วิธีหนึ่ง เช่น หากเราพบว่า field ข้อมูลช่องหนึ่งหายไป เราอาจหาค่าเฉลี่ยของสองช่องข้างๆ มาใส่ลงไปแทน หรืออาจใช้วิธีอื่น ทั้งนี้ขึ้นกับว่าข้อมูลที่เราใช้มีลักษณะเป็นอย่างไรการกำจัด attribute ที่ไม่จำเป็นออกไป อาจเป็น attribute ที่ค่อนข้าง unique ของแต่ละบุคคล เช่น บ้านเลขที่ หมู่บ้าน ถนน แขวง เขต และจังหวัด เป็นต้น เนื่องจากมีความละเอียดมากเกินไปต่อการวิเคราะห์ข้อมูล โดยอาจแปลง (Transform) ข้อมูลจังหวัดเป็นภูมิภาค แล้วนำข้อมูลที่ได้จากการ transform นี้ไป Load ลงใน Data Cube
Data Cube มิติที่ใช้ในการวิเคราะห์ มีทั้งหมด 6 ด้าน โดยสามารถวิเคราะห์ได้ทั้งแบบ Slice และ Dice มีลักษณะคล้ายรูบิค คือพิจารณาได้ทั้งแนวตั้งและแนวนอน
องค์กรมีหลาย Data Cube ขึ้นกับว่าผู้บริหารกำหนด Dimension เพื่อการนำไปใช้อย่างไร
Dashboard คือ Interface ที่นำเสนอข้อมูลให้ผู้บริหารไปประเมิน หรือการ upload Business view เพื่อนำไปใช้งานจริง อย่างไรก็ตามการ upload Business view ที่มากจนเกินไปจะทำให้เกิดปัญหาในการใช้งาน อาจดูไม่ทั่วถึง เลือกใช้ได้ไม่เหมาะสม และบางครั้งข้อมูลไม่ค่อย update
ผู้บริหารที่นำข้อมูลไปใช้ควรมีความเข้าใจใน Nature ขององค์กร รู้ว่ายอดที่เพิ่มขึ้นหรือลดลงเกิดจากอะไรเป็นสำคัญ เช่น คณะใหม่ มีจำนวนนักศึกษาเพิ่มขึ้นตลอด 4 ปีแรก แต่ปีที่ 5 ไม่เพิ่ม เนื่องจากเป็นปีแรกที่มีทั้งการเข้าของนักศึกษาใหม่และการออกของบัณฑิต เป็นต้น มิฉะนั้น อาจเกิดการตีความผิดพลาดได้
Data Mart คือ DW ขนาดย่อม เป็นการตัดแบ่งข้อมูลในมุมมองของผู้ใช้ (กรณีที่มีผู้ใช้หลายคน) โดย copy (replicate) เฉพาะส่วนที่ตนเองต้องการใช้ออกมาจาก DW
Data Mart มี 2 ประเภท
1.       Replicate (Dependent)
2.       Stand-alone เกิดจากการที่องค์กรไม่พร้อมที่จะทำ DW ทั้ง Enterprise ดังนั้นแผนกที่พร้อมจะทำของตนเอง
Multi Dimensional DB (ฐานข้อมูลหลายมิติ) จะช่วยให้การ queries, Slice & dice, Roll up และ Drill down มีความรวดเร็วขึ้น
วัตถุประสงค์ของ Business Intelligence (BI) คือการเตรียมข้อมูลสำหรับการวิเคราะห์ เพื่อการตัดสินใจและลงมือปฏิบัติ
Visual Display
·        Dashboard มักใช้ในระดับปฏิบัติการ
·        Scorecard มักใช้ในระดับบริหาร
BSC >> Balance Scorecard ใช้ในการวัดผลการดำเนินงานในด้านต่างๆ ได้แก่ การเงิน ลูกค้า การปฏิบัติงานภายใน และการเรียนรู้ โดยทั้ง 4 ด้านควรเติบโตไปพร้อมๆกัน โดยมี KPI เป็นเกณฑ์ในการวัด
Business Performance Management (BPM) ใช้ในการเปรียบเทียบผลการดำเนินงานกับเป้าหมาย วัตถุประสงค์และกลยุทธ์ ขึ้นกับ BI Analysis Reporting
Online Analytical Processing (OLTP) เป็น Software ที่ช่วยให้สามารถวิเคราะห์ข้อมูลเชิงลึกได้หลายมิติ ช่วยในการ identify ปัญหา และมีบทวิเคราะห์ที่ไม่ซับซ้อน
Data Mining การค้นหาสิ่งที่ไม่เคยรู้มาก่อน ก่อให้เกิดความเข้าใจและสามารถปฏิบัติลงมือทำได้ เป็นการทำให้ข้อมูลขององค์กรที่มีอยู่มากมายมหาศาลเกิดประโยชน์ขึ้นมาผ่านการวิเคราะห์ อย่างไรก็ตามการทำ Data Mining จะเกิดประโยชน์ก็ต่อเมื่อสามารถตีความ (Interpretation) หรือเข้าใจในผลลัพธ์ที่ออกมา
5 รูปแบบในการนำเสนอ Data Mining
1.       Clustering เกิดจากการ plot ข้อมูลโดยไม่มีการชี้นำ และพบการกระจุกตัวของกลุ่มข้อมูล
2.       Classification แบ่งตามเกณฑ์คุณลักษณะต่างๆ โดยคาดผลล่วงหน้า
3.       Association เกิดผลสืบเนื่อง เช่น หากลูกค้าเปิดบัญชีออมทรัพย์ อีก 2 เดือนจะทำบัตร ATM เป็นต้น
4.       Sequence Discovery เกิดผลตามหลัง
5.       Prediction การ Forecast ไปข้างหน้า เช่น เรื่อง Fraud เป็นต้น
Numeric ข้อมูลที่มีไว้เพื่อคำนวณ เช่น เลขทะเบียนนักศึกษา
Alphabetical เป็นเพียงอักษร A-Z, ก-ฮ และ 0-9 เช่น บ้านเลขที่ และเบอร์โทรศัพท์ เป็นต้น
ข้อมูลใน DW ส่วนใหญ่เป็น Structured Data มีชื่อ attribute มีขนาดของ field (จำนวน Character ใน field) ซึ่งจะสามารถทำ Data Mining ได้ แต่ข้อมูลแบบ nonstructured มีการเติบโตค่อนข้างสูง เช่น complaint จากลูกค้า
Text Mining การทำ Data Mining ของข้อมูลที่มีลักษณะเป็น Nonstructured เช่นการ detect spam e-mail, การประมวลผลข้อความเพื่อส่งไปยังผู้ที่เกี่ยวข้องภายในองค์กร และการวิเคราะห์สถิติการรับคืนสินค้า เพื่อ identify สาเหตุและการดำเนินการแก้ไขปัญหาที่เกี่ยวข้อง
ภัคนิจ แดงสุภา 5202112602

ไม่มีความคิดเห็น:

แสดงความคิดเห็น