วันพุธที่ 19 มกราคม พ.ศ. 2554

Class9: Data Management and BI

Single Sign-on >> การ Log-in ด้วยรหัสเดียวกันทั้งองค์กร
ปัญหาด้าน Consistency ของข้อมูล คือ Format เช่น ว/ด/ป, ด/ว/ป และ ด/ป เป็นต้น รวมถึงการ Update ที่ไม่ตรงกัน เช่น ข้อมูลของกองคลัง Update สุด แต่ข้อมูลตำแหน่งทางวิชาการ update เมื่อ 5 ปีก่อน
Data Depository การรวบรวมข้อมูลเพื่อการ Analytical
ประโยชน์ของ DW คือ เพิ่มความสามารถในการเข้าถึงข้อมูล เนื่องจากถูกรวมไว้ ณ ที่เดียว ทำให้เกิดความรวดเร็วและง่ายต่อการเข้าถึง
Drill-down คือข้อมูลสรุปแบบเจาะลึก โดยเริ่มจากภาพกว้างแล้วเจาะลงไปในแต่ละกลุ่มย่อย ผู้บริหารใช้บ่อย (ตรงกันข้างกับ Roll-up) เช่น ข้อมูลจำนวนนักศึกษา “คณะพาณิชย์” >> แยกตามสาขาวิชา >> แยกตามวิธีรับเข้าศึกษา >> แยกตามภูมิลำเนา
DW Process คือการคัดกรองข้อมูลจาก Operational/ External เข้าสู่ Meta Data (Data ของ Data) หรือสิ่งที่ใช้ในการอธิบายข้อมูล รวมถึงบอกแนวทางการเคลื่อนย้ายข้อมูล
ECTL = Extract – Clean – Transform – Load หรือ Data Staging
Data Cleansing คือการแก้ปัญหา Consistency วิธีหนึ่ง เช่น หากเราพบว่า field ข้อมูลช่องหนึ่งหายไป เราอาจหาค่าเฉลี่ยของสองช่องข้างๆ มาใส่ลงไปแทน หรืออาจใช้วิธีอื่น ทั้งนี้ขึ้นกับว่าข้อมูลที่เราใช้มีลักษณะเป็นอย่างไรการกำจัด attribute ที่ไม่จำเป็นออกไป อาจเป็น attribute ที่ค่อนข้าง unique ของแต่ละบุคคล เช่น บ้านเลขที่ หมู่บ้าน ถนน แขวง เขต และจังหวัด เป็นต้น เนื่องจากมีความละเอียดมากเกินไปต่อการวิเคราะห์ข้อมูล โดยอาจแปลง (Transform) ข้อมูลจังหวัดเป็นภูมิภาค แล้วนำข้อมูลที่ได้จากการ transform นี้ไป Load ลงใน Data Cube
Data Cube มิติที่ใช้ในการวิเคราะห์ มีทั้งหมด 6 ด้าน โดยสามารถวิเคราะห์ได้ทั้งแบบ Slice และ Dice มีลักษณะคล้ายรูบิค คือพิจารณาได้ทั้งแนวตั้งและแนวนอน
องค์กรมีหลาย Data Cube ขึ้นกับว่าผู้บริหารกำหนด Dimension เพื่อการนำไปใช้อย่างไร
Dashboard คือ Interface ที่นำเสนอข้อมูลให้ผู้บริหารไปประเมิน หรือการ upload Business view เพื่อนำไปใช้งานจริง อย่างไรก็ตามการ upload Business view ที่มากจนเกินไปจะทำให้เกิดปัญหาในการใช้งาน อาจดูไม่ทั่วถึง เลือกใช้ได้ไม่เหมาะสม และบางครั้งข้อมูลไม่ค่อย update
ผู้บริหารที่นำข้อมูลไปใช้ควรมีความเข้าใจใน Nature ขององค์กร รู้ว่ายอดที่เพิ่มขึ้นหรือลดลงเกิดจากอะไรเป็นสำคัญ เช่น คณะใหม่ มีจำนวนนักศึกษาเพิ่มขึ้นตลอด 4 ปีแรก แต่ปีที่ 5 ไม่เพิ่ม เนื่องจากเป็นปีแรกที่มีทั้งการเข้าของนักศึกษาใหม่และการออกของบัณฑิต เป็นต้น มิฉะนั้น อาจเกิดการตีความผิดพลาดได้
Data Mart คือ DW ขนาดย่อม เป็นการตัดแบ่งข้อมูลในมุมมองของผู้ใช้ (กรณีที่มีผู้ใช้หลายคน) โดย copy (replicate) เฉพาะส่วนที่ตนเองต้องการใช้ออกมาจาก DW
Data Mart มี 2 ประเภท
1.       Replicate (Dependent)
2.       Stand-alone เกิดจากการที่องค์กรไม่พร้อมที่จะทำ DW ทั้ง Enterprise ดังนั้นแผนกที่พร้อมจะทำของตนเอง
Multi Dimensional DB (ฐานข้อมูลหลายมิติ) จะช่วยให้การ queries, Slice & dice, Roll up และ Drill down มีความรวดเร็วขึ้น
วัตถุประสงค์ของ Business Intelligence (BI) คือการเตรียมข้อมูลสำหรับการวิเคราะห์ เพื่อการตัดสินใจและลงมือปฏิบัติ
Visual Display
·        Dashboard มักใช้ในระดับปฏิบัติการ
·        Scorecard มักใช้ในระดับบริหาร
BSC >> Balance Scorecard ใช้ในการวัดผลการดำเนินงานในด้านต่างๆ ได้แก่ การเงิน ลูกค้า การปฏิบัติงานภายใน และการเรียนรู้ โดยทั้ง 4 ด้านควรเติบโตไปพร้อมๆกัน โดยมี KPI เป็นเกณฑ์ในการวัด
Business Performance Management (BPM) ใช้ในการเปรียบเทียบผลการดำเนินงานกับเป้าหมาย วัตถุประสงค์และกลยุทธ์ ขึ้นกับ BI Analysis Reporting
Online Analytical Processing (OLTP) เป็น Software ที่ช่วยให้สามารถวิเคราะห์ข้อมูลเชิงลึกได้หลายมิติ ช่วยในการ identify ปัญหา และมีบทวิเคราะห์ที่ไม่ซับซ้อน
Data Mining การค้นหาสิ่งที่ไม่เคยรู้มาก่อน ก่อให้เกิดความเข้าใจและสามารถปฏิบัติลงมือทำได้ เป็นการทำให้ข้อมูลขององค์กรที่มีอยู่มากมายมหาศาลเกิดประโยชน์ขึ้นมาผ่านการวิเคราะห์ อย่างไรก็ตามการทำ Data Mining จะเกิดประโยชน์ก็ต่อเมื่อสามารถตีความ (Interpretation) หรือเข้าใจในผลลัพธ์ที่ออกมา
5 รูปแบบในการนำเสนอ Data Mining
1.       Clustering เกิดจากการ plot ข้อมูลโดยไม่มีการชี้นำ และพบการกระจุกตัวของกลุ่มข้อมูล
2.       Classification แบ่งตามเกณฑ์คุณลักษณะต่างๆ โดยคาดผลล่วงหน้า
3.       Association เกิดผลสืบเนื่อง เช่น หากลูกค้าเปิดบัญชีออมทรัพย์ อีก 2 เดือนจะทำบัตร ATM เป็นต้น
4.       Sequence Discovery เกิดผลตามหลัง
5.       Prediction การ Forecast ไปข้างหน้า เช่น เรื่อง Fraud เป็นต้น
Numeric ข้อมูลที่มีไว้เพื่อคำนวณ เช่น เลขทะเบียนนักศึกษา
Alphabetical เป็นเพียงอักษร A-Z, ก-ฮ และ 0-9 เช่น บ้านเลขที่ และเบอร์โทรศัพท์ เป็นต้น
ข้อมูลใน DW ส่วนใหญ่เป็น Structured Data มีชื่อ attribute มีขนาดของ field (จำนวน Character ใน field) ซึ่งจะสามารถทำ Data Mining ได้ แต่ข้อมูลแบบ nonstructured มีการเติบโตค่อนข้างสูง เช่น complaint จากลูกค้า
Text Mining การทำ Data Mining ของข้อมูลที่มีลักษณะเป็น Nonstructured เช่นการ detect spam e-mail, การประมวลผลข้อความเพื่อส่งไปยังผู้ที่เกี่ยวข้องภายในองค์กร และการวิเคราะห์สถิติการรับคืนสินค้า เพื่อ identify สาเหตุและการดำเนินการแก้ไขปัญหาที่เกี่ยวข้อง
ภัคนิจ แดงสุภา 5202112602

วันศุกร์ที่ 14 มกราคม พ.ศ. 2554

Class8: Data Management

Information System (IS) ระบบที่ทำหน้าที่ในการรวบรวมข้อมูล เพื่อนำมาประมวลผล วิเคราะห์ สร้างสารสนเทศโดยมีวัตถุประสงค์เฉพาะด้าน นำเสนอให้แก่ผู้ที่ต้องการ และจัดเก็บบันทึกข้อมูลที่นำเข้าสู่ระบบ เพื่อใช้งานในอนาคต
การจัดเก็บบันทึก ต้องจัดเก็บที่ข้อมูล มิใช่สารสนเทศ เนื่องจากสารสนเทศเป็นข้อมูลที่ผ่านการประมวลผลแล้ว เช่น ข้อมูลจำนวนนักศึกษาทั้งหมดในปีการศึกษานี้ ดังนั้นข้อมูลที่จัดเก็บควรเป็นข้อมูลดิบ (Original) ซึ่งจะประกอบด้วยข้อมูลรายชื่อนักศึกษา ซึ่งจะทำให้การเก็บข้อมูลมีความสมบูรณ์มากกว่าเป็นต้น
ส่วนประกอบของ IS 6 ประการ ได้แก่ Hardware/ Software/ Data/ Network/ Procedure และ People
Application เป็นการตอบโจทย์ความต้องการการใช้งานเฉพาะด้าน เช่น ระบบบัญชี, Supply Chain, IT, Production
หลักเกณฑ์การแบ่งประเภท IS มี 2 แบบ อาจแบ่งตามสายงาน (Functional) หรือตามระดับสายการบังคับบัญชา (Level of Management) โดยในทางปฎิบัติการจัดประเภท IS จะเกิดขึ้นทั้งสองแบบทั้งแนวนอนและแนวตั้งในเวลาเดียวกัน
การแบ่งประเภทของ IS ตามสายงาน อาจแบ่งเป็น AIS (Accounting), FIS (Finance), MIS (Marketing), HRIS (Human Resource)
การแบ่งประเภท IS ตามระดับสายการบังคับบัญชา ได้แก่ Transaction Processing System (TPS), Decision Support System (DSS) และ Executive Support System (ESS) โดยในปัจจุบันมักมีระบบแทรกกลางระหว่างระดับการบังคับบัญชา เพื่อทำหน้าที่ในการเป็นที่ปรึกษาให้แก่ฝ่ายบริหาร (Knowledge Worker) ในการคิดวิเคราะห์ข้อมูลในการทำงานเป็นไปได้อย่างราบรื่นยิ่งขึ้น
โดย TPS เป็นระบบที่สำคัญที่สุด เนื่องจากเป็นพื้นฐานของระบบอื่นทั้งหมดและเป็นข้อมูลที่ใช้ในการปฏิบัติงานประจำวัน
Enterprise Resource Planning (ERP) เป็นระบบที่ใช้บริหารทรัพยากรขององค์กรแบบบูรณาการเพื่อให้แต่ละแผนกสอดคล้องกันโดยภาพรวม
Data/ Information/ Knowledge ต่างกันที่ประโยชน์ เนื่องจากข้อมูลไม่สามารถตัดสินจากรูปลักษณ์ (ลักษณะของ output อาจไม่ต่างจาก input เลยแม้แต่น้อย) แต่ต่างกันที่ส่วนได้เสียจากการรับทราบข้อมูลดังกล่าว อันส่งผลให้เกิดการเปลี่ยนแปลงในพฤติกรรมและการตัดสินใจที่ต่างออกไป ตัวอย่างเช่น งด IM312” อาจเป็นเพียง Data เนื่องจากเรามิได้เรียนวิชานี้และไม่มีคนที่เรารู้จักเรียน class นี้อยู่ แต่ งด AI613” ถือเป็น Information เนื่องจาก เมื่อเราทราบข้อมูลทำให้เราเปลี่ยนแปลง Action จากการมาเรียนเป็นไม่มาเรียนแทน
System (ระบบ) >> Input (สิ่งที่นำเข้า) à Process (กระบวนการ) à Output (ผลลัพธ์) ผ่านการควบคุมดูแล (Control) และการตอบสนอง (Feedback) โดยมีการกำหนดวัตถุประสงค์ที่ชัดเจนไว้ก่อนล่วงหน้า
IS คือระบบที่สร้าง Output เป็นสารสนเทศ เพื่อส่งต่อให้ลูกค้า ผู้บริหารหรือผู้ที่ต้องการใช้งาน ตัวอย่างเช่น Report ต่างๆ ที่แสดงยอดขายและความเสี่ยงขององค์กร
ระบบฐานข้อมูล (Database) เป็นองค์ประกอบของระบบสารสนเทศ (Infrastructure)
Facebook, Twitter, tbs.tu.ac.th (กระดานแปะข้อมูล) และ google (search engine) ไม่ใช่ IS
แต่ amazon.com ถือเป็น IS
การบริหารจัดการข้อมูล (Data Management) เป็นเรื่องยาก เนื่องจากข้อมูลมีการเพิ่มขึ้นแบบทวีคูณอย่างต่อเนื่อง นอกจากนี้ข้อมูลยังมีการกระจายตัวทั่วองค์กร และมีความซ้ำซ้อน จากการที่ต่างแผนกต่างทำต่างใช้ ไม่มีกลไกในการสร้างและจัดเก็บบันทึกข้อมูลอย่างชัดเจน นอกเหนือจากข้อมูลภายในแล้ว ข้อมูลภายนอกองค์กรก็มีความจำเป็นในการตัดสินใจเชิงกลยุทธ์ (การจัดประเภทข้อมูลว่าเป็น External หรือ Internal ดูจากความมีอำนาจในการควบคุมจัดการข้อมูลขององค์กร) สิ่งที่สำคัญในการบริหารจัดการข้อมูลอีกประการหนึ่งคือ การดูแลให้ผู้มิสิทธิใช้ข้อมูลสามารถเข้าถึงข้อมูลได้อย่างเหมาะสม รวมถึงการมีระบบป้องกันความปลอดภัยที่น่าเชื่อถือ (ตามหลัก Security, Quality และ Integrity) ดังนั้นในการบริหารจัดการข้อมูลควรเลือกเครื่องมือที่มีความเหมาะสมกับองค์กร
วัตถุประสงค์ของ Data Management คือ การจัดหา infrastructure หรือเครื่องมือที่จะสามารถแปลงข้อมูลดิบให้เป็นข้อมูลที่เป็นประโยชน์ต่อองค์กรสูงสุด
Data Management แบ่งเป็น 4 แบบได้แก่
1.      Data Profiling: ทำความเข้าใจในข้อมูล
2.      Data Quality Management: พัฒนาคุณภาพของข้อมูล
3.      Data Integration: การเก็บรวบรวมข้อมูลที่คล้ายคลึงกันจากหลายแหล่ง
4.      Data Augmentation: พัฒนามูลค่าของข้อมูล
Knowledge
-         Implicit มักติดตัวอยู่กับบุคลากร ดังนั้นหากคนออก ความรู้ก็ไปด้วย
-         Explicit ถูกถ่ายทอดออกมาแล้วอยู่ในรูปบทความ หนังสือหรือกฎระเบียบองค์กร (คิดเป็นเพียงประมาณ 10% ขององค์ความรู้ทั้งหมดขององค์กรเท่านั้น)
Personal Data เป็นความรู้ที่พนักงานใช้ เป็นความรู้อยู่ในระบบที่ได้จากการทำงานประจำวันของพนักงาน มิใช่ประวัติส่วนตัวของพนักงาน ซึ่งอยู่ใน TPS ของฝ่าย HR
การวิเคราะห์แบบ Cross-functional ตาม process ของข้อมูลจะมาจากหลาย database หลาย application และมี format ที่ต่างกัน ดังนั้นจึงอาจเกิดปัญหาในการเรียกข้อมูล (queries) ที่เหนือกว่า TPS การแก้ปัญหาคือการทำ Analytical Processing เก็บไว้ใน data warehouse
Data Warehouse คือ Database ที่ผ่านการ extract ข้อมูลในบาง attribute (schema) โดยดึงเฉพาะข้อมูลที่ต้องการใช้ในการวิเคราะห์ เป็นข้อมูลที่ผ่านการจัดระเบียบด้วยมุมมองใหม่ๆ ใช้เป็น Input ของ Data Mining ก่อนอื่นต้องรู้โครงสร้างของ DB ก่อน จึงจะ extract ได้ถูกต้อง ควรมีอย่างยิ่งใน Information-based Organization
ลักษณะของ Data Warehouse
1.      Organization ควรจัดระเบียบตาม subject จะได้ดึงออกมาใช้ได้ง่าย
2.      Consistency  ข้อมูลที่จัดเก็บควรมีความสม่ำเสมอ available ทุกช่วงเวลาที่จัดเก็บ ไม่ตกหล่น
3.      Time Variant มีช่วงเวลาการจัดเก็บ เพื่อเป็นประโยชน์ในการพยากรณ์แนวโน้มต่างๆในอนาคต
4.      Non-volatile เมื่อจัดเก็บแล้วจะไม่มีการ update ข้อมูลในลักษณะของการแก้ไข แต่เป็นการ refresh ใส่ข้อมูลใหม่เข้าไปมากกว่า
5.      Relational
6.      Client/server
ภัคนิจ แดงสุภา 5202112602