การทำเหมืองข้อมูลคืออะไร? พื้นฐานและเทคนิคของมัน

รากฐานของการปฏิวัติอุตสาหกรรมครั้งที่สี่จะขึ้นอยู่กับข้อมูล(Data)และ การ เชื่อม(Connectivity) ต่อเป็นส่วน ใหญ่ บริการวิเคราะห์(Analysis Services)ที่สามารถพัฒนาหรือสร้างโซลูชันการทำเหมืองข้อมูลจะมีบทบาทสำคัญในเรื่องนี้ สามารถช่วยในการวิเคราะห์และคาดการณ์ผลลัพธ์ของพฤติกรรมการซื้อของลูกค้า(customer purchasing behavior)เพื่อกำหนดเป้าหมายผู้ซื้อที่มีศักยภาพ ข้อมูล(Data)จะกลายเป็นทรัพยากรธรรมชาติใหม่ และกระบวนการดึงข้อมูลที่เกี่ยวข้องจากข้อมูลที่ไม่ได้เรียงลำดับนี้จะถือว่ามีความสำคัญอย่างมาก ดังนั้น ความเข้าใจที่ถูกต้องของคำศัพท์ – (term –) Data Miningกระบวนการ และแอปพลิเคชันสามารถช่วยเราในการพัฒนาแนวทางแบบองค์รวมสำหรับคำศัพท์นี้

ข้อมูลพื้นฐานเกี่ยวกับการทำเหมืองข้อมูล(Data Mining Basics)และเทคนิคต่างๆ

การขุดข้อมูล

การทำเหมืองข้อมูล หรือที่เรียกว่าKnowledge Discovery in Data ( KDD ) เป็นการค้นหาที่เก็บข้อมูลขนาดใหญ่เพื่อเปิดเผยรูปแบบและแนวโน้มที่นอกเหนือไปจากการวิเคราะห์ง่ายๆ อย่างไรก็ตาม นี่ไม่ใช่โซลูชันแบบขั้นตอนเดียว แต่เป็นกระบวนการหลายขั้นตอน และเสร็จสิ้นในขั้นตอนต่างๆ ซึ่งรวมถึง:

1] การรวบรวมข้อมูลและการเตรียมการ

เริ่มต้นด้วยการเก็บรวบรวมข้อมูลและการจัดระเบียบที่เหมาะสม ซึ่งช่วยเพิ่มโอกาสในการค้นหาข้อมูลที่สามารถค้นพบผ่านการทำเหมืองข้อมูลได้อย่างมาก

2] การสร้างแบบจำลองและการประเมินผล

ขั้นตอนที่สองในกระบวนการขุด(mining process) ข้อมูล คือการประยุกต์ใช้เทคนิคการสร้างแบบจำลองต่างๆ สิ่งเหล่านี้ใช้เพื่อปรับเทียบพารามิเตอร์ให้เป็นค่าที่เหมาะสมที่สุด เทคนิคที่ใช้ส่วนใหญ่ขึ้นอยู่กับความสามารถในการวิเคราะห์ที่จำเป็นในการตอบสนองความต้องการขององค์กรและการตัดสินใจ

ให้เราตรวจสอบเทคนิคการทำเหมืองข้อมูลโดยสังเขป พบว่าองค์กรส่วนใหญ่รวมเทคนิคการทำเหมืองข้อมูลตั้งแต่สองเทคนิคขึ้นไปเข้าด้วยกันเพื่อสร้างกระบวนการที่เหมาะสมที่ตรงกับความต้องการทางธุรกิจของพวกเขา

อ่าน(Read) : Big Data คืออะไร?

เทคนิคการทำเหมืองข้อมูล

  1. Association –  Associationเป็นหนึ่งในเทคนิคการทำเหมืองข้อมูลที่เป็นที่รู้จักอย่างกว้างขวาง ภายใต้สิ่งนี้ รูปแบบจะถูกถอดรหัสตามความสัมพันธ์ระหว่างรายการในธุรกรรมเดียวกัน ดังนั้นจึง(Hence)เรียกว่า เทคนิค ความสัมพันธ์ (relation technique)ผู้ค้าปลีกแบรนด์ใหญ่ใช้เทคนิคนี้ในการวิจัยพฤติกรรมการซื้อ/ความชอบของลูกค้า ตัวอย่างเช่น เมื่อติดตามพฤติกรรมการซื้อของผู้คน ผู้ค้าปลีกอาจระบุว่าลูกค้ามักซื้อครีมเมื่อซื้อช็อกโกแลต ดังนั้นแนะนำว่าครั้งต่อไปที่พวกเขาซื้อช็อกโกแลต พวกเขาอาจต้องการซื้อครีมด้วย
  2. การจำแนกประเภท(Classification)เทคนิคการทำเหมืองข้อมูล(data mining technique) นี้แตกต่างจากวิธีการข้าง ต้นในลักษณะที่อิงกับการเรียนรู้ของเครื่อง(machine learning)และใช้เทคนิคทางคณิตศาสตร์ เช่นโปรแกรมเชิงเส้นตรง แผนผังการ(Linear programming)ตัดสินใจโครง(Decision)ข่ายประสาท(Neural network)เทียม ในการจัดประเภท บริษัทพยายามสร้างซอฟต์แวร์ที่สามารถเรียนรู้วิธีจำแนกรายการข้อมูลออกเป็นกลุ่ม ตัวอย่างเช่น บริษัทสามารถกำหนดการจัดประเภทในแอปพลิเคชันที่ "ให้บันทึกทั้งหมดของพนักงานที่เสนอให้ลาออกจากบริษัท คาดการณ์จำนวนบุคคลที่มีแนวโน้มจะลาออกจากบริษัทในอนาคต" ภายใต้สถานการณ์ดังกล่าว บริษัทสามารถจำแนกบันทึกของพนักงานออกเป็นสองกลุ่มคือ "ลาออก" และ "อยู่" จากนั้นจึงใช้ข้อมูลได้ซอฟต์แวร์ขุด(mining software)เพื่อจำแนกพนักงานออกเป็นกลุ่มต่างๆ ที่สร้างขึ้นก่อนหน้านี้
  3. การทำ คลัสเตอร์(Clustering) – ออบเจ็กต์ ต่างๆ(Different)ที่มีลักษณะเหมือนกันจะถูกจัดกลุ่มเข้าด้วยกันในคลัสเตอร์เดียวผ่านระบบอัตโนมัติ คลัสเตอร์ดังกล่าวจำนวนมากถูกสร้างขึ้นเมื่อคลาสและอ็อบเจ็กต์ (ที่มีลักษณะคล้ายกัน) ถูกจัดวางไว้ในนั้นตามลำดับ เพื่อให้เข้าใจมากขึ้น ให้เราพิจารณาตัวอย่างการจัดการหนังสือ(book management)ในห้องสมุด ในห้องสมุด หนังสือจำนวนมหาศาลได้รับการจัดหมวดหมู่ไว้อย่างครบถ้วน รายการประเภทเดียวกันจะถูกรวมเข้าด้วยกัน ทำให้เราค้นหาหนังสือที่เราสนใจได้ง่ายขึ้น ในทำนองเดียวกัน โดยใช้เทคนิคการจัดกลุ่ม(clustering technique)เราสามารถเก็บหนังสือที่มีความคล้ายคลึงกันบางประเภทไว้ในคลัสเตอร์เดียวและกำหนดชื่อที่เหมาะสมให้กับหนังสือ ดังนั้น หากผู้อ่านกำลังมองหาหนังสือที่เกี่ยวข้อง(book relevant)เพื่อความสนใจของเขา เขาเพียงไปที่ชั้นนั้นแทนที่จะค้นหาในห้องสมุดทั้งหมด ดังนั้นเทคนิคการจัดกลุ่ม(clustering technique)จะกำหนดคลาสและวางอ็อบเจ็กต์ในแต่ละคลาส ในขณะที่เทคนิคการจำแนก ออบเจ็กต์จะถูกกำหนดเป็นคลาสที่กำหนดไว้ล่วงหน้า
  4. การ ทำนาย(Prediction) – การทำนายเป็นเทคนิคการทำเหมืองข้อมูล(data mining technique)ที่มักใช้ร่วมกับเทคนิคการทำเหมืองข้อมูล(data mining technique) อื่น ๆ มันเกี่ยวข้องกับการวิเคราะห์แนวโน้ม การจัดประเภทการจับคู่รูปแบบ(pattern matching)และความสัมพันธ์ โดยการวิเคราะห์เหตุการณ์ในอดีตหรืออินสแตนซ์ตามลำดับ(sequence one) ที่เหมาะสม เรา สามารถคาดการณ์เหตุการณ์ในอนาคตได้อย่างปลอดภัย ตัวอย่างเช่นเทคนิคการวิเคราะห์การคาดการณ์(prediction analysis technique)สามารถใช้ในการขายเพื่อคาดการณ์กำไรในอนาคต หากการขายได้รับเลือกให้เป็นตัวแปรอิสระและกำไร(variable and profit)เป็นตัวแปรที่ขึ้นอยู่กับการขาย จากนั้น จากข้อมูลการขายและกำไร(sale and profit data) ในอดีต เราสามารถวาดเส้นโค้งการถดถอย(regression curve)ที่เหมาะสมซึ่งใช้สำหรับการทำนาย(profit prediction)กำไร
  5. ต้นไม้การตัดสินใจ(Decision trees) – ภายในแผนผังการตัดสินใจ(decision tree)เราเริ่มต้นด้วยคำถามง่ายๆ ที่มีคำตอบหลายข้อ คำตอบแต่ละข้อนำไปสู่คำถามเพิ่มเติมเพื่อช่วยจัดประเภทหรือระบุข้อมูลเพื่อให้สามารถจัดหมวดหมู่ได้ หรือเพื่อให้สามารถคาดการณ์ตามคำตอบแต่ละข้อได้ ตัวอย่างเช่น เราใช้แผนผังการตัดสินใจต่อไปนี้เพื่อ(decision tree)กำหนดว่าจะเล่นคริกเก็ตODI หรือไม่ : Data Mining Decision Tree : เริ่มต้นที่โหนดราก(root node)หากพยากรณ์อากาศคาด(weather forecast)การณ์ฝน เราควรหลีกเลี่ยงการแข่งขันสำหรับวันนั้น อีกทางหนึ่ง หากพยากรณ์อากาศ(weather forecast)ชัดเจน เราควรเล่นเกมนี้

การทำเหมืองข้อมูล(Data Mining)เป็นหัวใจสำคัญของความพยายามในการวิเคราะห์ในอุตสาหกรรมและสาขาวิชาต่างๆ เช่น การสื่อสาร การประกันภัย(Insurance)การศึกษา การ(Education)ผลิตการ(Manufacturing)ธนาคารและการค้าปลีก(Banking and Retail)และอื่นๆ ดังนั้นการมีข้อมูลที่ถูกต้องจึงเป็นสิ่งสำคัญก่อนที่จะใช้เทคนิคต่างๆ



About the author

ฉันเป็นผู้เชี่ยวชาญด้านความปลอดภัยคอมพิวเตอร์ที่มีประสบการณ์มากกว่า 10 ปี เชี่ยวชาญด้านแอปและไฟล์ของ Windows ฉันได้เขียนและ/หรือทบทวนบทความหลายร้อยเรื่องในหัวข้อต่างๆ ที่เกี่ยวข้องกับความปลอดภัยของคอมพิวเตอร์ ซึ่งช่วยให้บุคคลต่างๆ ออนไลน์ได้อย่างปลอดภัย ฉันยังเป็นที่ปรึกษาที่มีประสบการณ์สำหรับธุรกิจที่ต้องการความช่วยเหลือในการปกป้องระบบของตนจากการละเมิดข้อมูลหรือการโจมตีทางไซเบอร์



Related posts