การ Scale ข้อมูลใน Machine Learning ด้วย Python

การ Scale ข้อมูลใน Machine Learning คือการปรับค่าของแต่ละ feature ให้มีค่าอยู่ในช่วงเดียวกันหรือประมาณกัน เพื่อให้โมเดลสามารถเรียนรู้และทำนายผลได้ดีขึ้น โดยทั่วไปแล้ว Scale จะใช้กับข้อมูลที่มีค่าต่างกันมากๆ เช่น ข้อมูลที่มีหน่วยวัดต่างกัน เช่น น้ำหนัก (kg), ความยาว (cm), อุณหภูมิ (Celsius) เป็นต้น

การ Scale ข้อมูลทำได้หลายวิธี แต่วิธีที่ใช้บ่อยที่สุด คือ

1. Standardization

เป็นการปรับค่าของ feature โดยให้มี mean เท่ากับ 0 และ standard deviation เท่ากับ 1 โดยใช้สูตรดังนี้

z = (x – mean) / std

โดยที่

x = ค่าของ feature ในแต่ละตัวอย่าง
mean = ค่าเฉลี่ยของ feature
std = ส่วนเบี่ยงเบนมาตรฐานของ feature

2. Min-Max Scaling

เป็นการปรับค่าของ feature ให้มีค่าอยู่ระหว่าง 0 ถึง 1 โดยใช้สูตรดังนี้

x_scaled = (x – min) / (max – min)

โดยที่

x = ค่าของ feature ในแต่ละตัวอย่าง
min = ค่าของ feature ที่น้อยที่สุด
max = ค่าของ feature ที่มากที่สุด

การเลือกวิธี Scale ข้อมูลขึ้นอยู่กับลักษณะของข้อมูลและประเภทของโมเดลที่ใช้ ในบางกรณี Standardization จะให้ผลลัพธ์ที่ดีกว่า Min-Max Scaling แต่ในบางกรณีอาจจะต้องใช้ Min-Max Scaling แทน เช่น การใช้ Neural Network สำหรับการแยกแยะภาพ เป็นต้น

การ Scale ข้อมูล มีประโยชน์ดังนี้ คือ

ช่วยให้โมเดลมีประสิทธิภาพมากขึ้น การ Scale ข้อมูลช่วยปรับค่าของ feature ให้มีค่าที่เหมาะสมและเทียบเท่ากัน ทำให้โมเดลสามารถทำงานได้ดีขึ้นและมีประสิทธิภาพมากขึ้น
ช่วยลดเวลาการ Train โมเดล การ Scale ข้อมูลช่วยลดความซับซ้อนของโมเดลและลดเวลาในการ Train โมเดลเพราะโมเดลจะมีการประมวลผลที่ซับซ้อนมากขึ้นหากมี feature ที่มีช่วงค่าต่างกันมากๆ
ช่วยให้โมเดลทำนายได้แม่นยำกว่า การ Scale ข้อมูลช่วยปรับค่าของ feature เพื่อให้มีค่าในช่วงที่เหมาะสมและเทียบเท่ากัน ทำให้โมเดลสามารถทำนายผลได้แม่นยำมากขึ้น และลดความผิดพลาดในการทำนาย
ช่วยให้โมเดลสามารถ generalization ได้ดีขึ้น การ Scale ข้อมูลช่วยลดความซับซ้อนของโมเดลและช่วยให้โมเดล generalization ได้ดีขึ้น หรือสามารถทำนายผลในข้อมูลที่ไม่เคยเห็นมาก่อนได้ดีขึ้น