Vandekinhte
Phần này tiếp tục làm rõ các phân tích trong thống kê mô tả.
Khi có bảng số liệu, chúng ta thường thấy giá trị một số biến phổ khá rộng, ví dụ doanh số bán hàng theo ngày, cân nặng, chiều cao…. Câu hỏi đặt ra là: đâu là giá trị tiêu biểu nhất và có thể dùng làm đại diện cho dataset đó?. Tiếp theo, liệu có sự biến thiên/dao động (variation) lớn hay nhỏ giữa các giá trị?. Để trả lời cho hai câu hỏi trên, thống kê mô tả cần phải đo lường giá trị trung tâm (measures of center) và giá trị biến thiên (measures of variation).
Bạn đang xem: Vandekinhte
3.1. Giá trị trung tâm (Measures of Center/Central Tendency/Average)
Có ba dạng là mean, median, mode: trung bình (mean), trung vị (vị trí chính giữa) (median), và nhất suất (tần suất xuất hiện cao nhất) (mode). Trong đó, mean thường được sử dụng nhất.
Nếu so sánh giữa mean và median, thì mean thường sẽ bị ảnh hưởng bởi các extreme observation (rất lớn hoặc rất nhỏ), còn median thì không. Vì vậy, nếu dataset có xuất hiện extreme observations, thì median thường được sử dụng thay cho mean.
3.2. Giá trị biến thiên (Measures of Variation)
Hai dataset có thể có cùng mean, median và mode, tuy nhiên vẫn có thể khác nhau ở các khía cạnh khác, một trong số đó là độ biến thiên variation. Ví dụ, xem xét chiều cao của các cầu thủ hai đội bóng, đều có cùng mean, median, mode, tuy nhiên, độ biến thiên về chiều cao giữa các cầu thủ là khác nhau; đội một có sự đồng đều hơn (độ biến thiên thấp), còn đội hai không đồng đều (độ biến thiên cao). Có hai phương thức đo độ biến thiên phổ biến nhất là “range” và “standard deviation”.
- Range = max – min = giá trị lớn nhất – giá trị thấp nhất = (chiều cao của cầu thủ cao nhất – chiều cao của cầu thủ thấp nhất). Kết quả range của hai team sẽ khác nhau. Range cao hơn thể hiện mức độ biến thiên lớn hơn.
- Standard deviation (STD): Khác với range, STD đo lường độ biến thiên của tất cả observation. Và thường được dùng để đo độ biến thiên khi mean được sử dụng. STD đo lường độ biến thiên của các observations so với giá trị trung bình (mean). STD càng lớn càng thể hiện độ biến thiên cao, STD càng nhỏ thể hiện giá trị các observations rất gần với mean, độ biến thiên thấp.
Variance: phương sai
Xem thêm : Lớp 7 học những môn gì? Lớp 7 cần bao nhiêu quyển vở? Là những vở gì?
Standard Deviation: độ lệch chuẩn
Đối với mẫu sample, ta gọi là phương sai mẫu và độ lệch chuẩn mẫu. Sở dĩ khi tính phương sai cần phải bình phương trước khi tính tổng là vì nếu không bình phương lên thì tổng sẽ bằng không.
Cách tính Variance và STD có chút khác nhau giữa sample và population. Ở trên là của sample, còn đối với population, công thức tính và ký hiệu sẽ khác.
- The Interquartile Range
Phương thức này thường dùng khi median được sử dụng làm giá trị trung tâm, và có dấu hiệu của extreme observation (hay outliers).
Q1 là median của nửa đầu tiên của dataset
Q2 là median của toàn bộ dataset
Q3 là median của nửa sau của dataset
Interquartile range IQR = Q3 – Q1
Outliers: Để xác định outliers, có thể dựa trên lower limit và upper limit. Giá trị thấp hơn lower limit hoặc cao hơn upper limit thường có khả năng cao là outlier. Ngoài ra, còn cần dựa trên các biểu đồ historgram, stem-and-leaf diagram để có thể nhận định rõ hơn.
Xem thêm : Cỡ chữ là gì? Cỡ chữ chuẩn trong word là bao nhiêu?
lower limit = Q1 – 1.5.IQR
upper limit = Q3 + 1.5.IQR
The five-number summary: Min, Q1, Q2, Q3, Max
Boxplots
Dùng boxplots có thể so sánh median và độ biến thiên IQR giữa các nhóm/experiment… IQR càng ngắn/nhỏ thể hiện độ biến thiên thấp.
3.3. Sử dụng Sample để tạo Thống kê mô tả cho Population
Từ bất kỳ biến x nào cũng có thể quy sang dạng z-scores…
z-Scores: mean = 0 và STD=1
to be continued…
Nguồn: https://thcshongthaiad.edu.vn
Danh mục: Tra Cứu