Tra Cứu

Vandekinhte

Phần này tiếp tục làm rõ các phân tích trong thống kê mô tả.

Khi có bảng số liệu, chúng ta thường thấy giá trị một số biến phổ khá rộng, ví dụ doanh số bán hàng theo ngày, cân nặng, chiều cao…. Câu hỏi đặt ra là: đâu là giá trị tiêu biểu nhất và có thể dùng làm đại diện cho dataset đó?. Tiếp theo, liệu có sự biến thiên/dao động (variation) lớn hay nhỏ giữa các giá trị?. Để trả lời cho hai câu hỏi trên, thống kê mô tả cần phải đo lường giá trị trung tâm (measures of center) và giá trị biến thiên (measures of variation).

3.1. Giá trị trung tâm (Measures of Center/Central Tendency/Average)

Có ba dạng là mean, median, mode: trung bình (mean), trung vị (vị trí chính giữa) (median), và nhất suất (tần suất xuất hiện cao nhất) (mode). Trong đó, mean thường được sử dụng nhất.

Nếu so sánh giữa mean và median, thì mean thường sẽ bị ảnh hưởng bởi các extreme observation (rất lớn hoặc rất nhỏ), còn median thì không. Vì vậy, nếu dataset có xuất hiện extreme observations, thì median thường được sử dụng thay cho mean.

meanmedianmoderange

3.2. Giá trị biến thiên (Measures of Variation)

Hai dataset có thể có cùng mean, median và mode, tuy nhiên vẫn có thể khác nhau ở các khía cạnh khác, một trong số đó là độ biến thiên variation. Ví dụ, xem xét chiều cao của các cầu thủ hai đội bóng, đều có cùng mean, median, mode, tuy nhiên, độ biến thiên về chiều cao giữa các cầu thủ là khác nhau; đội một có sự đồng đều hơn (độ biến thiên thấp), còn đội hai không đồng đều (độ biến thiên cao). Có hai phương thức đo độ biến thiên phổ biến nhất là “range” và “standard deviation”.

twoteams

  • Range = max – min = giá trị lớn nhất – giá trị thấp nhất = (chiều cao của cầu thủ cao nhất – chiều cao của cầu thủ thấp nhất). Kết quả range của hai team sẽ khác nhau. Range cao hơn thể hiện mức độ biến thiên lớn hơn.
  • Standard deviation (STD): Khác với range, STD đo lường độ biến thiên của tất cả observation. Và thường được dùng để đo độ biến thiên khi mean được sử dụng. STD đo lường độ biến thiên của các observations so với giá trị trung bình (mean). STD càng lớn càng thể hiện độ biến thiên cao, STD càng nhỏ thể hiện giá trị các observations rất gần với mean, độ biến thiên thấp.

sg_standard_deviation

Variance: phương sai

Standard Deviation: độ lệch chuẩn

Đối với mẫu sample, ta gọi là phương sai mẫu và độ lệch chuẩn mẫu. Sở dĩ khi tính phương sai cần phải bình phương trước khi tính tổng là vì nếu không bình phương lên thì tổng sẽ bằng không.

samplevarstd

Cách tính Variance và STD có chút khác nhau giữa sample và population. Ở trên là của sample, còn đối với population, công thức tính và ký hiệu sẽ khác.

  • The Interquartile Range

Phương thức này thường dùng khi median được sử dụng làm giá trị trung tâm, và có dấu hiệu của extreme observation (hay outliers).

Interquartile-Even

Q1 là median của nửa đầu tiên của dataset

Q2 là median của toàn bộ dataset

Q3 là median của nửa sau của dataset

Interquartile range IQR = Q3 – Q1

Outliers: Để xác định outliers, có thể dựa trên lower limit và upper limit. Giá trị thấp hơn lower limit hoặc cao hơn upper limit thường có khả năng cao là outlier. Ngoài ra, còn cần dựa trên các biểu đồ historgram, stem-and-leaf diagram để có thể nhận định rõ hơn.

lower limit = Q1 – 1.5.IQR

upper limit = Q3 + 1.5.IQR

The five-number summary: Min, Q1, Q2, Q3, Max

outlier 1 outlier2a

Boxplots

Dùng boxplots có thể so sánh median và độ biến thiên IQR giữa các nhóm/experiment… IQR càng ngắn/nhỏ thể hiện độ biến thiên thấp.

boxplots

3.3. Sử dụng Sample để tạo Thống kê mô tả cho Population

Từ bất kỳ biến x nào cũng có thể quy sang dạng z-scores…

z-Scores: mean = 0 và STD=1

to be continued…

THCS Hồng Thái

“Đừng xấu hổ khi không biết, chỉ xấu hổ khi không học.” Khuyết Danh
Back to top button