Bài 7. Thống kê mô tả (Descriptive Statistics)

Một phần quan trọng của diễn đạt tài liệu là việc dùng thống kê tóm tắt để diễn đạt những đặc trưng quan trọng của một phân phối. Ba thống kê diễn đạt thiết yếu giúp miêu tả phân phối tài liệu là những thước đo về vị trí hoặc khuynh hướng TT, những thước đo về hình dạng và những thước đo về độ phân tán ( Viral ) .

1. Đo lường xu hướng hướng tâm

Các thống kê phổ biến để xác định trung tâm của phân phối bao gồm mode, trung vị (median) và trung bình cộng số học (arithmetic mean). Các phép đo trung tâm ít phổ biến hơn là trung bình có trọng số (Weighted mean), trung bình đã cắt bớt (trimmed mean) và trung bình cộng hình học (geometric mean).

Bạn đang đọc: Bài 7. Thống kê mô tả (Descriptive Statistics)

Mode là giá trị xuất hiện thường xuyên nhất trong một phân phối. Ví dụ, trong phân phối của 10 giá trị sau: 2 10 8 2 13 12 0 6 11 4, mode là 2. Trong phân phối tần suất được nhóm gộp, khoảng lớp có tần số lớn nhất được gọi là khoảng phương thức (modal interval).Trung vị là phân vị thứ 50 hoặc giá trị giữa trong một tập hợp các quan sát là thứ tự được trong độ lớn. Trong một chuỗi có thứ tự có số lẻ của các giá trị, trung vị là giá trị giữa. Trong một chuỗi có thứ tự có số chẵn, và ví dụ, 0 2 2 4 6 8 10 11 12 13, trung vị là giá trị trung bình của hai giá trị ở giữa. Trong ví dụ này, trung vị là nằm giữa giá trị thứ 5 và thứ 6, tức là (6 + 8) /2=7.Trung bình cộng số học (arithmetic mean) là bằng tổng các giá trị trong một phân phối chia cho tổng số giá trị. Đối với 10 số sau, 2 10 8 2 13 12 0 6 11 4, trung bình cộng số học là: (2+10+8+2+13+12+0+6+11+4)/10 = 68/10 = 6.8. Giá trị trung bình tương ứng với trung tâm của một phân phối.

Ba thước đo xu hướng trung tâm, mode, trung vịtrung bình sẽ đủ cho phần lớn các tình huống bạn có thể gặp phải. Tuy vậy, có hai tình huống khi trung bình cộng số học (arithmetic mean) có thể không phù hợp. Khi tất cả các giá trị trong một phân phối không có tầm quan trọng như nhau hoặc khi chúng ta muốn tính một trung bình tổng thể từ hai mẫu được kết hợp. Trong những trường hợp này, chúng ta nên đưa ra trọng số tương đối cho các giá trị.

Bài 7. Thống kê mô tả (Descriptive Statistics)

Khi tích hợp những giá trị từ hai hoặc nhiều mẫu, trung bình cộng số học sẽ bị rơi lệch trừ khi những mẫu được tích hợp có kích cỡ bằng nhau. Mỗi mẫu được phối hợp phải được tính trọng số bằng số lượng quan sát trong mẫu. Điều này là do độ đáng tin cậy của trung bình mẫu tỷ suất với số lượng của giá trị trong mẫu. Các mẫu nhỏ hơn kém an toàn và đáng tin cậy hơn những mẫu lớn hơn và do đó nên có trọng số nhỏ hơn khi tính giá trị trung bình tổng thể và toàn diện. Hãy xem xét một mẫu với 10 quan sát, 2 10 8 2 13 12 0 6 11 4, và mẫu thứ hai với 5 quan sát, 18 8 20 15 15 .

Trung bình cộng số học của mẫu một là 68/10 = 6.8 và mẫu hai là 76/5 = 15.2. Bạn có thể nghĩ rằng giá trị trung bình tổng thể chỉ đơn giản là trung bình cộng của cả hai mẫu, có nghĩa là, (6.8 + 15.2)/2=11. Tuy vậy, điều này không chính xác vì trọng số bằng nhau được cân bằng cho cả hai mẫu.Trung bình có trọng số (weighted mean) cho hai mẫu là tổng của các trung mẫu nhân với trọng số thích hợp của nó, tất cả chia cho tổng của các trọng số.Trung bình có trọng số = [(6.8 × 10) + (15.2 × 5)]/(10+5) = 9.6

Giá trị 9.6 này là giá trị tương tự như mà bạn sẽ nhận được nếu bạn thực thi 15 quan sát là một mẫu. Kết hợp hai trung bình mẫu mà không trọng số chúng dẫn đến giá trị cao hơn của 11 so với giá trị trung bình có trọng số của 9.6. Giá trị trung bình toàn diện và tổng thể được kéo lên bởi giá trị trung bình tương đối lớn hơn của mẫu nhỏ hơn .

Trung bình đã cắt bớt (trimmed mean) có thể được dùng với các mẫu lớn và tương tự như giá trị trung bình cộng số học (arithmetic mean) nhưng có một vài giá trị nhỏ nhất và lớn nhất bị loại bỏ trước khi tính toán. Thông thường, 5% giá trị dưới cùng và trên cùng bị loại bỏ và giá trị trung bình được tính trên 90% giá trị còn lại. Hiệu ứng là giảm thiểu ảnh hưởng của quan sát ngoại lệ cực trị trong tính toán giá trị trung bình.Trung bình cộng hình học (geometric mean) rất hữu ích để tính trung bình của các tỉ lệ. Giả sử một ngôi nhà mới giảm giá trị còn 95% giá trị ban đầu của nó trong năm đầu tiên. Trong năm tiếp theo, giá trị giảm xuống còn 90% giá trị mà nó có vào đầu năm thứ hai và trong năm thứ ba, giá trị vẫn tiếp tục giảm xuống còn 80% giá trị vào đầu năm thứ ba. Tỷ lệ giảm giá trị trung bình trong khoảng thời gian ba năm sẽ dẫn đến cùng một giá trị của ngôi nhà vào cuối ba năm được cho bởi trung bình cộng hình học của ba tỷ lệ.Tỷ lệ giảm giá trung bình trong 3 năm là: tỷ lệ1 × tỷ lệ2 × tỷ lệ3 = 95 × 90 × 80 = 684000 = tỷ lệ3, và vì vậy tỷ lệ = căn bậc ba của 684000 = 88.1 phần trăm.Ký hiệu chung là căn thứ n của tích (phép nhân) của các giá trị tỷ lệ, trong đó n đề cập đến số lượng giá trịMột cách đơn giản hơn để tính toán trung bình cộng hình học là lấy đối số của lôgarit (Antilogarit) của trung bình của lôgarit tự nhiên của các tỷ lệ. Logarit cơ số e, được ký hiệu là logexi (với xi là một vài thực dương bất kỳ) được gọi là logarit tự nhiên. Ví dụ: loge2 = 0,693. Trung bình cộng hình học của ba tỷ lệ, 95%, 90% và 80% là = (loge95 + loge90 + loge80)/3=13.436/3=4.479. Đối số của logarit của giá trị này là = 88.1. Tức là loge88.1 = 4.479.

2. Đo lường hình dạng

Hình dạng của một phân phối là thường được so sánh với những gì được gọi là một phân phối chuẩn. Đây thực sự là một phân bổ triết lý được xác lập bằng toán học cho một dân số và đặc trưng bởi những thuộc tính :

Đường cong là trơn, có một điểm cao nhất nằm ở trung tâm của phân phối.Mode, trung vị và trung bình đều có cùng giá trị và chỉ ra trung tâm của phân phối.Đường cong là đặc trưng hình chuông. Điểm cao nhất của đường cong nằm ở trung tâm và các đuôi kéo dài ra cả hai bên của trung tâm đến các đầu của đường phân phối một cách mượt mà.Đường cong là đối xứng.

Phân phối chuẩn là hữu dụng không riêng gì phân phối một tiêu chuẩn cho những phân phối thực nghiệm hoàn toàn có thể được so sánh, mà nó còn đóng một vai trò rất quan trọng trong thống kê suy luận. Lý do là vì nhiều hiện tượng kỳ lạ xảy ra tự nhiên, và ví dụ điển hình như chiều cao hoặc cân nặng của những đối tượng người dùng, gần đúng với một phân phối chuẩn trong dân số. Nhiều thử nghiệm thống kê giả định những giá trị trong tập dữ liệu đại diện thay mặt một mẫu từ một dân số có phân phối chuẩn cơ bản .

Khi nhìn vào một phân phối dữ liệu, đôi khi rất khó để đánh giá mức độ không chuẩn của dữ liệu. Hai thước đo kiểm tra mức độ chuẩn của dữ liệu, đó là độ lệch (skewness) độ nhọn (kurtosis).

Độ lệch là một chỉ số về mức độ phân bố không đối xứng hoặc không chuẩn. Một phân phối lệch (skewed distribution) có phần đuôi của đường phân phối có thể kéo dài sang một bên hơn là bên kia. Nếu phần đuôi của một phân phối kéo dài sang bên phải thì nó có một độ lệch dương (positive skewness). Trung bình được kéo về bên phải của trung vị. Nếu phần đuôi của một bản phân phối kéo dài sang bên trái, nó sẽ có độ lệch âm (negative skewness). Trung bình được kéo về bên trái của trung vị.

Nếu một phân phối là đối xứng, độ lệch gần bằng không. Nếu một phân phối bị lệch phải thì nó có thông số độ lệch dương và nếu lệch trái sẽ có thông số âm. Cẩn thận trọng khi lý giải những thông số lệch đặc biệt quan trọng là khi những mẫu nhỏ (

Giới thiệu: Quang Sơn

Quang Sơn là giám đốc hocdauthau.com - Kênh thông tin học đấu thầu, kiến thức tổng hợp, công nghệ, đời sống.

0 Shares
Share
Tweet
Pin