Bài giảng Xác suất thống kê - Chương 5: Lý thuyết mẫu ngẫu nhiên
q Tùy vào mỗi tham số của tổng thể sẽ có một thống kê được tính từ mẫu.
q Thông thường phương pháp để đạt được thống kê này từ mẫu tương tự như phương pháp thu được tham số từ tổng thể hữu hạn.
q Một trong những bài toán quan trọng của lý thuyết mẫu là quyết định cách thức thiết lập thống kê mẫu thích hợp để ước lượng tham số của tổng thể tốt nhất.
q Ta sẽ sử dụng các mẫu tự và cho giá trị của tham số tổng thể, các mẫu tự x, s, . cho giá trị của thống kê mẫu tương ứng.
Ths. Nguyễn Công Trí Copyright 2001 LÝ THUYẾT MẪU NGẪU NHIÊN Ths. Nguyễn Công Trí TỔNG THỂ – MẪU – THỐNG KÊ SUY DIỄN (Xem) PHƯƠNG PHÁP CHỌN MẪU (Xem) CÁC THAM SỐ CỦA TỔNG THỂ (Xem) CÁC THAM SỐ CỦA MẪU (Xem) CÁC LUẬT PHÂN PHỐI CỦA MẪU (Xem) PHÂN PHỐI TẦN SỐ – PHÂN PHỐI TẦN SUẤT (Xem) PHƯƠNG PHÁP TÍNH CÁC THAM SỐ MẪU CHO DỮ LIỆU ĐƯỢC NHÓM (Xem) BÀI TẬP (Xem) TỔNG THỂ VÀ MẪU Ta muốn rút ra một kết luận có giá trị về các cá thể hay vật thể trong một nhóm lớn. Thay vì phải khảo sát toàn bộ nhóm, được gọi là tổng thể, điều này khó thực hiện, nên ta chỉ có thể khảo sát trên một phần nhỏ của tổng thể này, được gọi là mẫu. Mục đích suy diễn một sự việc nào đó của tổng thể từ kết quả tìm được trên mẫu, được gọi là suy diễn theo thống kê. Quá trình lấy các các phần tử từ tổng thể được gọi là chọn mẫu. VÍ DỤ 5.1. Ta muốn rút ra một kết luận về chiều cao (trọng lượng) của 12.000 sinh viên (tổng thể) bằng cách chỉ khảo sát 100 sinh viên (mẫu) được chọn từ tổng thể này. VÍ DỤ 5.2. Ta muốn rút ra một kết luận về tỷ lệ con bu-long bị hỏng do một nhà máy sản xuất trong suốt tuần lễ (6 ngày làm việc), bằng cách mỗi ngày khảo sát 20 con tại các thời điểm khác nhau. Trong trường hợp này, tất cả các con bu-lông được sản xuất trong tuần là tổng thể, khi đó 120 con bu-long được chọn tạo thành một mẫu. TỔNG THỂ VÀ MẪU VÍ DỤ 5.3. Ta muốn rút ra một kết luận về tính công bằng của một đồng xu, bằng cách tung đồng xu này nhiều lần (tổng thể), một mẫu có thể là kết quả quan sát của 60 lần tung đồng xu đầu tiên và ghi nhận tỷ lệ của mặt sấp và mặt ngửa của đồng xu đó. VÍ DỤ 5.4. Ta muốn rút ra một kết luận về màu sắc của 200 viên bi (tổng thể) trong một hộp bằng cách chọn một mẫu gồm 20 bi từ hộp, trong đó mỗi bi được chọn sẽ được trả lại hộp (chọn có hoàn lại) sau khi đã ghi nhận màu sắc của nó. TỔNG THỂ VÀ MẪU Tổng thể thường chỉ sự đo lường hơn là để chỉ các cá thể hay các vật thể. Trong ví dụ 5.1, ta có tổng thể là chiều cao (trọng lượng) của 12.000 sinh viên, trong khi ở ví dụ 5.4 ta có tổng thể là màu của 200 bi trong hộp. Tổng thể có thể là hữu hạn hoặc vô hạn, số phần tử trong tổng thể được gọi là kích thước tổng thể, ký hiệu là N. Tương tự, số phần tử trong mẫu được gọi là kích thước mẫu, ký hiệu là n, thường là hữu hạn. Trong ví dụ 5.1, N = 12.000, n = 100, trong ví dụ 5.3, N vô hạn, n = 60. TỔNG THỂ VÀ MẪU Chọn mẫu để mỗi phần tử của tổng thể có thể được chọn nhiều lần thì được gọi là chọn mẫu có hoàn lại, chọn mẫu để mỗi phần tử của tổng thể chỉ được chọn nhiều nhất một lần thì được gọi là chọn mẫu không hoàn lại. Chọn mẫu có hoàn lại từ một tổng thể hữu hạn trên lý thuyết có thể được xem như mẫu vô hạn. Trong thực hành, chọn mẫu từ tổng thể hữu hạn có kích thước lớn thì có thể được xem như chọn mẫu từ tổng thể vô hạn. CHỌN MẪU CÓ HOÀN LẠI VÀ MẪU KHÔNG HOÀN LẠI Việc rút ra các kết luận đáng tin cậy liên quan đến tổng thể là tùy thuộc vào chọn mẫu có đúng đắn, có đủ đại diện hay không. Một trong những vấn đề quan trọng của suy diễn thống kê là cách chọn mẫu. Một phương pháp để thực hiện lấy mẫu đối với tổng thể hữu hạn có kích thước nhỏ là chọn mẫu ngẫu nhiên, bằng cách rút thăm hay dùng bảng số ngẫu nhiên. Do tổng thể được suy diễn từ một mẫu nên ta phải sử dụng đến ngôn ngữ xác suất cho bất kỳ kết luận nào về tổng thể. MẪU NGẪU NHIÊN Một tổng thể được xem là tường minh khi ta biết luật phân phối xác suất f(x) của ĐLNN X (tính chất được quan tâm của tổng thể). Chẳng hạn, trong ví dụ 5.1 Nếu X là ĐLNN với các giá trị là chiều cao (hoặc trọng lượng) của 12.000 sinh viên thì X có luật phân phối xác suất f(x). Nếu X có phân phối chuẩn thì ta nói tổng thể có phân phối chuẩn. Tương tự, nếu X có phân phối nhị thức thì ta nói tổng thể có phân phối nhị thức. CÁC THAM SỐ CỦA TỔNG THỂ Hàm f(x) của tổng thể được xác định thì các tham số của tổng thể đó cũng sẽ được xác định, chẳng hạn và trong trường hợp phân phối chuẩn hoặc p trong trường hợp phân phối nhị thức. Tất cả các số đặc trưng này được gọi là các tham số của tổng thể. Nếu luật phân phối xác suất f(x) của tổng thể chưa biết. Ví dụ, có thể có một vài lý do nào đó cho rằng tổng thể có dấu hiệu của phân phối chuẩn. Trong trường hợp đó có thể ta chưa biết một hoặc cả hai giá trị và , vì vậy ta có khuynh hướng chọn suy diễn thống kê để đưa ra các giá trị của chúng. CÁC THAM SỐ CỦA TỔNG THỂ Chọn mẫu NN từ tổng thể, ta sẽ sử dụng các phần tử mẫu này để tính các giá trị tham số mẫu, phục vụ cho ước lượng và kiểm định các tham số của tổng thể. Để minh họa, xem ví dụ 5.1, trong đó X là ĐLNN gồm các chiều cao khác nhau. Để chọn một mẫu có kích thước 100, trước tiên ta chọn NN một SV trong tổng thể 12.000 SV, gọi x1 là giá trị của ĐLNN X1. Tương tự, chọn phần tử thứ hai của mẫu, gọi x2 là giá trị của ĐLNN X2. Tiếp tục quá trình này cho đến X100, để đơn giản, ta giả sử việc chọn mẫu trong trường hợp này là có hoàn lại. CÁC THAM SỐ CỦA MẪU Trong trường hợp tổng quát, một mẫu có kích thước n sẽ được mô tả bởi các giá trị x1, x2,..., xn của các ĐLNN X1, X2, . . . , Xn. Trong trường hợp chọn mẫu có hoàn lại thì X1, X2, . . . , Xn độc lập, các ĐLNN có phân phối giống nhau và có hàm xác suất là f(x). Hàm xác suất đồng thời là P(X=x1, X=x2, ...,X=xn) = f(x1)f(x2)...f(xn) Mọi số đặc trưng thu được từ mẫu nhằm ước lượng tham số của tổng thể thì được gọi là thống kê mẫu. CÁC THAM SỐ CỦA MẪU Tùy vào mỗi tham số của tổng thể sẽ có một thống kê được tính từ mẫu. Thông thường phương pháp để đạt được thống kê này từ mẫu tương tự như phương pháp thu được tham số từ tổng thể hữu hạn. Một trong những bài toán quan trọng của lý thuyết mẫu là quyết định cách thức thiết lập thống kê mẫu thích hợp để ước lượng tham số của tổng thể tốt nhất. Ta sẽ sử dụng các mẫu tự và cho giá trị của tham số tổng thể, các mẫu tự x, s, ... cho giá trị của thống kê mẫu tương ứng. CÁC THAM SỐ CỦA MẪU Một thống kê mẫu được tính từ các ĐLNN X1, X2,..., Xn là một hàm của các ĐLNN trên. Luật phân phối xác suất của thống kê mẫu thường được gọi là luật phân phối mẫu. Ta có thể quan tâm đến tất cả các mẫu có cùng kích thước n được chọn ra từ một tổng thể, với mỗi mẫu ta có thể tính thống kê tương ứng. Theo cách này ta có thể thu được luật phân phối của thống kê mẫu. Với luật phân phối mẫu, ta có thể tính trung bình, phương sai, độ lệch chuẩn ... CÁC LUẬT PHÂN PHỐI CỦA MẪU Cho một mẫu (X1, X2, . . . , Xn) gồm các ĐLNN độc lập, có cùng luật phân phối. Trung bình mẫu là một ĐLNN được định nghĩa như sau Nếu x1, x2,..., xn là các giá trị thu được trong mẫu cụ thể có kích thước là n thì VÍ DỤ 5.5. Cho một mẫu có kích thước là 5 có các giá trị là 7, 9, 1, 6, 2, thì trung bình mẫu là TRUNG BÌNH MẪU Định lý 5-1: Trung bình của phân phối trung bình mẫu, ký hiệu là , được cho bởi biểu thức sau trong đó là trung bình của tổng thể. Định lý 5-2: Nếu tổng thể là vô hạn và chọn mẫu ngẫu nhiên hoặc nếu tổng thể là hữu hạn và chọn mẫu có hoàn lại thì phương sai của phân phối trung bình mẫu, ký hiệu , được cho bởi biểu thức trong đó 2 là phương sai của tổng thể. PHÂN PHỐI CỦA TRUNG BÌNH MẪU Định lý 5-3: Nếu tổng thể có kích thước N, chọn mẫu không hoàn lại và kích thước mẫu là n N thì Chú ý rằng khi N thì định lý 5-3 trở thành định lý 5-2. Định lý 5-4: Nếu tổng thể có phân phối chuẩn với trung bình và phương sai 2. Một mẫu được chọn từ tổng thể này thì trung bình mẫu cũng có phân phối chuẩn với trung bình và phương sai là 2/n. PHÂN PHỐI CỦA TRUNG BÌNH MẪU Định lý 5-5: Giả sử tổng thể có luật phân phối với trung bình và phương sai 2, không nhất thiết phải là phân phối chuẩn. Một mẫu được chọn từ tổng thể này thì ĐLNN được chuẩn hóa liên kết với , được cho bởi xấp xỉ với phân phối chuẩn tắc, nghĩa là PHÂN PHỐI CỦA TRUNG BÌNH MẪU Giả sử một tổng thể hữu hạn và có phân phối nhị thức với tham số p và q = 1 – P. Ví dụ, tổng thểâ là tất cả các lần tung của một đồng xu, trong đó xác suất của biến cố mặt ngửa xảy ra trong mỗi lần tung là p = ½. Xét các mẫu có kích thước n được chọn ra từ tổng thể này, với mỗi mẫu ta xác định một thống kê là tỷ lệ f của số lần thành công (tỷ lệ xuất hiện mặt ngửa). Từ đó ta thu được luật phân phối tỷ lệ mẫu PHÂN PHỐI TỶ LỆ MẪU Giả sử có 2 tổng thể. Từ tổng thể thứ nhất, chọn một mẫu nl, tính thống kê S1, được s1, s1. Tương tự, chọn một mẫu n2 từ tổng thể thứ hai, tính thống kê S2, được S2, S2. Ta có thể thu được phân phối hiệu, S1 – S2, của thống kê mẫu. Trung bình S1–S2 và độ lệch chuẩn S1–S2 của phân phối mẫu này cho bởi Phân phối tổng mẫu của thống kê S1 và S2 có trung bình và độ lệch chuẩn là PHÂN PHỐI HIỆU VÀ TỔNG CỦA MẪU Gọi X1, X2,…... , Xn là một mẫu ngẫu nhiên có kích thước n thì ĐLNN của phương sai mẫu được định nghĩa Trong định lý 5-1 ta thấy E(X) = , và rất đẹp nếu ta cũng có E(S2) = 2. Tuy nhiên nó có khuynh hướng là Khi giá trị kỳ vọng của thống kê tương ứng bằng tham số tổng thể thì ta gọi thống kê đó là một ước lượng không chệch. PHƯƠNG SAI MẪU Biểu thức E(S2) rất gần với 2 chỉ khi giá trị n lớn (n 30). Ước lượng không chệch được xác định là sao cho Vì lý do này, một vài nhà thống kê chọn định nghĩa phương sai mẫu là . Tuy nhiên ta sẽ dùng định nghĩa phương sai mẫu S2 vì các kết quả về sau sẽ đơn giản hơn. PHƯƠNG SAI MẪU VÍ DỤ 5.6. Cho một mẫu có kích thước là 5 có các giá trị là 7, 9, 1, 6, 2, thì phương sai mẫu là khi đó ước lượng không chệch là Nếu chọn mẫu từ một tổng thể vô hạn hoặc chọn mẫu có hoàn lại từ tổng thể hữu hạn có kích thước N thì khi đó Khi N , E(S2) = [(n–1)/n]2 PHƯƠNG SAI MẪU Định lý 5-6: Nếu mẫu ngẫu nhiên có kích thước n được chọn từ một tổng thể có phân phối chuẩn thì ĐLNN có phân phối chi-bình phương n–1 bậc tự do Định lý 5-7: Nếu các mẫu ngẫu nhiên có kích thước n được chọn từ một tổng thể có phân phối chuẩn thì thống kê có phân phối Student với n – 1 bậc tự do. PHÂN PHỐI CỦA PHƯƠNG SAI MẪU Thay vì xét phân phối hiệu của phương sai mẫu, ta chú ý đến thống kê S12/S22. Định lý 5-8: Cho hai mẫu ngẫu ngẫu nhiên độc lập có kích thước lần lượt là m và n, được chọn từ hai tổng thể có phân phối chuẩn với phương sai lần lượt là 12 và 22. Nếu phương sai của các mẫu ngẫu nhiên lần lượt là S12 và S22 thì thống kê có phân phối F với m – 1, n – 1 bậc tự do. PHÂN PHỐI TỶ LỆ CỦA PHƯƠNG SAI MẪU Một mẫu có kích thước lớn thì rất khó khăn quan sát các tính chất khác nhau hoặc tính các thống kê, do đó cần tổ chức hoặc phân nhóm dữ liệu thô. Giả sử có một mẫu gồm các chiều cao của 100 sinh viên nữ ở Đại học XYZ. Ta sắp xếp dữ liệu thành từng lớp và xác định số cá thể thuộc vào mỗi lớp, được gọi là tần số của lớp. Kết quả việc sắp xếp này (xem Bảng 5-2), được gọi là phân phối tần số hay bảng phân phối tần số. PHÂN PHỐI TẦN SỐ Chiều cao của 100 sinh viên nữ ờ Đại học XYZ được thể hiện trong bảng 5-2. Hình 5-1 là biểu diễn tần số chiều cao của mẫu gồm 100 sinh viên nữ. PHÂN PHỐI TẦN SỐ Nếu trong bảng 5-2 ta ghi nhận tần suất hay tỷ lệ bách phân chiều cao sinh viên. Tổng diện tích các hình chữ nhật bằng 1 Các tần suất được coi là các xác suất thực nghiệm, nên phân phối tần suất được hiểu là các phân phối xác suất thực nghiệm. PHÂN PHỐI TẦN SUẤT Có 2 cách mô tả mẫu ngẫu nhiên Mô tả bằng bảng phân phối tần số hay trong đó: Mô tả bằng bảng phân phối tần suất trong đó: PHƯƠNG PHÁP TÍNH THAM SỐ MẪU Trung bình mẫu (1) Phương sai mẫu (2) Cách tính nhanh phương sai có điều chỉnh Từ bảng phân phối tần số tính xi2ni Áp dụng công thức: (3) Lập bảng tính theo công thức (4) Độ lệch chuẩn mẫu hay (5) PHƯƠNG PHÁP TÍNH THAM SỐ MẪU VÍ DỤ. Tính điểm trung bình và phương sai từ một mẫu gồm 50 sinh viên như sau Cách 1. xi2ni = (4210+ 5215+ 7213+ 9212) = 2.144 PHƯƠNG PHÁP TÍNH THAM SỐ MẪU Cách 2. Từ kết quả tính toán ở bảng trên, ta có: PHƯƠNG PHÁP TÍNH THAM SỐ MẪU VÍ DỤ. Chọn một mẫu NN gồm 40 đầu tư ngắn hạn tại thành phố trong năm 2000. Tính giá trị trung bình và độ lệch chuẩn (có điều chỉnh) kỳ hạn thanh toán của 40 đầu tư ngắn hạn trên. Các đầu tư có kỳ hạn thanh toán dưới 60 tháng là các loại đầu tư kém hiệu quả, tính tỷ lệ các đầu tư kém hiệu quả của mẫu trên. PHƯƠNG PHÁP TÍNH THAM SỐ MẪU Cách 1. Đưa bảng về dạng điểm (a) Trung bình và phương sai (có điều chỉnh) xi2ni=(34,523+44,521+...+94,524)=269,48 (b) Tỷ lệ mẫu PHƯƠNG PHÁP TÍNH THAM SỐ MẪU Cách 2: Lập bảng PHƯƠNG PHÁP TÍNH THAM SỐ MẪU Ths. Nguyễn Công Trí Copyright 2001 PHÂN PHỐI TRUNG BÌNH MẪU [1] [2] [3] [4] [5] [6] [7] [49] [50] [51] [52] [53] [54] [55] [56] PHÂN PHỐI TỶ LỆ MẪU [8] [9] [10] [11] [57] [58] [59] [60] [61] [62] PHÂN PHỐI HIỆU VÀ TỔNG [12] [13] [14] [15*] [16] [17] [63] [64] [65] [66] [67] [68] [69] [70] [71] PHÂN PHỐI PHƯƠNG SAI MẪU [18] [19] [20*] [21] [22] [23] [72] [73] [74] [75] [76] [77] [78] PHÂN PHỐI TỶ LỆ CỦA PHƯƠNG SAI MẪU [26] [27] [79] [80] [81] BÀI TẬP CHƯƠNG 5 Ths. Nguyễn Công Trí Ths. Nguyễn Công Trí Copyright 2001 PHÂN PHỐI TẦN SỐ [28] [29] [30] [82] [83] [84] [85] [86] [87] [88] [89] [90] TÍNH TRUNG BÌNH, PHƯƠNG SAI [31] [32] [33] [34] [35] [36] [37] [38] [39] [40] [41] [42] [91] [92] [93] [94] [95] [96] [97] [98] [99] [101] [102] [103] [104] [105] [106] [108] [109] [110] [111] [112] [113] [114] [115] [116] [117] [118] [119] [120] [121] [122] [123] [124] [125] [126] CÁC BÀI TOÁN TỔNG HỢP [43] [44*] [45] [46] [47] [48] [127] [128] [129] [130] 131] [132] BÀI TẬP CHƯƠNG 5 Ths. Nguyễn Công Trí
File đính kèm:
- Chuong 5(Ver6).ppt