Xác suất thống kê - Chương 8: Kiểm định giả thiết thống kê
Thí du: Trong một báo cáo nói rằng: năng suất lúa trung bình của tỉnh Y năm 2006 là 6,8 tấn/ha thì ta có thể coi đó là một giả thiết thống kê, giả thiết này nói về một tham số (kỳ vọng toán) của đại lượng ngẫu nhiên biểu thị năng suất lúa của tỉnh này.
1- Giả thiết thống kê:Giả thiết thống kê là những giả thiết nói về các tham số, dạng qui luật phân phối, hoặc tính độc lập của các đại lượng ngẫu nhiên.Chương 8 KIỂM ĐỊNH GIẢ THIẾT THỐNG KÊ I- Các khái niệmViệc tìm ra kết luận bác bỏ hay chấp nhận một giả thiết gọi làø kiểm định giả thiết thống kê. Kiểm định giả thiết thống kê là một trong các bài toán cơ bản của thống kê toán.Thí dụ: Trong một báo cáo nói rằng: năng suất lúa trung bình của tỉnh Y năm 2006 là 6,8 tấn/ha thì ta có thể coi đó là một giả thiết thống kê, giả thiết này nói về một tham số (kỳ vọng toán) của đại lượng ngẫu nhiên biểu thị năng suất lúa của tỉnh này. Dựa vào số liệu của một mẫu điều tra về năng suất lúa của tỉnh và qui tắc kiểm định để đưa ra một kết luận là bác bỏ hay chấp nhận giả thiết trên.Khi đặt giả thiết thống kê ta lưu ý một số vấn đề sau: Giả thiết đặt ra với ý đồ bác bỏ nó, nghĩa là giả thiết đặt ra ngược lại với điều ta muốn chứng minh, muốn thuyết phục. Vì vậy khi bác bỏ được giả thiết có nghĩa là ta đã chứng minh được điều ngược lại. Giả thiết đặt ra sao cho khi chấp nhận hoặc bác bỏ nó sẽ có tác dụng trả lời được câu hỏi mà bài toán thực tế đặt ra. Giả thiết đặt ra nếu nó đúng thì ta sẽ xác định được qui luật phân phối xác suất của đại lượng ngẫu nhiên ta đang nghiên cứu. Khi đặt giả thiết ta so sánh cái chưa biết với cái đã biết. “Cái đã biết” thường là những thông tin quá khứ, các định mức kinh tế, kỹ thuật. Giả thiết đặt ra thường mang nghĩa :”không khác nhau”, hoặc “khác mà không có ý nghĩa” hoặc “bằng nhau”.Giả thiết đặt ra như vậy gọi là giả thiết cần kiểm định. Giả thiết cần kiểm định còn được gọi là giả thiết không (null hypothesis) ký hiệu là H0 (hoặc H). Một mệnh đề đối lập với H0 được gọi là giả thiết đối và được ký hiệu là H1 (hoặc H) Chẳng hạn: H0: = 0; H1: 0( là một tham số nào đó của đ.l.n.n đang nghiên cứu ; 0 là giá trị đã biết). Nếu kiểm định giả thiết với giả thiết đối có dạng này được gọi là kiểm định giả thiết hai phía. (Vì miền bác bỏ nằm về hai phía của miền chấp nhận)Giả thiết đối dạng: 0 thường được áp dụng khi ta chưa biết rõ trong thực tế > 0 hay 0 thì ta có thể đặt giả thiết đối dạng: > 0 . Hoặc ta biết được chiều hướng là 0; hoặc H1: 0 thì được gọi là kiểm định giả thiết về phía bên phải (vì miền bác bỏ nằm về phía bên phải của miền chấp nhận). Nếu giả thiết đối có dạng H1: u/2 Trong đó u/2 là giá trị của Z. Z N(0, 1) thoả mãn: u/2 > 0 P( Z > u/2 ) = Trên đồ thị, miền bác bỏ W được minh họa như sau:Để xác định z/2 ta tra bảng ở phần phụ lục hoặc dùng hàm NORMSINV trong Excel Như vậy xác suất để giá trị của Z rơi vào miền bác bỏ là , tức xác suất để Z rơi vào miền chấp nhận sẽ là 1. Vì nhỏ, nên xác suất để Z rơi vào miền chấp nhận sẽ lớn. Nghĩa là: nếu giả thiết H0 đúng thì có thể coi rằng hầu hết các giá trị của Z sẽ rơi vào miền chấp nhận. Còn nếu giá trị của Z rơi vào miền bác bỏ có nghĩa là ta đã tìm được “bằng chứng” để chứng tỏ giả thiết H0 là không đúng và vì thế ta bác bỏ giả thiết đó.Từ đó ta có qui tắc quyết định khi tiến hành kiểm định giả thiết H0 trong trường hợp này như sau: Lấy mẫu kích thước n, từ mẫu cụ thể này tính: z = Với mức ý nghĩa cho trước , xác định u/2(bằng cách tra bảng ở phần phụ lục hoặc dùng hàm NORMSINV trong Excel) Nếu z > u/2 thì bác bỏ giả thiết H0, chấp nhận H1. Nếu z u/2 thì có thể chấp nhận giả thiết H0. Từ việc chấp nhận (hay bác bỏ) H0 ta suy ra kết luận cuối cùng theo yêu cầu của bài toán thực tế.Bài tốn 2Kiểm định giả thuyết: H0 : =a đối thiết H1 : >a1. Chọn Test thống kê: 2. Miền bác bỏ H0 {T>c}Với mức ý nghĩa thì (c)=1-Bài tốn 3Kiểm định giả thuyết: H0 : =a đối thiết H1 : c}Với mức ý nghĩa thì (c)=1-2 - PHƯƠNG SAI CHƯA BIẾT NHƯNG n30Các bài tốn kiểm định như trên và ta áp dụng thay bằng s 3-Trường hợp n t/2 Trong đó t/2 là giá trị của T. T T(n-1) thoả mãn: t/2 > 0 và P(T > t/2 ) = t/2 được xác định bằng cách tra bảng phân phối Student với bậc tự do n1 hoặc dùng hàm TINV trong Excel. Từ đó ta có qui tắc quyết định khi tiến hành kiểm định giả thiết H0 trong trường hợp này như sau: Lấy mẫu kích thước n, từ mẫu cụ thể này tính: t = Với mức ý nghĩa cho trước , xác định t/2 Nếu t > t/2 ,tức tW thì bác bỏ giả thiết H0, chấp nhận H1. Nếu t t/2 , tức tW thì có thể chấp nhận giả thiết H0. Từ việc chấp nhận (hay bác bỏ) H0 ta suy ra kết luận cuối cùng theo yêu cầu của bài toán thực tế.Thí dụ: Trọng lượng của các bao gạo do một máy đóng bao sản xuất là đại lượng ngẫu nhiên phân phối theo qui luật chuẩn với trọng lượng trung bình qui định là 50 kg. Để xem máy đóng bao làm việc có bình thường không người ta cân thử 25 bao và tính được:x = 49,52 kg ; s = 0,5. Với mức ý nghĩa = 0,01, hãy cho kết luận về tình hình làm việc của máy đóng bao đó ?Giải: Gọi là trọng lượng trung bình thực tế của những bao gạo do máy sản xuất ( chưa biết). Đặt giả thiết: H0: = 50 ; H1: 50 Trường hợp này kích thước mẫu n = 25 2,797. Tức tW nên ta bác bỏ giả thiết H0. Tức là máy đóng bao làm việc không bình thường. Nói cụ thể hơn, máy đã sản xuất ra những bao gạo có trọng lượng trung bình thấp hơn trọng lượng trung bình qui định (vì x = 49,52 a1. Chọn Test thống kê: 2. Miền bác bỏ H0 {T>c}Với mức ý nghĩa thì c=tn-1 ()Bài tốn 3Kiểm định giả thuyết: H0 : =a đối thiết H1 : c}Với mức ý nghĩa thì c=tn-1 ()Giả sử tỷ lệ các phần tử có tính chất A của tổng thể là p (p chưa biết). Ta cần kiểm định giả thiết: Bài toán 1:H0: p = p0 ; H1: p p0 với mức ý nghĩa .III- Kiểm định giả thiếtvề giá trị xác suất Để kiểm định giả thiết trên, ta lấy mẫu kích thước n khá lớn và áp dụng qui tắc quyết định như sau:+ Từ mẫu cụ thể tính f rồi tính:Miền bác bỏ: {|T|>c}Với mức ý nghĩa nếu np0 5 và n(1-p0)5 thì p{|T|>c}=(c)=1-/2Thí dụ: Tỷ lệ phế phẩm của một nhà máy là 5%. Sau khi tiến hành một cải tiến kỹ thuật, người ta kiểm tra 400 sản phẩm thì thấy có 16 phế phẩm. Với mức ý nghĩa = 0,02. Hãy kết luận xem việc cải tiến kỹ thuật có làm giảm tỷ lệ phế phẩm hay không ?Giải: Gọi tỷ lệ phế phẩm của nhà máy sau khi cải tiến kỹ thuật là p. Ta cần kiểm định giả thiết H0: p = 0,05 ; H1: p 0,05Với mức ý nghĩa = 0,02 thì z/2 = z0,01 = 2,326 Tỷ lệ phế phẩm của mẫu là f = 16/400 = 0,04Vậy:z = = 0,92 Vì z = 0,92 p0Test được chọn: Với mức ý nghĩa thì miền bác bỏ {T>c} với (c)=1-Bài tốn 3H0 : p=p0 H1 : pc} với (c)=1-Giả sử ta chưa biết qui luật phân phối xác suất của một ĐLNN X, cần kiểm định giả thiết:H0: X phân phối theo qui luật đã choH1: X không phân phối theo qui luật đã choIV- Kiểm định giả thiết về qui luật phân phối xác suấtcủa đại lượng ngẫu nhiên Ký hiệu: Pi = P(X = xi) hoặc Pi = P(xi X xi+1) Thực hiện n phép thử độc lập đối với đ.l.n.n X. Tần số lý thuyết của biến cố (X = xi) sẽ là n.Pi. Tần số thực tế là ni. Hiệu (ni nPi)2 có thể dùng làm cơ sở để xét xem phân phối của X có phải như giả thiết H0 đã nêu ra hay không.K. Pearson đã chọn thống kê: 2 = làm tiêu chuẩn kiểm định.Với n khá lớn có thể coi 2 phân phối theo qui luật “Khi bình phương” với (k 1) bậc tự do. Trong đó r là các tham số chưa biết đối với phân phối xác suất của X theo H0. (các tham số này phải được ước lượng bằng phương pháp hợp lý cực đại).Miền bác bỏ giả thiết H0 với mức ý nghĩa là: W = Trong đó 2 là giá trị của đại lượng ngẫu nhiên 2 với (k 1) bậc tự do thoả mãn điều kiện: P = Ta có thể minh họa miền bác bỏ W như sau:Thí dụ: Sản phẩm được sản xuất ra trên một dây chuyền tự động được đóng gói một cách ngẫu nhiên theo qui cách: 3 sản phẩm/hộp. Tiến hành kiểm tra 200 hộp ta được kết quả:Với mức ý nghĩa 5%, có thể xem số sản phẩm loại I có trong một hộp là đại lượng ngẫu nhiên phân phối theo qui luật nhị thức hay không ?H0: X B(3, p) p chưa biết. p được ước lượng là: (50 + 201 + 1252 + 50 3)/600 = 0,7Giải:Để tính 2 ta lập bảng tính như sau:2 = 28,81 > 20,05 (2) = 5,99. Bác bỏ H0. X không tuân theo quy luật nhị thức.Giả sử quan sát đồng thời hai dấu hiệu A và B trên cùng một phần tử. V- Kiểm định giả thiết về tính độc lập của hai dấu hiệu Dấu hiệu A có các dấu hiệu thành phần là: A1, A2, . . . , AhDấu hiệu B có các dấu hiệu thành phần là: B1, B2, . . . , BkCần kiểm định giả thiết:H0: A và B độc lập H1: A và B không độc lập Lấy mẫu kích thước n và trình bày kết quả quan sát dưới dạng bảng sau: BAB1B2. . . .BkTổngA1n11n12. . . .n1kn1A2n21n22. . . .n2kn2. . . .. . . .. . . .. . . .. . . .. . . .Ahnh1nh2. . . .n1knhTổngm1m2. . . .mknTrong đó:ni (i =1, 2, . . . ,h) là tổng số phần tử mang dấu hiệu thành phần Ai.mj (j = 1, 2, . . . , k) là tổng số phần tử mang dấu hiệu thành phần Bjnij (i = 1,...,h; j =1,,k) là tổng số phần tử mang dấu hiệu thành phần Ai và Bj.Gọi Ci là biến cố chọn được phần tử mang dấu hiệu AiDj là biến cố chọn được phần tử mang dấu hiệu BjKhi n khá lớn, theo định nghĩa thống kê về xác suất ta có:Nếu H0 đúng, tức A, B độc lập thì các dấu hiệu Ai, Bj cũng độc lập. Do đó: P(CiDj) = P(Ci)P(Dj) Tức là: Qui tắc quyết định:+ Lấy mẫu kích thước n, từ mẫu này tính:2+ Với mức ý nghĩa đã cho, tra bảng 2 với bậc tự do (k-1)(h-1) để tìm(hoặc dùng hàm CHIINV trong Excel). + Nếu 2 > thì bác bỏ H0, thừa nhận H1+ Nếu 2 thì có thể chấp nhận H0Thí dụ: Làm thí nghiệm bón một loại phân theo 3 pp khác nhau cho cùng một loại cây trồng và quan sát việc ra hoa của loại cây này, ta có kết quả cho ở bảng sau: Với mức ý nghĩa = 0,05, hãy kết luận xem phương pháp bón phân khác nhau có ảnh hưởng tới việc ra hoa của loại cây đó không Giải: H0: Phương pháp bón phân (dấu hiệu A) độc lập với việc ra hoa của cây (dấu hiệu B).H1: Phương pháp bón phân không độc lập (có ảnh hưởng) đến việc ra hoa của cây.= 0,163432 = 0,363231 Tính tương tự ta được: 13 = 0,297303; 21 = 0,104895; 22 = 0,04244; 23 = 0,049231; (Chú ý: Các giá trị ij có thể ghi vào ô ij tương ứng)= 0,163432 + 0,363231 + . . . + 0,049231 = 1,020533Vậy:= 217(1,020533-1)= 4,45565Với mức ý nghĩa = 0,05, tra bảng 2 với bậc tự do: = (h 1)(k 1) = (3 1)(2 1) = 2ta được: = 5,991 Vì 2 = 4,45565 c} với Cĩ phân bốVI - KIỂM ĐỊNH GIẢ THIẾT VỀ PHƯƠNG SAIBài tốn 2: Test thống kê: Mức ý nghĩa thì miền bác bỏ {T<c} với Cĩ phân bốVI - KIỂM ĐỊNH GIẢ THIẾT VỀ PHƯƠNG SAIBài tốn 3: Test thống kê: Mức ý nghĩa thì miền bác bỏ là:Cĩ phân bốHoặc
File đính kèm:
- chuong_8.ppt