Xác suất là gì?
Nội dung bài viết
1. Giới thiệu xác suất
Toán học là một ngôn ngữ hình thức mà các nhà khoa học tạo ra để cố mô tả tự nhiên. Một trong những vấn đề cơ bản nhất của toán học là đi cân đo đong đếm… và nghệ thuật ở đây là xây dựng ra những “độ đo” trừu tượng… Nhà toán học, vật lý Galileo Galilei có vài câu thơ như sau:
“Measure what is measurable, and make measurable what is not so.”
— Galileo Galilei
Xác suất là độ đo của toán học để đo tính phi chắc chắn của khả năng xảy ra một sự kiện (biến cố).
2. Không gian mẫu và sự kiện
Tập các kết quả có thể xảy ra của một thí nghiệm được gọi là không gian mẫu (ký hiệu: \( \Omega \)). Mỗi phần tử \( \omega \) trong \( \Omega \) được gọi là một kết quả (một điểm hay phần tử trong không gian mẫu). Mỗi tập con của \( \Omega \) được gọi là một biến cố.
Biến cố lần tung đầu tiên sấp trong thí nghiệm là $ A = \{ SS, SN \} $
Cho biến cố \( A \), gọi \( \bar A = \{ \omega \in \Omega : \omega \notin A \} \) là ký hiệu là phần bù của \( A \), biến cố \( \bar A \) gọi là phủ định của \(A\).
Cho hai biến cố \( A \) và \( B \), biến cố hợp của \( A \) và \( B \) là biến cố “ít nhất một trong hai biến cố \( A\) hoặc \(B\) xảy ra” được định nghĩa:
\[ A \cup B = \left\{ \omega \in \Omega : \omega \in A \text{ hoặc } \omega \in B \right\}\]
Cho hai biến cố \( A \) và \( B \), biến cố giao của \( A \) và \( B \) là biến cố “cả \( A\) và \(B\) xảy ra “ được định nghĩa (đôi khi chúng ta viết \( A \cap B \) dưới dạng \( (A,B) \) hoặc \(AB\) ):
\[ A \cap B = \left\{ \omega \in \Omega : \omega \in A \text{ và } \omega \in B \right\}\]
3. Xác suất
Xác suất là một hàm số thực định lượng khả năng xảy ra của mỗi biến cố \( A \) xảy ra trong không gian mẫu \( \Omega \), mỗi biến cố \( A \) sẽ được gán một con số thực để định lượng khả năng \( \Pr(A) \) (hay còn gọi là độ đo xác suất). Mỗi xác suất của mỗi biến cố phải thỏa mãn các tiên đề sau:
Ba tiên đề luật xác suất (Probability Law) |
---|
Tiên đề 1: Không âm (Nonnegativity) \( \Pr(A) \ge 0 \), với mọi biến cố \( A \) |
Tiên đề 2: Chuấn hóa (Normalization) \( \Pr(\Omega) = 1 \) |
Tiên đề 3: Cộng tính (Additivity) Nếu hai biến cố \( A \) và \( B \) rời nhau (disjoint) hay \(A \cap B = \emptyset \) thì: \[ \Pr(A \cap B) = \Pr(A) + \Pr(B) \tag{1} \] Tổng quát hơn nếu như \( A_{1}, A_{2},… \) rời nhau thì: \[ \Pr \left( \bigcup\limits_{i = 1}^\infty {{A_i}} \right) = \sum\limits_{i = 1}^\infty \Pr\left( {{A_i}} \right) \tag{2} \] |
Việc “giải thích xác suất” với những cách giải thích khác nhau không hẳn là quá quan trọng cho đến khi chúng ta xử lí các vấn đề liên quan đến suy luận thống kê, mà ở các phần sau chúng ta sẽ bàn đến hai trường phái suy luận kinh điển là nhà thống kê tần suất và nhà thống kê bayes.
Từ ba tiên đề ở trên chúng ta có thể suy ra một số tính chất của xác suất như sau:
\[ \Pr( \emptyset ) = 0 \] \[ A \subset B \Rightarrow \Pr(A) \le \Pr(B) \] \[ 0 \le \Pr(A) \le 1 \] \[ \Pr(A) + \Pr(\bar A) = 1 \] \[ A \cap B = \emptyset \Rightarrow \Pr(A \cap B) = \Pr(A) + \Pr(B) \]
Bổ đề |
---|
Với mọi biến cố $ A $ và $ B $ ta có: $$ \Pr(A \cup B) = \Pr(A) + \Pr(B)-\Pr(AB) $$ Chứng minh: Tập $A \cup B $ có thể phân ra làm 3 tập: tập phần tử của $A$ mà không thuộc $B$, tập phần tử chung của $A$ và $B$, tập phần tử của $B$ mà không thuộc $A$ do đó: \[\begin{array}{*{20}{l}}{\Pr\left( {A \cup B} \right)}&{ = \Pr\left( {\left( {A\overline B } \right) \cup \left( {AB} \right) \cup \left( {\overline A B} \right)} \right)}\\{}&{ = \Pr\left( {A\overline B } \right) + \Pr\left( {AB} \right) + \Pr\left( {\overline A B} \right)}\\{}&{ = \Pr\left( {A\overline B } \right) + \Pr\left( {AB} \right) + \Pr\left( {\overline A B} \right) + \left( {\Pr\left( {AB} \right) - \Pr\left( {AB} \right)} \right)}\\{}&{ = \left( {\Pr\left( {A\overline B } \right) + \Pr\left( {AB} \right)} \right) + \left( {\Pr\left( {\overline A B} \right) + \Pr(AB)} \right) - \Pr\left( {AB} \right)}\\{}&{ = \Pr\left( {\left( {A\overline B } \right) \cup \left( {AB} \right)} \right) + \Pr\left( {\left( {\overline A B} \right) \cup \left( {AB} \right)} \right) - \Pr\left( {AB} \right)}\\{}&{ = \Pr\left( A \right) + \Pr\left( B \right) - \Pr\left( {AB} \right)}\end{array}\] |
4. Xác suất trên không gian mẫu hữu hạn phần tử
Giả sử không gian mẫu \( \Omega = \{ \omega_{1},…,\omega_{n} \} \) có hữu hạn phần tử. Ví dụ như bài toán tung đồng xu ba lần thì chỉ có \( 2^{3} = 8 \) kết quả có thể xảy ra \( \Omega = \{ (f,c,t) : f,c,t \in \{S, N\} \} \). Lúc này xác suất của một biến cố \( A \) được tính \( \Pr(A) = |A|/8 \) với \(|A| \) kí hiệu số phần tử của \( A \), lúc này xác suất của biến cố \(2\) lần tung đầu tiên là \(S\) (mặt sấp) với \( A = \{ (S,S,N), (S,S,S) \} \), xác suất biến cố \(A\) xảy ra là \( \Pr(A) = 2 / 8= 1 / 4 \).
Xác suất trên không gian mẫu hữu hạn phần tử |
---|
Nếu không gian mẫu \( \Omega \) hữu hạn phần tử, xác suất biến cố \(A\) xảy ra là: \[ \Pr(A) = \frac{\left| A \right|}{\left| \Omega \right|} \] |
5. Biến cố độc lập
Độc lập nghĩa là không liên quan dính líu gì đến nhau, triết lí của nó rất đơn giản… và hai biến cố gọi là độc lập cũng vậy.
Định nghĩa: Hai biến cố độc lập |
---|
Hai biến cố \( A \) và \( B \) gọi là hai biến cố độc lập khi: \[ \Pr(AB) = \Pr(A)\Pr(B) \] và chúng ta ký hiệu \( A \perp\!\!\!\perp B \). Một họ \( M = \{A_{i}: i\in I\}\) các biến cố được gọi là họ độc lập nếu như: \[ \Pr\left( {\bigcap\limits_{i \in J} {{A_i}} } \right) = \prod\limits_{i \in J} {\Pr({A_i})}\] với mỗi tập con hữu hạn \(J \) của \(I\). |
6. Xác suất có điều kiện
Xác suất có điều kiện có thể phát biểu một cách nôm na là xác suất của một biến cố \(A\) nào đó xảy ra khi biết rằng biến cố \( \Pr(B)\) xảy ra và được ký hiệu \(\Pr(A|B) \) đọc là “xác suất của \(A\) khi biết \(B\) xảy ra”.
Định nghĩa: Xác suất có điều kiện |
---|
Nếu như xác suất biến cố \(B\) là có thể xảy ra hay \(\Pr(B)> 0 \) thì xác suất có điều kiện của \(A\) khi biết \(B\) là: \[ \Pr(A|B) = \frac{\Pr\left(AB\right)}{\Pr\left(B\right)} \] |
Bổ đề |
---|
Nếu như \(A\) và \(B\) là hai biến cố độc lập thì \(\Pr(A|B) = \Pr(A)\). Hay nói cách khác với mọi cặp biến cố độc lập \(A\) và \(B\) ta có: \[\Pr(AB)=\Pr(A|B)\Pr(B) = \Pr(B|A)\Pr(A) \] |
7. Công thức xác suất toàn phần
Định nghĩa |
---|
Một họ các tập con $B_{1},...,B_{n}$ của không gian mẫu $ \Omega $ là một phân hoạch (partition) của $\Omega$ nếu như các tập $B_{i}$ đôi một không giao nhau, và hợp của chúng bằng $\Omega$: $$B_{i} \cap B_{j} = \emptyset \text{ với } \forall i \neq j, \bigcup\limits_{i = 1}^n {{B_i}} = \Omega $$ |
Nếu như chúng ta cần đi tìm một xác suất $\Pr(A)$ nhưng thông tin chỉ có bao gồm các xác suất $\Pr(B_{i}) $ của một phân hoạch $B_{1},…,B_{n}$ của không gian xác suất và xác suất có điều kiện $\Pr(A | B_{i})$ thì chúng ta có thể áp dụng công thức xác suất toàn phần (law of total probability) để tính xác suất của biến cố $A$:
$$ \Pr(A) = \sum_{i}^{n}\Pr(A \cap B_{i}) = \sum_{i}^{n} \Pr(A | B_{i}) \Pr(B_{i}) $$
8. Công thức Bayes
Thomas Bayes là một nhà toán học tài tử, sở dĩ gọi ông ấy tài tử bởi vì ông bắt đầu toán muộn, công trình thì ít… nhưng đủ làm thay đổi cả thế giới!
Nếu \(A, B\) là hai biến cố với xác suất khác \(0\): \[ \Pr(B|A) = \frac{\Pr(A|B)\Pr(B)}{\Pr(A)} \tag{3} \] Công thức trên là hệ quả trực tiếp của công thức \(\Pr(B|A)\Pr(A)=\Pr(A|B)\Pr(B)\). Kết hợp với công thức xác suất toàn phần ta có:
Công thức Bayes |
---|
Giả sử \(B_{1},…,B_{n}\) là một phân hoạch trên không gian mẫu \(\Omega\). Khi đó ta có công thức Bayes: \[\Pr(B_{k}|A) = \frac{\Pr(A|B_{k})\Pr(B_{k})}{\Pr(A)} = \frac{\Pr(A|B_{k})\Pr(B_{k})}{\sum\nolimits_{i = 1}^n {\Pr(A|{B_i})\Pr({B_i})}} \] |
Công thức xác suất Bayes rất đơn giản nhưng nó lại mang một ý nghĩa sâu xa. Thường thì khi học về xác suất có điều kiện rất nhiều bạn hay lẫn lộn giữa \(\Pr(A|B)\) và \(\Pr(B|A)\) là hai con số như nhau, nhưng thực tế thì đôi khi nó khác xa nhau rất nhiều.
Tham khảo
Larry A. Wasserman. All of Statistics: A Concise Course in Statistical Inference.
Nguyễn Tiến Dũng & Đỗ Đức Thái. Nhập môn hiện đại xác suất thống kê. Sputnik Education, 2015.
Nguyễn Đình Thúc & Đặng Hải Văn & Lê Phong . Thống kê máy tính. Nhà xuất bản Khoa học và Kỹ thuật, 2010.
John Tsitsiklis. 6.041 Probabilistic Systems Analysis and Applied Probability. Fall 2010. Massachusetts Institute of Technology: MIT OpenCourseWare, https://ocw.mit.edu. License: Creative Commons BY-NC-SA.
Wikipedia contributors. “Law of total probability.” Wikipedia, The Free Encyclopedia. Wikipedia, The Free Encyclopedia, 29 Mar. 2018. Web. 26 Jul. 2018.