Xác suất là gì? • Lê Quang Tiến

1. Giới thiệu xác suất

Toán học là một ngôn ngữ hình thức mà các nhà khoa học tạo ra để cố mô tả tự nhiên. Một trong những vấn đề cơ bản nhất của toán học là đi cân đo đong đếm… và nghệ thuật ở đây là xây dựng ra những “độ đo” trừu tượng… Nhà toán học, vật lý Galileo Galilei có vài câu thơ như sau:

“Measure what is measurable, and make measurable what is not so.”
— Galileo Galilei

Xác suất là độ đo của toán học để đo tính phi chắc chắn của khả năng xảy ra một sự kiện (biến cố).

2. Không gian mẫu và sự kiện

Tập các kết quả có thể xảy ra của một thí nghiệm được gọi là không gian mẫu (ký hiệu: $Ω$ ). Mỗi phần tử $ω$ trong $Ω$ được gọi là một kết quả (một điểm hay phần tử trong không gian mẫu). Mỗi tập con của $Ω$ được gọi là một biến cố.

Ví dụ 1
Ví dụ 2

Tung đồng xu kết quả có thể là sấp hoặc ngửa. Gọi

S

là biến cố "sấp" và

N

là biến cố "ngửa". Tung đồng xu hai lần, không gian mẫu là

Ω = {S S, S N, N S, N N}

.
Biến cố lần tung đầu tiên sấp trong thí nghiệm là

A = {S S, S N}

Đặt

ω

là vận tốc của một chiếc xe máy, khi đó chúng ta có thể đặt không gian mẫu là

Ω = R = (- \infty, + \infty)

. Đọc đến đây bạn đọc có thể cho rằng việc đặt

Ω

như trên là không phù hợp! Vì có vẻ như sẽ có chặn trên và chặn dưới cho vận tốc chiếc xe máy này! Nhưng "thường" thì việc này không có ảnh hưởng gì cả. Biến cố xe máy chạy lớn hơn hoặc bằng

40

và nhỏ hơn hoặc bằng

50

là

A = [40, 50]

Cho biến cố $A$ , gọi $\bar{A} = {ω \in Ω : ω \notin A}$ là ký hiệu là phần bù của $A$ , biến cố $\bar{A}$ gọi là phủ định của $A$ .

Cho hai biến cố $A$ và $B$ , biến cố hợp của $A$ và $B$ là biến cố “ít nhất một trong hai biến cố $A$ hoặc $B$ xảy ra” được định nghĩa:

$A \cup B = {ω \in Ω : ω \in A hoặc ω \in B}$

Cho hai biến cố $A$ và $B$ , biến cố giao của $A$ và $B$ là biến cố “cả $A$ và $B$ xảy ra “ được định nghĩa (đôi khi chúng ta viết $A \cap B$ dưới dạng $(A, B)$ hoặc $A B$ ):

$A \cap B = {ω \in Ω : ω \in A và ω \in B}$

3. Xác suất

Xác suất là một hàm số thực định lượng khả năng xảy ra của mỗi biến cố $A$ xảy ra trong không gian mẫu $Ω$ , mỗi biến cố $A$ sẽ được gán một con số thực để định lượng khả năng $Pr (A)$ (hay còn gọi là độ đo xác suất). Mỗi xác suất của mỗi biến cố phải thỏa mãn các tiên đề sau:

Ba tiên đề luật xác suất (Probability Law)
Tiên đề 1: Không âm (Nonnegativity) $Pr (A) \geq 0$ , với mọi biến cố $A$
Tiên đề 2: Chuấn hóa (Normalization) $Pr (Ω) = 1$
Tiên đề 3: Cộng tính (Additivity) Nếu hai biến cố $A$ và $B$ rời nhau (disjoint) hay $A \cap B = \emptyset$ thì: $\begin{matrix} (1) & Pr (A \cup B) = Pr (A) + Pr (B) \end{matrix}$ Tổng quát hơn nếu như $A_{1}, A_{2}, \dots$ rời nhau thì: $\begin{matrix} (2) & Pr (⋃_{i = 1}^{\infty} A_{i}) = \sum_{i = 1}^{\infty} Pr (A_{i}) \end{matrix}$

Ba tiên đề luật xác suất (Probability Law)

Tiên đề 1: Không âm (Nonnegativity)

Pr (A) \geq 0

, với mọi biến cố

A

Tiên đề 2: Chuấn hóa (Normalization)

Pr (Ω) = 1

Tiên đề 3: Cộng tính (Additivity)
Nếu hai biến cố

A

và

B

rời nhau (disjoint) hay

A \cap B = \emptyset

thì:

\begin{matrix} (1) & Pr (A \cup B) = Pr (A) + Pr (B) \end{matrix}

Tổng quát hơn nếu như

A_{1}, A_{2}, \dots

rời nhau thì:

\begin{matrix} (2) & Pr (⋃_{i = 1}^{\infty} A_{i}) = \sum_{i = 1}^{\infty} Pr (A_{i}) \end{matrix}

Có rất nhiều cách để giải thích xác suất, cách phổ biến nhất là giải thích xác suất dựa trên tần số xuất hiện (The Frequency Interpretation of Probability). Trong nhiều vấn đề, xác suất có thể xem như là tần số kết quả của một quá trình mà kết quả thu được khi lặp đi lặp lại lượng lớn các phép thử trên cùng một điều kiện tương tự. Chẳng hạn, xác suất tung đồng xu là mặt sấp có thể xem như là

1 / 2

khi mà số lượng phép thử lớn và điều kiện tung đồng xu ở các phép thử là tương tự nhau (không được vài lần ở trái đất, rồi tiếp tục đem lên sao hỏa tung tiếp :D ).

Việc “giải thích xác suất” với những cách giải thích khác nhau không hẳn là quá quan trọng cho đến khi chúng ta xử lí các vấn đề liên quan đến suy luận thống kê, mà ở các phần sau chúng ta sẽ bàn đến hai trường phái suy luận kinh điển là nhà thống kê tần suất và nhà thống kê bayes.

Từ ba tiên đề ở trên chúng ta có thể suy ra một số tính chất của xác suất như sau:

$Pr (\emptyset) = 0$ $A \subset B \Rightarrow Pr (A) \leq Pr (B)$ $0 \leq Pr (A) \leq 1$ $Pr (A) + Pr (\bar{A}) = 1$ $A \cap B = \emptyset \Rightarrow Pr (A \cup B) = Pr (A) + Pr (B)$

Bổ đề
Với mọi biến cố $A$ và $B$ ta có: $Pr (A \cup B) = Pr (A) + Pr (B) - Pr (A B)$ Chứng minh: Tập $A \cup B$ có thể phân ra làm 3 tập: tập phần tử của $A$ mà không thuộc $B$ , tập phần tử chung của $A$ và $B$ , tập phần tử của $B$ mà không thuộc $A$ do đó: $\begin{array}{l} Pr (A \cup B) & = Pr ((A \bar{B}) \cup (A B) \cup (\bar{A} B)) \\ = Pr (A \bar{B}) + Pr (A B) + Pr (\bar{A} B) \\ = Pr (A \bar{B}) + Pr (A B) + Pr (\bar{A} B) + (Pr (A B) - Pr (A B)) \\ = (Pr (A \bar{B}) + Pr (A B)) + (Pr (\bar{A} B) + Pr (A B)) - Pr (A B) \\ = Pr ((A \bar{B}) \cup (A B)) + Pr ((\bar{A} B) \cup (A B)) - Pr (A B) \\ = Pr (A) + Pr (B) - Pr (A B) \end{array}$

Bổ đề

Với mọi biến cố

A

và

B

ta có:

Pr (A \cup B) = Pr (A) + Pr (B) - Pr (A B)

Chứng minh:
Tập

A \cup B

có thể phân ra làm 3 tập: tập phần tử của

A

mà không thuộc

B

, tập phần tử chung của

A

và

B

, tập phần tử của

B

mà không thuộc

A

do đó:

\begin{array}{l} Pr (A \cup B) & = Pr ((A \bar{B}) \cup (A B) \cup (\bar{A} B)) \\ = Pr (A \bar{B}) + Pr (A B) + Pr (\bar{A} B) \\ = Pr (A \bar{B}) + Pr (A B) + Pr (\bar{A} B) + (Pr (A B) - Pr (A B)) \\ = (Pr (A \bar{B}) + Pr (A B)) + (Pr (\bar{A} B) + Pr (A B)) - Pr (A B) \\ = Pr ((A \bar{B}) \cup (A B)) + Pr ((\bar{A} B) \cup (A B)) - Pr (A B) \\ = Pr (A) + Pr (B) - Pr (A B) \end{array}

4. Xác suất trên không gian mẫu hữu hạn phần tử

Giả sử không gian mẫu $Ω = {ω_{1}, \dots, ω_{n}}$ có hữu hạn phần tử. Ví dụ như bài toán tung đồng xu ba lần thì chỉ có $2^{3} = 8$ kết quả có thể xảy ra $Ω = {(f, c, t) : f, c, t \in {S, N}}$ . Lúc này xác suất của một biến cố $A$ được tính $Pr (A) = | A | / 8$ với $| A |$ kí hiệu số phần tử của $A$ , lúc này xác suất của biến cố $2$ lần tung đầu tiên là $S$ (mặt sấp) với $A = {(S, S, N), (S, S, S)}$ , xác suất biến cố $A$ xảy ra là $Pr (A) = 2 / 8 = 1 / 4$ .

Xác suất trên không gian mẫu hữu hạn phần tử
Nếu không gian mẫu $Ω$ hữu hạn phần tử, xác suất biến cố $A$ xảy ra là: $Pr (A) = \frac{\| A \|}{\| Ω \|}$

Xác suất trên không gian mẫu hữu hạn phần tử

Nếu không gian mẫu

Ω

hữu hạn phần tử, xác suất biến cố

A

xảy ra là:

Pr (A) = \frac{| A |}{| Ω |}

5. Biến cố độc lập

Độc lập nghĩa là không liên quan dính líu gì đến nhau, triết lí của nó rất đơn giản… và hai biến cố gọi là độc lập cũng vậy.

Định nghĩa: Hai biến cố độc lập
Hai biến cố $A$ và $B$ gọi là hai biến cố độc lập khi: $Pr (A B) = Pr (A) Pr (B)$ và chúng ta ký hiệu $A ⊥ ⊥ B$ . Một họ $M = {A_{i} : i \in I}$ các biến cố được gọi là họ độc lập nếu như: $Pr (⋂_{i \in J} A_{i}) = \prod_{i \in J} Pr (A_{i})$ với mỗi tập con hữu hạn $J$ của $I$ .

Định nghĩa: Hai biến cố độc lập

Hai biến cố

A

và

B

gọi là hai biến cố độc lập khi:

Pr (A B) = Pr (A) Pr (B)

và chúng ta ký hiệu

A ⊥ ⊥ B

.

Một họ

M = {A_{i} : i \in I}

các biến cố được gọi là họ độc lập nếu như:

Pr (⋂_{i \in J} A_{i}) = \prod_{i \in J} Pr (A_{i})

với mỗi tập con hữu hạn

J

của

I

6. Xác suất có điều kiện

Xác suất có điều kiện có thể phát biểu một cách nôm na là xác suất của một biến cố $A$ nào đó xảy ra khi biết rằng biến cố $Pr (B)$ xảy ra và được ký hiệu $Pr (A | B)$ đọc là “xác suất của $A$ khi biết $B$ xảy ra”.

Định nghĩa: Xác suất có điều kiện
Nếu như xác suất biến cố $B$ là có thể xảy ra hay $Pr (B) > 0$ thì xác suất có điều kiện của $A$ khi biết $B$ là: $Pr (A \| B) = \frac{Pr (A B)}{Pr (B)}$

Định nghĩa: Xác suất có điều kiện

Nếu như xác suất biến cố

B

là có thể xảy ra hay

Pr (B) > 0

thì xác suất có điều kiện của

A

khi biết

B

là:

Pr (A | B) = \frac{Pr (A B)}{Pr (B)}

Do đó nếu như hai biến cố

A

và

B

độc lập thì xác suất hợp của chúng có thể được biểu diễn bởi tích của các xác suất của từng biến cố

Pr (A B) = Pr (A) Pr (B)

suy ra bổ đề sau:

Bổ đề
Nếu như $A$ và $B$ là hai biến cố độc lập thì $Pr (A \| B) = Pr (A)$ . Hay nói cách khác với mọi cặp biến cố độc lập $A$ và $B$ ta có: $Pr (A B) = Pr (A \| B) Pr (B) = Pr (B \| A) Pr (A)$

Bổ đề

Nếu như

A

và

B

là hai biến cố độc lập thì

Pr (A | B) = Pr (A)

. Hay nói cách khác với mọi cặp biến cố độc lập

A

và

B

ta có:

Pr (A B) = Pr (A | B) Pr (B) = Pr (B | A) Pr (A)

7. Công thức xác suất toàn phần

Định nghĩa
Một họ các tập con $B_{1}, . . ., B_{n}$ của không gian mẫu $Ω$ là một phân hoạch (partition) của $Ω$ nếu như các tập $B_{i}$ đôi một không giao nhau, và hợp của chúng bằng $Ω$ : $B_{i} \cap B_{j} = \emptyset với \forall i \neq j, ⋃_{i = 1}^{n} B_{i} = Ω$

Định nghĩa

Một họ các tập con

B_{1}, . . ., B_{n}

của không gian mẫu

Ω

là một phân hoạch (partition) của

Ω

nếu như các tập

B_{i}

đôi một không giao nhau, và hợp của chúng bằng

Ω

B_{i} \cap B_{j} = \emptyset với \forall i \neq j, ⋃_{i = 1}^{n} B_{i} = Ω

Nếu như chúng ta cần đi tìm một xác suất $Pr (A)$ nhưng thông tin chỉ có bao gồm các xác suất $Pr (B_{i})$ của một phân hoạch $B_{1}, \dots, B_{n}$ của không gian xác suất và xác suất có điều kiện $Pr (A | B_{i})$ thì chúng ta có thể áp dụng công thức xác suất toàn phần (law of total probability) để tính xác suất của biến cố $A$ :

$Pr (A) = \sum_{i}^{n} Pr (A \cap B_{i}) = \sum_{i}^{n} Pr (A | B_{i}) Pr (B_{i})$

8. Công thức Bayes

Thomas Bayes là một nhà toán học tài tử, sở dĩ gọi ông ấy tài tử bởi vì ông bắt đầu toán muộn, công trình thì ít… nhưng đủ làm thay đổi cả thế giới!

Nếu

A, B

là hai biến cố với xác suất khác

0

\begin{matrix} (3) & Pr (B | A) = \frac{Pr (A | B) Pr (B)}{Pr (A)} \end{matrix}

Công thức trên là hệ quả trực tiếp của công thức

Pr (B | A) Pr (A) = Pr (A | B) Pr (B)

. Kết hợp với công thức xác suất toàn phần ta có:

Công thức Bayes
Giả sử $B_{1}, \dots, B_{n}$ là một phân hoạch trên không gian mẫu $Ω$ . Khi đó ta có công thức Bayes: $Pr (B_{k} \| A) = \frac{Pr (A \| B_{k}) Pr (B_{k})}{Pr (A)} = \frac{Pr (A \| B_{k}) Pr (B_{k})}{\sum_{i = 1}^{n} Pr (A \| B_{i}) Pr (B_{i})}$

Công thức Bayes

Giả sử

B_{1}, \dots, B_{n}

là một phân hoạch trên không gian mẫu

Ω

. Khi đó ta có công thức Bayes:

Pr (B_{k} | A) = \frac{Pr (A | B_{k}) Pr (B_{k})}{Pr (A)} = \frac{Pr (A | B_{k}) Pr (B_{k})}{\sum_{i = 1}^{n} Pr (A | B_{i}) Pr (B_{i})}

Công thức xác suất Bayes rất đơn giản nhưng nó lại mang một ý nghĩa sâu xa. Thường thì khi học về xác suất có điều kiện rất nhiều bạn hay lẫn lộn giữa $Pr (A | B)$ và $Pr (B | A)$ là hai con số như nhau, nhưng thực tế thì đôi khi nó khác xa nhau rất nhiều.

Tham khảo

Larry A. Wasserman. All of Statistics: A Concise Course in Statistical Inference.
Nguyễn Tiến Dũng & Đỗ Đức Thái. Nhập môn hiện đại xác suất thống kê. Sputnik Education, 2015.
Nguyễn Đình Thúc & Đặng Hải Văn & Lê Phong . Thống kê máy tính. Nhà xuất bản Khoa học và Kỹ thuật, 2010.
John Tsitsiklis. 6.041 Probabilistic Systems Analysis and Applied Probability. Fall 2010. Massachusetts Institute of Technology: MIT OpenCourseWare, https://ocw.mit.edu. License: Creative Commons BY-NC-SA.
Wikipedia contributors. “Law of total probability.” Wikipedia, The Free Encyclopedia. Wikipedia, The Free Encyclopedia, 29 Mar. 2018. Web. 26 Jul. 2018.