Biến ngẫu nhiên • Lê Quang Tiến

[Bài này sẽ còn được nhận cập nhật] [Hoàn tất: 20%]

Thống kê (statistics) và khai phá dữ liệu (data mining) là những ngành đối mặt với dữ liệu. Làm cách nào để chúng ta có thể mô hình hóa dữ liệu kết nối lý thuyết xác suất? Biến ngẫu nhiên là câu trả lời cho câu hỏi trên!

Thuật ngữ biến trong biến ngẫu nhiên không có nghĩa nó là một biến như các biến toán học khác, bản chất biến ngẫu nhiên là một hàm số (cẩn thận nhầm lẫn). Một biến ngẫu nhiên không mô tả kết quả thực tế của một phép thử, nó dùng các số thực để mô tả các kết quả có thể xảy ra nhưng chưa xác định.

1. Giới thiệu

Trong xác suất thống kê, một biến ngẫu nhiên (random variable, stochastic variable) là một hàm toán học với đặc điểm: nó gán một giá trị bằng số cho kết quả (đầu ra) của một phép thử ngẫu nhiên (thực nghiệm).

Khái niệm biến ngẫu nhiên là một khái niệm quan trọng mà chúng ta sẽ khảo sát ngay sau đây.

Định nghĩa
Một biến ngẫu nhiên là một hàm: \[X:\Omega \rightarrow \mathbb{R}\] Hay nói một cách khác gán mỗi kết quả \(\omega\) bằng một con số thực \(X\left(\omega\right)\).

Định nghĩa

Một biến ngẫu nhiên là một hàm:
\[X:\Omega \rightarrow \mathbb{R}\]
Hay nói một cách khác gán mỗi kết quả $\omega$ bằng một con số thực $X\left(\omega\right)$.

Nhờ vào định nghĩa của biến ngẫu nhiên, mà từ đó ta có thể làm nhiều phép toán khác nhau với các biến ngẫu nhiên: cộng, trừ, nhân, chia,… Từ đó có thể sinh ra các biến ngẫu nhiên mới từ các biến ngẫu nhiên cho trước.

Tung đồng xu (hai mặt Sấp - S, Ngửa - N) lên 6 lần. Gọi $X(\omega)$ là số lần sấp của $\omega$. Ví dụ $\omega = SSSNSN$ ta có $X(\omega)=4$

Bài kiểm tra 15 phút môn vật lý gồm 4 câu trắc nghiệm, biết rằng cấu trúc đề được thiết kế để mỗi câu chỉ có $25\%$ học sinh làm đúng, mỗi câu trả lời của học sinh chỉ có thể là đúng hoặc sai, nếu đúng thì được $2,5$ điểm mỗi câu, không gian mẫu lúc này có $|\Omega| = 2^{4}$ trường hợp. Mỗi trường hợp là một chuổi $4$ chữ cái $D$ (đúng) và $S$ (sai). Từ đây chúng ta có thể tính xác suất cho mỗi sự kiện $\Pr(DSSS)=0,25.0,75.0,75.0,75=0,10546875$. Trong trường hợp này chúng ta có thể đặt biến ngẫu nhiên là $X$ là tổng điểm, hay nói cách khác là hàm $X: \Omega \rightarrow \{0, 2.5, 5.0,7.5,10\}$

Biến ngẫu nhiên được phân ra làm hai loại: biến ngẫu nhiên rời rạc, biến ngẫu nhiên liên tục.

2. Phân bố xác suất

Trong việc nghiên cứu các biến ngẫu nhiên, chúng ta thường đặc biệt quan tâm đến phân bố xác suất (probability distribution) của chúng. Một trong những vấn đề khiến xác suất thống kê “khó học” là vì nó được sử dụng khá đa dạng vào nhiều lĩnh vực khác nhau, thuật ngữ rất lộn xộn (đôi khi bạn đọc sẽ tìm thấy ở nơi khác định nghĩa với tên gọi khác, ví dụ như pmf một số tài liệu nên gọi là pf thôi cho gọn).

Trong lý thuyết xác suất và thống kê, một phân bố xác suất là một hàm số toán học cung cấp thông tin xác suất suất xảy ra của những kết quả khác nhau của một phép thử. Nói một cách khác, phân bố xác suất mô tả quá trình ngẫu nhiên dưới dạng xác suất của các sự kiện.

2.1 Phân bố xác suất rời rạc

Khi tập giá trị của biến ngẫu nhiên $X$ có hữu hạn phần tử hoặc vô hạn đếm được (tất cả các phần tử có thể sắp thành dãy số) các kết quả có thể xảy ra, $X$ là biến ngẫu nhiên rời rạc.

Với biến ngẫu nhiên rời rạc $X$, xác suất mà biến ngẫu nhiên rời rạc $X$ nhận giá trị $x$ hay nói cách khác $\Pr(X=x)$ được tính bằng hàm khối xác suất p.m.f ký hiệu $f_{X}(x)$ (một số tài liệu gọi là hàm xác suất).

P.M.F
Hàm khối xác suất (probability mass function, viết tắt p.m.f) với biến ngẫu nhiên rời rạc $X$ nhận các giá trị $\{ x_{1}, x_{2}… \}$ (hữu hạn hoặc vô hạn đếm được) là $f_{X}(x)$, xác suất biến ngẫu nhiên $X$ nhận kết quả đầu ra là $x$ là:$$\Pr(X=x) = f_{X}(x)$$Thỏa mãn:$$\sum_{i} f_{X}(x_{i}) = 1$$

P.M.F

Hàm khối xác suất (probability mass function, viết tắt p.m.f) với biến ngẫu nhiên rời rạc $X$ nhận các giá trị $\{ x_{1}, x_{2}… \}$ (hữu hạn hoặc vô hạn đếm được) là $f_{X}(x)$, xác suất biến ngẫu nhiên $X$ nhận kết quả đầu ra là $x$ là:$$\Pr(X=x) = f_{X}(x)$$Thỏa mãn:$$\sum_{i} f_{X}(x_{i}) = 1$$

Tiếp theo chúng ta sẽ bàn đến định nghĩa hàm phân bố tích lũy c.d.f.

Phân bố tích lũy
Hàm phân bố tích lũy (cumulative distribution function, viết tắt c.d.f) của biến ngẫu nhiên rời rạc $X$:$$F_{X}(x) = \Pr(X \le x) = \sum_{t \le x} f_{X}(t)$$

Phân bố tích lũy

Hàm phân bố tích lũy (cumulative distribution function, viết tắt c.d.f) của biến ngẫu nhiên rời rạc $X$:$$F_{X}(x) = \Pr(X \le x) = \sum_{t \le x} f_{X}(t)$$

Hàm phân bố tích lũy của biến ngẫu nhiên rời rạc rất hiếm khi được sử dụng. Nhưng không phải là không có!

Ví dụ

(Nguồn Wikimedia)

Thực hiện thí nghiệm gieo súc sắc hai lần liên tiếp thu được cặp số $(n_{1}, n_{2})$ với $n_{1}, n_{2} \in \{1,2,3,4,5,6\}$. Gọi $X$ là biến ngẫu nhiên tổng của hai lần gieo súc sắc. Hay nói cách khác $X$ là hàm: $$X((n_{1},n_{2})) = n_{1}+n_{2}$$Lúc này hàm $p.m.f$ của biến ngẫu nhiên $X$ là:$$f_{X}(x) = \frac{min(x-1, 13-x)}{36}$$với $x \in \{2,3,4,5,6,7,8,9,10,11,12\}$

2.2 Phân bố xác suất liên tục

Khi tập giá trị của biến ngẫu nhiên $X$ có vô hạn không đếm được của các kết quả có thể xảy ra, $X$ là biến ngẫu nhiên liên tục.

Với biến ngẫu nhiên liên tục, từ khi miền kết quả đầu ra của $X$ có vô hạn kết quả có thể xảy ra. Việc lấy xác suất $\Pr(X=x)=0$ với mọi điểm, hay nói cách khác $\Pr(X=x)$ sẽ không hoạt động trong trường hợp này.

Vì thế trong trường hợp biến ngẫu nhiên liên tục, thay vì lấy xác suất tại một điểm cố định thì chúng ta đi tìm xác suất trong một khoảng $(a,b)$. Nó dẫn chúng ta đến khái niệm lấy xác suất trên khoảng bằng tích phân của hàm mật độ xác suất (probability density function):

P.D.F
Hàm mật độ xác suất (probability density function, viết tắt p.d.f) với biến ngẫu nhiên liên tục $X$ là một hàm khả tích $f_{X}(x) \ge 0$ với $\forall x$, xác suất biến ngẫu nhiên $X$ nhận kết quả đầu ra trong khoảng $\left( a, b \right)$ được tính bằng cách lấy tích phân:$$\Pr(a \le X \le b) = \int_{a}^{b} f_{X}(x) dx $$ Hàm $f_{X} (x)$ thỏa mãn:$$\int_{-\infty}^{\infty} f_{X}(x) dx = 1$$

P.D.F

Hàm mật độ xác suất (probability density function, viết tắt p.d.f) với biến ngẫu nhiên liên tục $X$ là một hàm khả tích $f_{X}(x) \ge 0$ với $\forall x$, xác suất biến ngẫu nhiên $X$ nhận kết quả đầu ra trong khoảng $\left( a, b \right)$ được tính bằng cách lấy tích phân:$$\Pr(a \le X \le b) = \int_{a}^{b} f_{X}(x) dx $$ Hàm $f_{X} (x)$ thỏa mãn:$$\int_{-\infty}^{\infty} f_{X}(x) dx = 1$$

Hàm phân bố tích lũy của các biến ngẫu nhiên liên tục rất quan trọng, định nghĩa hàm c.d.f của biến ngẫu nhiên liên tục như sau:

Phân bố tích lũy
Hàm phân bố tích lũy (cumulative distribution function, viết tắt c.d.f) của biến ngẫu nhiên liên tục $X$ là:$$F_{X}(x) = \int_{-\infty}^{x} f_{X}\left(t\right)dt$$

Phân bố tích lũy

Hàm phân bố tích lũy (cumulative distribution function, viết tắt c.d.f) của biến ngẫu nhiên liên tục $X$ là:$$F_{X}(x) = \int_{-\infty}^{x} f_{X}\left(t\right)dt$$

Sau đây là ví dụ về biến ngẫu nhiên liên tục:

Ví dụ

(Nguồn Wikimedia)

Cây dừa là một loại cây trong họ cau (Arecaceae), chiều cao của cây dừa có thể lên đến hơn $30 m$!
Một thân cây có thể cao $25m$ là điều hoàn toàn có thể xảy ra. Tuy nhiên xác suất nó $\Pr(X=25) = 0 $ bởi vì nửa khoảng $(0,30]$ là một tập vô hạn không đếm được các kết quả có thể xảy ra. Mặc dù xác suất của kết quả thân cây dừa cao $x$ (mét) xảy ra bằng không nhưng chúng ta lại hoàn toàn có thể lấy được xác suất mà kết quả rơi vào khoảng $(24,26)$ là một số khác không (bằng công cụ tích phân).

Xác suất bằng 0 không có nghĩa là nó bất khả thi, đây là một điều thú vị gây không ít nhiều “bối rối” và tranh cãi cho các bạn mới nhập môn xác suất thống kê! (bạn có thể đọc thêm sách của Morris H. DeGroot để hiểu hơn về việc này)

Trong kỷ nguyên số, việc chú trọng giảng dạy và nghiên cứu các vấn đề liên quan đến toán học rời rạc ngày càng ứng dụng rộng rãi và mạnh mẽ hơn trước sự phổ biến của máy tính tốc độ cao. Những vấn đề liên quan đến toán học liên tục giúp ta hiểu rõ về cách thế giới vận hành hơn, tuy nhiên lại gây ra một số trở ngại “không hề nhỏ” trong việc mô hình hóa tính toán.

Trong nhiều bài toán liên quan đến xác suất thống kê, nếu như việc tìm kiếm ra lời giải chính xác vô cùng khó khăn, bạn có thể thử các phương pháp giải tích số (một số sách gọi là phương pháp số - numerical analysis) để xấp xĩ lời giải. Nên tập làm quen với những phương pháp này, nó rất hữu ích!

Tham khảo

Wikipedia contributors. “Random variable.” Wikipedia, The Free Encyclopedia. Wikipedia, The Free Encyclopedia, 5 Jul. 2018. Web. 12 Jul. 2018.
Larry A. Wasserman. All of Statistics: A Concise Course in Statistical Inference.
Nguyễn Tiến Dũng & Đỗ Đức Thái. Nhập môn hiện đại xác suất thống kê. Sputnik Education, 2015.
Nguyễn Đình Thúc & Đặng Hải Văn & Lê Phong . Thống kê máy tính. Nhà xuất bản Khoa học và Kỹ thuật, 2010.
John Tsitsiklis. 6.041 Probabilistic Systems Analysis and Applied Probability. Fall 2010. Massachusetts Institute of Technology: MIT OpenCourseWare, https://ocw.mit.edu. License: Creative Commons BY-NC-SA.
Wikipedia cộng tác viên, “Biến ngẫu nhiên.” Wikipedia, Bách khoa toàn thư mở. 30 tháng 8 năm 2017, 12:39 UTC. Tổ chức Quỹ Hỗ trợ Wikimedia. 30 tháng 8 năm 2017
Wikipedia contributors. “Probability distribution.” Wikipedia, The Free Encyclopedia. Wikipedia, The Free Encyclopedia, 23 Jun. 2018. Web. 16 Jul. 2018.
Department of Statistics Online Programs. “STAT 414 / 415 Probability Theory and Mathematical Statistics”. The Pennsylvania State University, 2018.
Morris H. DeGroot, Mark J. Schervish. “Probability and Statistics”. Pearson. January 6, 2011.
Đinh Anh Thi. Thế nào là đếm được trong Toán học? Tập số hữu tỷ có đếm được không?. http://math2it.com/the-nao-la-em-uoc-trong-toan-hoc-tap-so/