Nghệ thuật học từ dữ liệu
Nội dung bài viết
1. Giới thiệu và lợi ích của việc học thống kê
Khoa học thống kê đóng một vai trò quan trọng chủ đạo trong khoa học dữ liệu.
- Trong khoa học máy tính: sự trổi dậy của “học máy” (machine learning) là kết quả của những mô hình thống kê cùng với sự hổ trợ của các ngành toán khác như: tối ưu hóa, lý thuyết thông tin, đại số tuyến tính, giải tích…
- Trong kinh tế: những nhà quản lí sử dụng thống kê để phân tích kết quả, nghiên cứu về sản phẩm để giúp dự đoán doanh thu, đo lường năng suất làm việc hiệu quả của nhân viên.
- Trong y học: nghiên cứu thống kê đóng vai trò như nồng cốt, nếu như nhìn qua các tạp chí y học, hầu hết bài báo nào cũng có phần phân tích thống kê. Đặc biệt những tạp chí có IF (impact factor) càng cao càng yêu cầu hàm lượng thống kê càng nặng.
Thống kê là ngành được xây dựng để xử lý các vấn đề về khoa học dữ liệu. Hầu như trong mỗi chúng ta đều có một tí gì đó về khái niệm về từ “thống kê”, hàng ngày bạn nghe về độ tuổi trung bình thế giới, trung bình thu nhập, thời gian sử dụng facebook mỗi ngày,… Hay nói một cách ngắn gọn, thống kê là những con số được tính toán từ dữ liệu, nó thể hiện cách con người hiểu về dữ liệu, định lượng thế giới đầy rẫy tính phi chắc chắn.
Khái niệm |
---|
Thống kê là nghệ thuật học từ dữ liệu. Nhiệm vụ của thống kê là biến dữ liệu thô thành tri thức và hiểu về thế giới xung quanh chúng ta. |
Xác suất thống kê là một môn học mà bạn có thể thực hành sử dụng chúng hàng ngày. Đó là rủi ro. Đó là phần thưởng. Đó là sự ngẫu nhiên. Đó là sự thấu hiểu về dữ liệu.
Nhưng liệu có nên học thống kê, dù công việc của bạn hầu như không sử dụng đến chúng?
Hiểu thống kê sẽ giúp bạn đưa ra những quyết định tốt hơn trong cuộc sống. Bởi vì sao? Bởi vì hàng ngày chúng ta tiếp thu rất nhiều thông tin từ xung quanh: facebook, youtube, truyền hình, báo chí,… Liệu bạn có thể chọn lọc ra được đâu là thông tin cần tiếp thu, đâu là thông tin cần phải đào thải? Rèn luyện thống kê tương ứng với việc bạn đang rèn luyện khả năng nghi ngờ của chính bản thân mình.
Bản thân là một người học khoa học thống kê, bạn phải không ngừng đặt ra những câu hỏi “thống kê” và tìm ra câu trả lời cho chúng. Hãy đánh giá chúng bằng những thước đo tốt nhất mà bạn có!
2. Lịch sử của khoa học thống kê hiện đại
Lịch sử của khoa học thống kê hiện đại có thể chia ra làm 2 giai đoạn phát triển:
Khoảng thời gian giữa thế kỷ 18 (khoảng 1749) thời điểm này là thời điểm mà người ta bắt đầu thích thú khảo sát những thông số xã hội (dân số, thu nhập,…) mà nó là nguồn gốc của thống kê mô tả sau này (descriptive statistics). Thuở ban đầu, thống kê mô tả chỉ đơn giản là biễu diễn dữ liệu trong bảng dữ liệu thành các đồ thị, ngày nay thống kê mô tả bao gồm cả việc mô tả thống kê qua các thông số và đồ thị.
Trong khoảng vài thập niên trở lại đây, người ta gọi đây là thời điểm của suy luận thống kê. Trong khoa học thống kê, từ thống kê mô tả ngành thống kê chuyển sang một bước ngoặt mới gọi là “suy luận thống kê” (statistical inference). Suy luận thống kê bàn luận về sự tổng quát hóa từ khái niệm tập dữ liệu mẫu sang tổng thể. Trong giai đoạn này là thời kì phát triển của rất nhiều phương pháp suy luận, đồng thời sự tranh cãi của các trường phái như “thống kê tần suất” (frequency statistics) và “thống kê bayes” (bayes statistics).
3. Phân loại thống kê
Hai phương pháp thống kê chính hiện tại có thể chia thành:
Thống kê mô tả (descriptive statistics): phương pháp tóm tắt dữ liệu từ một mẫu sử dụng các chỉ số như là giá trị trung bình hoặc độ lệch chuẩn, hệ số tương quan,…
Thống kê suy luận (inferential statistics): rút ra kết luận từ dữ liệu biến thiên ngẫu nhiên.
4. Thống kê là một ngành khoa học “nhạy cảm”
Khoa học thống kê được xem là một ngành khoa học nhạy cảm vì:
- Suy luận thống kê dựa trên lý thuyết xác suất với việc khảo sát các biến ngẫu nhiên… và hầu như xác suất thống kê không phải là một môn học “thú vị với sinh viên” vì nó rất dể hiểu nhầm. Nhiều khái niệm trong xác suất thống kê rất dể bị hiểu nhầm, vận dụng không đúng cách. (chẳng hạn như bài toán Monty Hall, hay correlation does not imply causation, hiểu về p-value,…)
- Thống kê là ngành khoa học thực nghiệm, do đó việc khảo sát để trả lời cho câu hỏi thống kê bỏ ra rất nhiều công sức, đặc biệt đòi hỏi người làm thống kê phải am hiểu tường tận những phương pháp mình đang thực hiện và hơn hết là tính trung thực trong kết quả thống kê.
- Lạm dụng vào mục đích xấu, điều này là hoàn toàn có. Một tờ báo “A” có thể đăng thông tin như sau 75% người phỏng vấn cho biết rằng họ sợ môn triết… điều này thoáng đọc qua thì đa phần người đọc sẽ nghĩ rằng 75% thế giới sợ triết nhưng điều này không đúng bởi vì con số thống kê “đã bị ẩn đi”, thống kê ở đâu, lượng mẫu bao nhiêu, đã đủ “ngẫu nhiên” để khách quan chưa?!?
“Lies, damned lies, and statistics”. Nên nhớ có 3 cách nói dối:
- Một lời nói dối
- Một lời nói dối ghê tởm
- Thống kê
Thống kê như “nghệ thuật học từ dữ liệu” vậy… mà nghệ thuật có thể là sự thật hoặc là ánh trăng lừa dối. Xin đừng làm “ánh trăng lừa dối” :D
5. Mục tiêu ThetaLog
Mục tiêu của ThetaLog là đưa đến bạn đọc những bài viết về thống kê ứng dụng, hầu hết kiến thức phần lý thuyết sẽ có phần thực hành riêng với R. Vì sao lại là R, bởi vì R là phần mềm (và cũng là ngôn ngữ lập trình) hổ trợ thống kê và hệ thống đồ họa tốt nhất hiện tại (theo ý kiến của mình).
Khi đã vững lý thuyết thì bạn có thể dể dàng xây dựng mô hình của mình với Python, Java, Matlab, Octave, Scala, C++,… trên hệ thống của mình cũng không muộn, học với R sẽ giúp tiến độ học nhanh hơn, vui hơn, khi đã hứng thú với việc gì rồi thì làm gì cũng dể.
Nếu như bạn còn đang bâng khuâng và muốn tìm cho mình một ít cảm hứng học thống kê thì hãy thử xem bài thuyết trình của GS. Hans Rosling nhé!
Tham khảo
Wikipedia contributors. “History of statistics.” Wikipedia, The Free Encyclopedia. Wikipedia, The Free Encyclopedia, 13 May. 2018. Web. 13 Jul. 2018.
Wikipedia contributors. “Lies, damned lies, and statistics.” Wikipedia, The Free Encyclopedia. Wikipedia, The Free Encyclopedia, 1 Jul. 2018. Web. 13 Jul. 2018.
Wikipedia cộng tác viên. “Khoa học Thống kê.” Wikipedia, Bách khoa toàn thư mở. 3 tháng 3 năm 2018, 13:41 UTC. Tổ chức Quỹ Hỗ trợ Wikimedia. 3 tháng 3 năm 2018