ThetaFlow - Phân tích thành phần chính PCA 2D

Nội dung bài viết

--- HỘP ĐEN [ PCA 2D ] ---



Mỗi tập tin .csv tải lên hàng đầu sẽ được xem là tên cột. Dữ liệu phải là 2 chiều. Ký tự phân cách delimiter của tập tin CSV là dấu phẩy ','. Dữ liệu mỗi hàng phải là số thực (hoặc nguyên).
Sau đây là một ví dụ hợp lệ:

x1, x2
58.21361,91.88189
58.19605,92.21499
58.71823,90.31053
57.27837,89.90761
58.08202,92.00815
57.48945,88.08529
28.08874,63.51079
28.08547,63.5902
28.08727,63.12328
27.57803,62.82104
27.77992,63.51815
Nếu phát hiện ra lỗi bạn có thể liên hệ mình qua email: quangtiencs@gmail.com
Hoặc qua Facebook Page:
1.0RC2 (sửa một số lỗi giao diện)
1.0RC1
Tương thích Mozilla Firefox 69

Ghi chú

  • Bạn đọc quan tâm tìm hiểu rõ hơn về PCA có thể tìm đọc tài liệu [1] [2] [3]. 7 bước thực hiện PCA trong bài viết này dựa trên [1] (Blog "Machine Learning cơ bản").
  • Phần ký hiệu, bài viết chọn cách ký hiệu của [2] theo hướng thống kê. Một số tài liệu có thể sẽ ký hiệu khác đi một tí để tiện cho tính toán đại số.
  • Bài viết đã giản lược các chi tiết về tối ưu khi tính toán. Mục tiêu chính là trực quan hóa ý tưởng cơ bản thuật toán PCA (vì sao PCA được gọi là xoay dữ liệu, PCA giảm chiều dữ liệu như thế nào?).

Tham khảo

  1. Vũ Hữu Tiệp. Bài 27: Principal Component Analysis (phần 1/2). (Blog) Machine Learning cơ bản. Jun 15, 2017.https://machinelearningcoban.com/2017/06/15/pca/
  2. Richard Johnson, Dean Wichern. Chapter 8 Principal Components. Applied Multivariate Statistical Analysis. Pearson.
  3. Lesson 11: Principal Components Analysis (PCA). STAT 505 Applied Multivariate Statistical Analysis. https://newonlinecourses.science.psu.edu/stat505/lesson/11
  4. [Data Source] Autodesk Research. Same Stats, Different Graphs: Generating Datasets with Varied Appearance and Identical Statistics through Simulated Annealing. https://www.autodeskresearch.com/publications/samestats

ThetaLog - Nhật ký Theta
Lê Quang Tiến (quangtiencs)

comments powered by Disqus