CoTAI's logo

CoTAI / Gems Collection / Accelerated Mastery Training in AI

TEFPA Unified Machine Learning Framework

Hệ thống hoá kiến thức của khoá học ML4AI: Machine Learning for AI

(trong chương trình 🍊 Accelerated Mastery™ đào tạo tăng tốc Lập trình dự án AI)

Hãy hình dung trong đầu ta có một “fantastic function” $f^*$ để xử lý mọi loại input ${\bf x} \overset{f^*}{\to}$ output $y$.

Machine learning là ngành cho phép chúng ta xây dựng các mô hình AI tốt từ dữ liệu: Data $\xrightarrow{ML} \hat{f} \approx f^*$

Khung chuẩn TEFPA™ do CoTAI đề xuất gồm 5 thành phần để xây dựng một mô hình AI (click $\blacktriangleright$ để xem chi tiết)

  1. Task: tác vụ của mô hình, là các bài toán mà AI cần giải qua các cặp (input, output)
    • Dữ liệu đầu vào ${\bf x}$ là gì? Cần tiền xử lý (chuẩn hoá, cắt xén, …) ra sao?
    • Dự đoán đầu ra $\hat{y}$ là gì? Với các constraints về space/time ra sao? Ví dụ dự đoán theo batch hay phải real-time/stream, sequential hay session-based, etc.
    • Gồm các bài toán dự đoán cơ bản nào (ví dụ regression giá trị liên tục, classification phân loại nhận dạng, clustering gom nhóm khoanh vùng, ranking xếp hạng, decision chọn lựa quyết định, …)
    • Ngày nay đa số các bài toán AI trong thực tế đều có thể đưa về những tác vụ mẫu sẵn có của ngành AI.
  2. Experience: “trải nghiệm”, dữ liệu để huấn luyện mô hình
    • Là các cặp input/output $({\bf x},y)$ mẫu, liên quan đến DataOps, thường chiếm 80% thời lượng phát triển một mô hình AI.
    • Dữ liệu được gán nhãn (annotation, labeling) ra sao, độ đồng thuận thế nào, mức độ nhiễu, …
    • Các bước tiền xử lý, chuẩn hoá, làm giàu augmentation, tổng hợp synthesized, … Bảo mật riêng tư, anonymization, de-bias, etc.
    • Các thông tin khác (meta data, ngữ nghĩa của dữ liệu & đặc trưng,…) và cả các nhãn “weak supervision” có thể thu thập được trong quá trình người dùng tương tác & feedback.
    • Data thực sự là “gold, oil” trong thời đại AI, đặc biệt là dữ liệu của khách hàng gắn liền với business, aka “data moat”. Cần có phương pháp và hệ thống để sớm thu thập xử lý lưu trữ proprietary data ngay cả trước khi triển khai tích hợp AI.
  3. Function: “hàm trí tuệ” $\hat{f}_\theta$, gồm kiến trúc của mô hình và các tham số $\theta$ cần tinh chỉnh
    • Nếu xem $\hat{f}_\theta$ như một cỗ máy thì kiến trúc mô hình là cấu hình của cỗ máy, còn tham số/trọng số là các nút chỉnh (để máy chạy tốt nhất). Ví dụ cùng bộ tham số $(a,b)$ ta có thể biểu diễn 2 loại hàm số qua 2 kiến trúc mô hình khác nhau: $\hat{y}=ax+b$ và $\hat{y}=ax^2+b$.
    • Qua nghiên cứu chúng ta dần có nhiều kiến thức trong việc thiết kế các kiến trúc và thành phần của mô hình AI có khả năng khái quát hoá cao. Ngày nay đa số các bài toán AI trong thực tế đều có thể đưa về những mô hình mẫu, kiến trúc mẫu tối ưu sẵn có của ngành AI.
    • Các mô hình AI có thể được cung cấp qua API, có thể được cho free kiến trúc & code, hoặc cho free cả bộ trọng số đã được huấn luyện tối ưu gọi là pretrained models để chúng ta tinh chỉnh thêm (finetune) dựa trên dữ liệu nhỏ của ta, hoặc cho free cả dữ liệu để chúng ta có thể mở rộng thêm và huấn luyện lại từ đầu from scratch.
    • Clip ngắn hệ thống hoá các giải thuật Học máy Machine learning nền tảng chỉ với 01 công thức Toán!
  4. Performance: các chuẩn đánh giá để cho biết dự đoán $\hat{y} = \hat{f}_\theta({\bf x})$ của mô hình tốt xấu ra sao
    • Gồm các chỉ số evaluation metrics (sau khi huấn luyện) & hàm lỗi loss functions (dùng trong khi huấn luyện)
    • Các hàm lỗi thường là standard cho các bài toán & mô hình AI. Ta có thể kết hợp nhiều hàm lỗi (ví dụ auxiliary losses) khi huấn luyện một mô hình.
    • Các metrics mới phức tạp trong thực tế. Cần thống nhất các chuẩn đánh giá này giữa các stake holders để theo dõi và chấm điểm các mô hình khi roll out các tính năng của dịch vụ.
    • Do ta thường không biết “hàm ẩn” tối ưu $f^*$ nên ta sẽ so sánh các cặp đầu ra $(y,\hat{y})$ với nhau.
  5. Algorithm: giải thuật huấn luyện (train) $\equiv$ tối ưu (optimize) $\equiv$ tìm kiếm (search) $\equiv$ học (learn)
    • Các giải thuật huấn luyện đa số là local search dựa vào tính toán đạo hàm thông qua “lan truyền ngược” backpropagation (dùng auto-differentiation) với các thông số mặc định “best practice” cho từng bài toán và bộ dữ liệu.
    • Một số ít các giải thuật huấn luyện là global search không dựa vào đạo hàm (như population/simulation-based evolution strategies, reinforcement learning, hoặc math programming) cho những bài toán đặc biệt.
    • Có 2 kiểu huấn luyện: 1-stage “online” setting huấn luyện ngay mỗi khi có dữ liệu mới, hoặc 2-stage “offline” setting huấn luyện sau khi thu thập đủ data.
    • Có 3 time-scales huấn luyện: “học nhanh” qua từng điểm dữ liệu (SGD, mini-batch), qua cả bộ dữ liệu (batch), hoặc “học chậm” qua nhiều bộ tham số cùng lúc trên cả bộ dữ liệu (như population/simulation-based, evolution strategies.)
    • Có 2 trường phái: Frequentist chỉ quan tâm 1 giá trị cụ thể của bộ tham số (point estimate), còn Bayesian duy trì “niềm tin xác suất” probability distribution “belief” cho cả không gian các tham số.
    • Ta thường kết hợp với các kinh nghiệm (heuristic principles) để tìm $\hat{f}\approx f^*$ có khả năng khái quát hoá (generalization) cao.
TEFPA = Task + Experience + Function + Performance + Algorithm

Lưu ý đối với ngành MLOps & Production AI chúng ta cần đặc biệt quan tâm 2-Data và 4-Performance của mô hình AI (đã được huấn luyện bởi ML/AI engineers ở 3-Function) để bảo đảm mô hình được tích hợp & sử dụng hiệu quả trong thực tế business cũng như tiếp tục được khai thác và tinh chỉnh huấn luyện cho nhiều bài toán khác trong tương lai.

Clip ngắn bài giảng của thầy Hưng Ngô