Giới Thiệu Khóa Học AI Nâng Cao - Deep Reinforcement Learning Trong Python [Mã - 6921 A]
Hướng dẫn hoàn chỉnh để làm chủ trí tuệ nhân tạo bằng cách sử dụng Deep Learning và Neural Networks.
Bạn sẽ học được gì:
✓ Xây dựng các deep learning agent khác nhau (bao gồm DQN và A3C).
✓ Áp dụng nhiều thuật toán reinforcement learning nâng cao cho mọi bài toán.
✓ Q-Learning với Deep Neural Networks.
✓ Policy Gradient Methods với Neural Networks.
✓ Reinforcement Learning với RBF Networks.
✓ Sử dụng Convolutional Neural Networks với Deep Q-Learning.
Khóa học này chủ yếu nói về ứng dụng của deep learning và neural networks vào reinforcement learning.
Nếu bạn đã tham gia khóa reinforcement learning đầu tiên của tôi thì bạn sẽ biết rằng reinforcement learning đang ở giai đoạn cuối của những gì chúng ta có thể làm với AI.
Cụ thể, sự kết hợp giữa deep learning với reinforcement learning đã dẫn đến việc AlphaGo đánh bại nhà vô địch thế giới trong game chiến lược cờ vây, dẫn đến ô tô tự lái và dẫn đến những cỗ máy có thể chơi trò chơi điện tử ở cấp độ siêu phàm.
Reinforcement learning đã có từ những năm 70 nhưng cho đến nay vẫn chưa có điều nào trong số này có thể thực hiện được.
Chúng tôi đã thấy rằng reinforcement learning là một loại machine learning hoàn toàn khác với supervised và unsupervised learning.
Các thuật toán Supervised và unsupervised machine learning dùng để phân tích và đưa ra dự đoán về dữ liệu, trong khi reinforcement learning là đào tạo một agent tương tác với môi trường và tối đa hóa phần thưởng của nó.
Không giống như các thuật toán supervised và unsupervised learning, các reinforcement learning agent có một động lực - chúng muốn đạt được mục tiêu.
Đây quả là một quan điểm hấp dẫn, nó thậm chí có thể khiến supervised / unsupervised machine learning và "data science" trở nên nhàm chán khi nhận ra muộn màng. Tại sao phải train một neural network để tìm hiểu về dữ liệu trong cơ sở dữ liệu khi bạn có thể train một neural network để tương tác với thế giới thực?
Mặc dù deep reinforcement learning và AI có rất nhiều tiềm năng nhưng nó cũng tiềm ẩn những rủi ro rất lớn.
Bill Gates và Elon Musk đã đưa ra những tuyên bố công khai về một số rủi ro mà AI gây ra đối với sự ổn định kinh tế và thậm chí cả sự tồn tại của chúng ta.
Như chúng ta đã học trong khóa reinforcement learning đầu tiên của mình, một trong những nguyên tắc chính của việc training các reinforcement learning agent là sẽ có những hậu quả không lường trước được khi training một AI.
AI không suy nghĩ giống con người nên chúng nghĩ ra các giải pháp mới và không trực quan để đạt được mục tiêu, thường theo những cách khiến các chuyên gia lĩnh vực phải ngạc nhiên - những con người giỏi nhất trong lĩnh vực họ làm.
OpenAI là một tổ chức phi lợi nhuận được thành lập bởi Elon Musk, Sam Altman (Y Combinator) và những người khác, nhằm đảm bảo rằng AI phát triển theo hướng có lợi thay vì có hại.
Một phần động lực đằng sau OpenAI là rủi ro hiện hữu mà AI gây ra cho con người. Họ tin rằng hợp tác cởi mở là một trong những chìa khóa để giảm thiểu rủi ro đó.
Một trong những điều tuyệt vời về OpenAI là họ có một nền tảng tên là OpenAI Gym mà chúng tôi sẽ sử dụng nhiều trong khóa học này.
Nó cho phép bất cứ ai, ở bất cứ đâu trên thế giới, đào tạo các reinforcement learning agent của họ trong môi trường tiêu chuẩn.
Trong khóa học này, chúng tôi sẽ xây dựng dựa trên những gì chúng tôi đã làm trong khóa học trước bằng cách làm việc với các môi trường phức tạp hơn, cụ thể là những môi trường do OpenAI Gym cung cấp:
✓ CartPole.
✓ Mountain Car.
✓ Atari games.
Để đào tạo các learning agent hiệu quả, chúng ta sẽ cần những kỹ thuật mới.
Chúng ta sẽ mở rộng kiến thức về temporal difference learning bằng cách xem xét thuật toán TD Lambda, chúng ta sẽ xem xét một loại neural network đặc biệt gọi là RBF network, chúng ta sẽ xem xét policy gradient method và chúng ta sẽ kết thúc phần khóa học bằng cách xem xét Deep Q-Learning (DQN) và A3C (Asynchronous Advantage Actor-Critic).
Cảm ơn đã đọc và tôi sẽ gặp bạn trong khóa học!
“Nếu bạn không thể thực hiện nó, bạn sẽ không hiểu nó”.
✓ Hay như nhà vật lý vĩ đại Richard Feynman đã nói: “Cái gì tôi không thể tạo ra thì tôi không hiểu”.
✓ Các khóa học của tôi là khóa học DUY NHẤT mà bạn sẽ học cách triển khai các thuật toán học máy từ đầu.
✓ Các khóa học khác sẽ dạy bạn cách đưa dữ liệu của bạn vào thư viện, nhưng bạn có thực sự cần trợ giúp về 3 dòng code không?
✓ Sau khi làm điều tương tự với 10 tập dữ liệu, bạn nhận ra mình chưa học được 10 điều. Bạn đã học được 1 điều và chỉ cần lặp lại 3 dòng code giống nhau 10 lần...!
Điều kiện tiên quyết được đề xuất:
✓ Toán cấp đại học rất hữu ích (phép tính, xác suất).
✓ Lập trình hướng đối tượng.
✓ Python coding: if/else, loops, lists, dicts, sets.
✓ Numpy coding: các phép toán ma trận và vectơ.
✓ Linear regression.
✓ Gradient descent.
✓ Biết cách xây dựng ANN và CNN trong Theano hoặc TensorFlow.
✓ Markov Decision Proccesses (MDP).
✓ Biết cách triển khai Dynamic Programming, Monte Carlo, và Temporal Difference Learning để giải quyết MDP.
TÔI NÊN THAM GIA KHÓA HỌC CỦA BẠN THEO THỨ TỰ NÀO?:
Xem bài giảng "Machine Learning và AI Prerequisite Roadmap" (có sẵn trong FAQ của bất kỳ khóa học nào của tôi).
TÍNH NĂNG ĐỘC ĐÁO:
✓ Mỗi dòng mã được giải thích chi tiết - gửi email cho tôi bất cứ lúc nào nếu bạn không đồng ý.
✓ Không lãng phí thời gian "gõ" trên bàn phím như các khóa học khác - thành thật mà nói, không ai có thể thực sự viết code đáng để học chỉ trong 20 phút từ đầu.
✓ Không ngại toán trình độ đại học - nắm bắt được những thông tin chi tiết quan trọng về thuật toán mà các khóa học khác bỏ qua.
Mục lục:
01. Giới thiệu
02. Cơ bản về Reinforcement Learning.
03. OpenAI Gym và và các kỹ thuật Reinforcement Learning cơ bản.
04. TD Lambda.
05. Policy Gradients.
06. Deep Q-Learning.
07. A3C.
08. Theano và Tensorflow Basics Review.
09. Thiết lập môi trường của bạn (FAQ theo yêu cầu của sinh viên).
10. Trợ giúp bổ sung về Python Coding for Beginner.
11. Chiến lược học tập hiệu quả cho Machine Learning.
12. Phụ lục/Phần cuối FAQ.
Khóa học này dành cho ai:
✓ Các chuyên gia và sinh viên có nền tảng kỹ thuật vững vàng muốn học các kỹ thuật AI tiên tiến.