Ở bài này chúng ta tìm hiểu về các thuật ngữ
1. "fully vs partially observable"
Fully observable environment là môi trường mà Agent có điều kiện - có khả năng tiếp thu được toàn bộ thông tin để đưa ra quyết định tối ưu .
Partially observable environment là môi trường Agent chỉ có thể nắm một phần thông tin, và sẽ đưa ra quyết định tốt nhất có thể được.
Agent phải chứa bộ nhớ trong để thực hiện ghi nhớ các trạng thái của môi trường, môi trường cũng có vòng lặp nội tại (internal loop) - tức là các trạng thái của môi trường tại những thời điểm khác nhau .
2. "deterministic vs stochastic"
Các bạn chú ý nghe các từ khó như "uniquely", "completely predetermine the outcome"
Phần này nói về môi trường định hướng và ngẫu nhiên. GS lấy ví dụ về môn Chess (cờ vua) và Dice (tung xúc xắc) . Ở Cờ Vua chúng ta dễ dàng tự quyết định từng nước đi, và kết quả (hay hậu quả) sau mỗi lần đánh cờ là hoàn toàn xác định được. Còn như thảy xúc xác đánh cờ Cá Ngựa thì bạn không thể nào biết được điều gì chắc chắn sẽ xảy ra bởi tính ngẫu nhiên của xúc xắc .
3. "discrete vs continuos"
Các hành động mà người dùng có thể tác động vào là giới hạn, đối với discrete enviroment, ví như đánh một ván cờ thì trong 1 lần đánh , số lựa chọn di chuyển một quân nào đó là hữu hạn.
Trong khi đó, ở continous enviroment - ví dụ như cách tung xúc xắc thì bạn tha hồ lựa chọn cách thức, góc tung, lực tay ... nói chung là infinite choices .
4. "benign vs adversarial"
Đây là 2 môi trường trái nghịch nhau, benign là môi trường tuy mang tính ngẫu nhiên trong đó, nhưng không ảnh hưởng nhiều đến người chơi, còn adversarial thì gây ra những bất lợi - ví dụ trong môi trường đó bạn có một đối thủ.
Cuối Clip có một ví dụ về môn Checker, bạn không cần biết trò chơi này, hãy nghĩ nó là cờ Ca-Rô, qua bài tiếp theo mình sẽ giải thích thêm .