Reinforcement là gì

     

Trong nghành nghề dịch vụ trí tuệ nhân tạo nói chung và nghành học máy dành riêng thì Reinforcement learing (RL) là 1 trong những cách tiếp cận triệu tập vào câu hỏi học để xong được phương châm bằng việc thúc đẩy trực tiếp cùng với môi trường.

Bạn đang xem: Reinforcement là gì

Bạn đang xem: Reinforcement là gì

1. Reinforcement Learning (RL):

RL là học dòng để thực hiện, có nghĩa là từ các tình huống thực tế để đưa ra những action tuyệt nhất định, miễn sao maximize được reward. Machine không được bảo về cái kích hoạt để triển khai mà chũm vào kia phải khám phá ra action có thể tạo ra được không ít reward nhất. Trong thế giới của RL thì chúng ta có khái niệm call là agent, nó có một chút nào đó hàm ý về một thực thể mà bạn muốn train nó để hoàn toàn có thể làm được một task nào đó mà bạn phó thác (đương nhiên là nó sẽ triển khai theo cách giành được reward các nhất).

Vì RL được ứng đụng không ít trong robotic và game yêu cầu tôi đang lấy một lấy ví dụ từ đây cho mình hình dung. Dưới đấy là 1 tựa mini game cơ mà tôi mong muốn bạn coi qua. Lối chơi thì tôi nghĩ về các bạn sẽ dễ dàng nhằm hiểu được. Tên của chính nó là CoastRunners

Nhiệm vụ của người sử dụng là ngừng được khoảng đua thuyền một cách nhanh nhất có thể và nếu hoàn toàn có thể thì đề nghị ở đứng top trên. Mang sử như bạn muốn training một agent để nó tất cả thể xong xuôi chặng đua nhanh nhất có thể thì về cơ bạn dạng bạn phải xây dựng được một reward function cùng từ đó bạn sẽ train agent dựa trên reward function này. Bạn có thể xem nó là Loss function nhưng nỗ lực vì yêu cầu minimize hàm loss như trong các mạng Neural Network thông mến thì sống đây chúng ta sẽ nên maximize nó như tôi vẫn nói nghỉ ngơi trên. Việc chọn ra một reward function thoạt chú ý trong khá đơn giản dễ dàng vì nó chỉ dựa vào các tiêu chuẩn rất phân biệt của một task nạm thể, ví dụ như ở trò nghịch ở trên thì ta tất cả dựa trên tiêu chuẩn là thời gian ngừng chặng đua chẳng hạn. (Việc thiết kế rõ ràng tôi xin phép dời lại ở một bài viết khác về sau). Mặc dù nhiên, nếu như bạn đưa ra các tiêu chuẩn không xuất sắc thì sẽ agent mà các bạn train hoàn toàn có thể có các behavior tương đối kỳ lạ hệt như thử nghiệm tiếp sau đây mà team OpenAI đã trải qua khi reward mà họ chọn lại dưa trên tiêu chuẩn của score trong trò chơi thay do là thời gian dứt chặng đua. Và đây là kết quả.

Agent không bắt buộc phải xong chặng đua tuy nhiên vẫn có thể đạt được score cao.

Điều này thoạt xem qua cái vẻ hơi "thú vị" trong toàn cảnh của video clip game dẫu vậy trong lĩnh vực auto hoá giỏi robotics chẳng hạn thì những cái behavior này rất có thể gây ra những hành vi không ước muốn hoặc thậm chí còn nguy hiểm. Rộng hơn, những agent này (được nhúng vào trong robot chẳng hạn) rất có thể có phần đông hành vi tạm thời hoặc không theo các nguyên tắc cơ phiên bản về khía cạnh kỹ thuật nói bình thường mà hoàn toàn có thể dãn đến những hiểm hoạ khôn xiết tiềm tàng.


*

Các bạn có thể tham khảo thêm về idea trong bài xích báo của OpenAI về cái mà họ gọi là Safety AI

2. Mô hình hoá toán học tập của RL:

Bây tiếng tôi đang dẫn các bạn đi qua một chút về các khái niệm chính trong RL:| .

Xem thêm: Tai Nghe I12 Chỉ Sáng Đèn 1 Bên, Không Kết Nối Được, Sạc Bao Lâu Là Đầy Pin?

Các hình sau đây tôi xem thêm từ khoá học tập 6.S191 intro deep learning của MIT

2.1 Đây là một trong những ví dụ trực quan về Agent:

*

*

*

*

Tất cả đa số thứ nhưng mình vừa trình bày sơ qua nó dựa trên một framework được gọi là Markov Decision Processes (MDPs). Về cơ bản thì một MDP cung ứng một framework toán học tập cho vấn đề modelling các tình huống decision-making. Ở đây, các kết quả (outcomes) xẩy ra một cách ngẫu nhiên một trong những phần và phần còn sót lại thì dựa vào trên những action của agent (hoặc decision maker) đã tạo thành trước đó. Reward thu được vị decision maker phụ thuộc trên action mà decision maker chọn và dựa trên cả hai State bắt đầu (S(t+1)) và cũ (S(t)) của enviroment.

Một reward Rai(sj,sk)R_ai(s_j, s_k)Rai​(sj​,sk​) thu được khi agent chọn kích hoạt aia_iai​ làm việc state sjs_jsj​ và tạo nên enviorment biến hóa từ state sjs_jsj​ sang trọng sks_ksk​. Agent nó follow theo một policy πpiπ. Cụ thể là π(⋅):S→Api(cdot):mathcalS ightarrow mathcalAπ(⋅):S→A sao để cho với mỗi một state sj∈Ss_j in mathcalSsj​∈S thì agent chọn đến nó một kích hoạt ai∈Aa_i in mathcalAai​∈A. Vậy bắt buộc policy là sản phẩm công nghệ bảo cùng với agent cái kích hoạt nào cần được chọn trong mỗi state.

Để hoàn toàn có thể train được agent thì kim chỉ nam của họ là phải tìm được policy πpiπ sao cho:


*βetaβ là discount factor với βetaβ reward (có tình cho discount factor như sẽ đề cập ở trên) sinh sống mỗi state cụ thể từ lúc bắt đầu đến khi kết thúc (dẫu đến T → ightarrow→ ∞infty∞, vì họ chưa biết bao giờ thì quá trình này ngừng nên nó vẫn luôn là một chuỗi vô hạn), và tất nhiên là phải dựa trên policy πpiπ do agent của bọn họ base trên nó để chọn reward tốt nhất mà. Bản chất thì đây là một việc tối ưu (optimazation problem).

Ở trên là một tiêu chuẩn mà chúng ta cũng có thể dùng để optimize cho việc đào bới tìm kiếm ra nghịệm (optimal policy). Vậy thể chúng ta gọi tiêu chuẩn này là infinite horizon sum reward criteria. Cũng đều có một vài reward criteria khác cơ mà tôi trong thời điểm tạm thời không gác lại vào khuôn khổ nội dung bài viết này.

Xem thêm: Phận Gái Mười Hai Bến Nước Là Gì ? Mười Hai Bến Nước Là Gì

Tôi xin tạm thời gác lại phần kim chỉ nan sơ cỗ ở đây. Hẹn gặp gỡ lại bạn ở nội dung bài viết sau về Q-Learning và phương pháp để impement nó.