Reinforcement Learning Toolbox

 

Reinforcement Learning Toolbox

Progettazione e apprendimento di politiche mediante Reinforcement Learning

Inizia ora:

Agenti di Reinforcement Learning

Crea e configura agenti di Reinforcement Learning per addestrare le politiche in MATLAB e Simulink. Utilizza algoritmi di Reinforcement Learning integrati o sviluppa algoritmi personalizzati.

Algoritmi di Reinforcement Learning

Crea agenti utilizzando Deep Q-Network (DQN), Deep Deterministic Policy Gradient (DDPG), Proximal Policy Optimization (PPO) e altri algoritmi integrati. Utilizza template per sviluppare agenti personalizzati per le politiche di addestramento.

Vari algoritmi di addestramento, tra cui SARSA, SAC, DDPG e altri.

Algoritmi di addestramento disponibili in Reinforcement Learning Toolbox.

Rappresentazione delle politiche e delle funzioni di valore mediante reti neurali profonde

Per sistemi complessi con ampi spazi stato-azione, definisci le politiche delle reti neurali profonde in modo programmatico utilizzando gli strati di Deep Learning Toolbox o in modo interattivo con Deep Network Designer. In alternativa, utilizza l'architettura di rete predefinita suggerita dal toolbox. Inizializza la politica utilizzando l’Imitation Learning per accelerare l'addestramento. Importa ed esporta modelli ONNX per l’interoperabilità con altri framework di Deep Learning.

Reinforcement Learning a uno o più agenti in Simulink

Crea e addestra agenti di Reinforcement Learning in Simulink con il blocco RL Agent. Addestra più agenti simultaneamente (Reinforcement Learning a più agenti) in Simulink utilizzando più istanze del blocco RL Agent.

Modello Simulink con un blocco RL Agent.

Il blocco dell'agente di Reinforcement Learning per Simulink.

Modellazione ambientale

Crea modelli ambientali MATLAB e Simulink. Descrivi le dinamiche del sistema e fornisci segnali di osservazione e ricompensa per l'addestramento degli agenti.

Ambienti Simulink e Simscape

Utilizza Simulink e Simscape™ per creare il modello di un ambiente. Specifica i segnali di osservazione, azione e ricompensa all'interno del modello.

Modello ambientale Simulink per un robot bipede.

Modello ambientale Simulink per un robot bipede.

Ambienti MATLAB

Utilizza funzioni e classi MATLAB per modellare un ambiente. Specifica le variabili di osservazione, azione e ricompensa nel file MATLAB.

Ambiente MATLAB per un razzo 3DoF.

Ambiente MATLAB per un razzo a tre gradi di libertà (3DoF).

Accelerazione dell’addestramento

Accelera l’addestramento utilizzando GPU, il cloud e le risorse di calcolo distribuito.

Accelerazione GPU

Accelera l’addestramento e l'inferenza delle reti neurali profonde con le GPU NVIDIA® ad alte prestazioni. Utilizza MATLAB con Parallel Computing Toolbox e la maggior parte delle GPU NVIDIA abilitate per CUDA che presentano una capacità di elaborazione pari o superiore a 3.0.

Hardware GPU.

Accelera l’addestramento utilizzando le GPU.

Generazione e distribuzione di codici

Distribuisci le politiche addestrate su dispositivi embedded o integrale in una vasta gamma di sistemi di produzione.

Generazione di codice

Utilizza GPU Coder™ per generare codice CUDA ottimizzato dal codice MATLAB che rappresenta le politiche addestrate. Utilizza MATLAB Coder™ per generare codice C/C++ per distribuire le politiche.

Schermata di configurazione di GPU Coder.

Generazione di codice CUDA con GPU Coder.

Supporto per MATLAB Compiler

Utilizza MATLAB Compiler™ e MATLAB Compiler SDK™ per distribuire politiche addestrate come applicazioni standalone, librerie condivise C/C++, assembly Microsoft® .NET, classi Java® e pacchetti Python®.

Schermata di MATLAB Compiler per creare applicazioni standalone.

Packaging e condivisione delle politiche come programmi standalone.

Esempi di riferimento

Progetta controller e algoritmi decisionali per la robotica, la guida autonoma, la calibrazione, la pianificazione e altre applicazioni.

Sincronizzazione, calibrazione e pianificazione

Progetta politiche di Reinforcement Learning per applicazioni di sincronizzazione, calibrazione e pianificazione.

Un sistema di distribuzione dell'acqua con tre pompe, serbatoio e cisterna.

Problema di allocazione delle risorse per la distribuzione dell'acqua.

Serie di video sul Reinforcement Learning

Guarda i video di questa serie per saperne di più sul Reinforcement Learning.