Scalable Multi-Agent Reinforcement Learning Framework for Multi-Machine Tending

Abdalwhab Bakheet Mohamed Abdalwhab; Giovanni Beltrame; David St-Onge

doi:10.1109/LRA.2026.3655200

Scalable Multi-Agent Reinforcement Learning Framework for Multi-Machine Tending

Abdalwhab Bakheet Mohamed Abdalwhab
, Giovanni Beltrame
, David St-Onge

Résultats de recherche: Contribution à un journal › Article publié dans une revue, révisé par les pairs › Revue par des pairs

Résumé

Robotic manipulators hold significant untapped potential for manufacturing industries, particularly when deployed in multi-robot configurations that can enhance resource utilization, increase throughput, and reduce costs. However, industrial manipulators typically operate in isolated one-robot, one-machine setups, limiting both utilization and scalability. Even mobile robot implementations generally rely on centralized architectures, creating vulnerability to single points of failure and requiring robust communication infrastructure. This paper introduces SMAPPO (Scalable Multi-Agent Proximal Policy Optimization), a scalable input-size invariant multi-agent reinforcement learning model for decentralized multi-robot management in industrial environments. MAPPO (Multi-Agent Proximal Policy Optimization) represents the current state-of-the-art approach. We optimized an existing simulator to handle complex multi-agent reinforcement learning scenarios and designed a new multi-machine tending scenario for evaluation. Our novel observation encoder enables SMAPPO to handle varying numbers of agents, machines, and storage areas with minimal or no retraining. Results demonstrate SMAPPO’s superior performance compared to the state-of-the-art MAPPO across multiple conditions: full retraining (up to 61% improvement), curriculum learning (up to 45% increased productivity and up to 49% fewer collisions), zero-shot generalization to significantly different scale scenarios (up to 272% better performance without retraining), and adaptability under extremely low initial training (up to 100% increase in parts delivery).

langue originale	Anglais
Pages (de - à)	3135-3142
Nombre de pages	8
journal	IEEE Robotics and Automation Letters
Volume	11
Numéro de publication	3
Les DOIs	https://doi.org/10.1109/LRA.2026.3655200
état	Publié - 2026

SDG des Nations Unies

Ce résultat contribue à ou aux Objectifs de développement durable suivants

SDG 9 – Industrie, innovation et infrastructure

Accès au document

10.1109/LRA.2026.3655200

Autres fichiers et liens

Lien vers la publication dans Scopus

Empreinte digitale

Voici les principaux termes ou expressions associés à « Scalable Multi-Agent Reinforcement Learning Framework for Multi-Machine Tending ». Ces libellés thématiques sont générés à partir du titre et du résumé de la publication. Ensemble, ils forment une empreinte digitale unique.

Contient cette citation

@article{f9ab0a982ce74da29a8a77f7b4baed72,

title = "Scalable Multi-Agent Reinforcement Learning Framework for Multi-Machine Tending",

abstract = "Robotic manipulators hold significant untapped potential for manufacturing industries, particularly when deployed in multi-robot configurations that can enhance resource utilization, increase throughput, and reduce costs. However, industrial manipulators typically operate in isolated one-robot, one-machine setups, limiting both utilization and scalability. Even mobile robot implementations generally rely on centralized architectures, creating vulnerability to single points of failure and requiring robust communication infrastructure. This paper introduces SMAPPO (Scalable Multi-Agent Proximal Policy Optimization), a scalable input-size invariant multi-agent reinforcement learning model for decentralized multi-robot management in industrial environments. MAPPO (Multi-Agent Proximal Policy Optimization) represents the current state-of-the-art approach. We optimized an existing simulator to handle complex multi-agent reinforcement learning scenarios and designed a new multi-machine tending scenario for evaluation. Our novel observation encoder enables SMAPPO to handle varying numbers of agents, machines, and storage areas with minimal or no retraining. Results demonstrate SMAPPO{\textquoteright}s superior performance compared to the state-of-the-art MAPPO across multiple conditions: full retraining (up to 61\% improvement), curriculum learning (up to 45\% increased productivity and up to 49\% fewer collisions), zero-shot generalization to significantly different scale scenarios (up to 272\% better performance without retraining), and adaptability under extremely low initial training (up to 100\% increase in parts delivery).",

keywords = "AI and machine learning in manufacturing and logistics systems, Reinforcement learning, collaborative robots in manufacturing, integrated planning and control, path planning for multiple mobile robots or agents",

author = "Abdalwhab, \{Abdalwhab Bakheet Mohamed\} and Giovanni Beltrame and David St-Onge",

note = "Publisher Copyright: {\textcopyright} 2016 IEEE.",

year = "2026",

doi = "10.1109/LRA.2026.3655200",

language = "English",

volume = "11",

pages = "3135--3142",

journal = "IEEE Robotics and Automation Letters",

issn = "2377-3766",

publisher = "Institute of Electrical and Electronics Engineers Inc.",

number = "3",

}

Scalable Multi-Agent Reinforcement Learning Framework for Multi-Machine Tending. / Abdalwhab, Abdalwhab Bakheet Mohamed; Beltrame, Giovanni; St-Onge, David.
Dans: IEEE Robotics and Automation Letters, Vol 11, Numéro 3, 2026, p. 3135-3142.

Résultats de recherche: Contribution à un journal › Article publié dans une revue, révisé par les pairs › Revue par des pairs

TY - JOUR

T1 - Scalable Multi-Agent Reinforcement Learning Framework for Multi-Machine Tending

AU - Abdalwhab, Abdalwhab Bakheet Mohamed

AU - Beltrame, Giovanni

AU - St-Onge, David

PY - 2026

Y1 - 2026

N2 - Robotic manipulators hold significant untapped potential for manufacturing industries, particularly when deployed in multi-robot configurations that can enhance resource utilization, increase throughput, and reduce costs. However, industrial manipulators typically operate in isolated one-robot, one-machine setups, limiting both utilization and scalability. Even mobile robot implementations generally rely on centralized architectures, creating vulnerability to single points of failure and requiring robust communication infrastructure. This paper introduces SMAPPO (Scalable Multi-Agent Proximal Policy Optimization), a scalable input-size invariant multi-agent reinforcement learning model for decentralized multi-robot management in industrial environments. MAPPO (Multi-Agent Proximal Policy Optimization) represents the current state-of-the-art approach. We optimized an existing simulator to handle complex multi-agent reinforcement learning scenarios and designed a new multi-machine tending scenario for evaluation. Our novel observation encoder enables SMAPPO to handle varying numbers of agents, machines, and storage areas with minimal or no retraining. Results demonstrate SMAPPO’s superior performance compared to the state-of-the-art MAPPO across multiple conditions: full retraining (up to 61% improvement), curriculum learning (up to 45% increased productivity and up to 49% fewer collisions), zero-shot generalization to significantly different scale scenarios (up to 272% better performance without retraining), and adaptability under extremely low initial training (up to 100% increase in parts delivery).

AB - Robotic manipulators hold significant untapped potential for manufacturing industries, particularly when deployed in multi-robot configurations that can enhance resource utilization, increase throughput, and reduce costs. However, industrial manipulators typically operate in isolated one-robot, one-machine setups, limiting both utilization and scalability. Even mobile robot implementations generally rely on centralized architectures, creating vulnerability to single points of failure and requiring robust communication infrastructure. This paper introduces SMAPPO (Scalable Multi-Agent Proximal Policy Optimization), a scalable input-size invariant multi-agent reinforcement learning model for decentralized multi-robot management in industrial environments. MAPPO (Multi-Agent Proximal Policy Optimization) represents the current state-of-the-art approach. We optimized an existing simulator to handle complex multi-agent reinforcement learning scenarios and designed a new multi-machine tending scenario for evaluation. Our novel observation encoder enables SMAPPO to handle varying numbers of agents, machines, and storage areas with minimal or no retraining. Results demonstrate SMAPPO’s superior performance compared to the state-of-the-art MAPPO across multiple conditions: full retraining (up to 61% improvement), curriculum learning (up to 45% increased productivity and up to 49% fewer collisions), zero-shot generalization to significantly different scale scenarios (up to 272% better performance without retraining), and adaptability under extremely low initial training (up to 100% increase in parts delivery).

KW - AI and machine learning in manufacturing and logistics systems

KW - Reinforcement learning

KW - collaborative robots in manufacturing

KW - integrated planning and control

KW - path planning for multiple mobile robots or agents

UR - https://www.scopus.com/pages/publications/105028408307

U2 - 10.1109/LRA.2026.3655200

DO - 10.1109/LRA.2026.3655200

M3 - Journal Article

AN - SCOPUS:105028408307

SN - 2377-3766

VL - 11

SP - 3135

EP - 3142

JO - IEEE Robotics and Automation Letters

JF - IEEE Robotics and Automation Letters

IS - 3

ER -