MolmoMotion : la prévision de mouvement 3D guidée par langage
AllenAI lance MolmoMotion, un modèle de prévision de mouvement 3D guidé par des instructions textuelles. Il prédit les trajectoires futures d'objets avec une performance supérieure aux méthodes existantes, et est accompagné du dataset MolmoMotion-1M (1.16M vidéos) et du benchmark PointMotionBench (2.7K clips).
« MolmoMotion predicts where those points will move over the next few seconds in 3D space—achieving substantially stronger performance than existing forecasting methods. » — Hugging Face Blog
Que faut-il retenir ?
- MolmoMotion prédit les trajectoires 3D futures d'objets à partir d'instructions textuelles et de points de requête.
- Le modèle est accompagné du dataset MolmoMotion-1M, comprenant 1.16 millions de vidéos.
- PointMotionBench est un benchmark de 2.7K clips vidéo validés humains pour mesurer la précision de prévision.
- Deux variantes du modèle sont proposées : MolmoMotion-AR (autoregressive) et une autre non précisée.
Pourquoi cette nouvelle compte-t-elle ?
MolmoMotion ouvre de nouvelles possibilités en robotique et génération vidéo en permettant une prévision précise des mouvements 3D à partir d'instructions naturelles. La publication open-source des modèles et datasets favorise l'adoption et l'amélioration par la communauté. Cette technologie pourrait révolutionner l'interaction homme-machine et la création de contenus visuels.
1.16 millions de vidéos dans le dataset MolmoMotion-1M
Public concerné : développeurs, entreprises
Quelles sont les applications concrètes de MolmoMotion ?
MolmoMotion permet notamment la planification robotique précise et la génération de vidéos réalistes en prédisant les trajectoires futures d'objets à partir d'instructions textuelles, ouvrant des perspectives en automatisation et création de contenus.