شیائومی Robotics-0 معرفی شد: مدل رباتیک متن-باز که حرکات را میفهمد و اجرا میکند
به گزارش کارگروه فناوری اطلاعات سایبربان , پلتفرم پیشرفته Xiaomi-Robotics-0، یک مدل بینایی-زبان-عمل (VLA) با ۴٫۷ میلیارد پارامتر است که برای دستیابی به هوش فیزیکی در رباتها طراحی شده. مدل رباتیک متن-باز شیائومی رکوردهای جدیدی را در شبیهسازی و دنیای واقعی به ثبت رسانده است.
اجزای کلیدی معماری شیائومی Robotics-0
شیائومی Robotics-0 شامل دو جزء اصلی است. اولی یک مدل زبان بصری (VLM) است که بهعنوان مغز عمل کرده و دستورات انسانی و روابط فضایی را از ورودیهای بصری تفسیر میکند. این VLM توانایی تشخیص اشیا و استدلال منطقی دارد. دومین جزء، متخصص عمل (Action Expert) نام دارد که بر پایه یک Diffusion Transformer (DiT) چند لایه ساخته شده و دنبالهای از حرکات (Action Chunk) را تولید میکند تا حرکات ربات دقیق و روان باشند. این مدل رباتیک متن-باز بهگونهای آموزش دیده که قابلیتهای درکی خود را هنگام یادگیری اعمال فیزیکی حفظ کند.