NVIDIA Cosmos Reason ile Robotik Performansını Artırma Yöntemleri

NVIDIA Cosmos Reason, 2025 NVIDIA GTC‘de tanıtılmış olan açık ve tamamen özelleştirilebilir bir vizyon dil modeli (VLM). Bu model, fiziksel yapay zeka ve robotik alanında, robotların ve görsel yapay zeka ajanlarının önceki bilgi, fizik anlayışı ve sağduyu kullanarak gerçek dünyayı anlamalarını ve buna göre hareket etmelerini sağlıyor.

Bir video ve metin istemi verildiğinde, sistem önce videoyu tokenlara dönüştürmek için bir vizyon encoder‘ı ve özel bir çevirici olan projector‘ü kullanıyor. Bu video tokenları, metin istemi ile birleştirilerek temel modele besleniyor. Model, adım adım düşünerek detaylı ve mantıklı yanıtlar veriyor.

Cosmos Reason, çok modlu algılama ile gerçek dünya karar verme süreçlerini birleştirmek için denetimli ince ayar ve peşine düşme öğrenimi (reinforcement learning) ile geliştirilmiştir. İnsan notasyonlarına ihtiyaç duymadan dünya dinamiklerini anlayabilme yeteneği sunan chain-of-thought (düşünce zinciri) akıl yürütme yeteneklerini kullanıyor.

Fiziksel zeka görevlerinde yapılan ince ayar, Cosmos Reason’ın temel model performansını %10’dan fazla artırırken, peşine düşme öğrenimi başka bir %5’lik kazanç sağlıyor. Bu sayede, model, robotik ve otonom araç uygulamalarında anahtar ölçütlerde 65,7’lik bir ortalama puan elde ediyor.

A diagram showing the Cosmos Reason process: on the left, video and text inputs enter the model as tokens; in the center, the model processes the information and generates step-by-step reasoning with a large language model backbone to produce a final text response for real-world decision-making. — *Şekil 1. Cosmos Reason video ve metin alır, adım adım düşünür ve peşine düşme öğrenimi ile optimal karar verir.*

Cosmos Reason Kullanım Alanları

Robotik ve fiziksel yapay zeka uygulamalarından bazıları şunlardır:

Veri düzenleme ve etiketleme, geliştiricilerin büyük ve çeşitli eğitim veri setlerini otomatik olarak filtrelemesine, eleştirmesine ve etiketlemesine olanak sağlar.
Robot planlama ve akıl yürütme, robotların yöntemli karar verme işlemleri gerçekleştirmesine yardımcı olur. Robotlar, çevreleri yorumlayabilir ve karmaşık komutlar verildiğinde bunları göreve dönüştürerek sağduyuyla, tanımadıkları ortamlarda bile görevleri yerine getirebilirler.
Video analitiği yapay zeka ajanları, NVIDIA’nın video arama ve özetleme için tasarlanan yapısını kullanarak, devasa ölçekte kaydedilmiş veya canlı video üzerinde etkili analiz ve temel neden araştırması yapabilir. Bu özellik, şehir ulaşım ağları, fabrikalar ve depolar için idealdir.

Cosmos Reason Nasıl Kullanılır?

Geliştiriciler, model kontrol noktalarını Hugging Face‘den indirerek, çıkarım betikleri ve sonrası eğitim için materyalleri GitHub‘dan bulabilirler.

Model, farklı çözünürlüklerde ve kare hızlarında videolar alabilir. Geliştirici niyetini belirten bir metin istemi (örneğin, bir soru ya da açıklama) verildiğinde, modelin akıl yürütmesi ve buna uygun şekilde yanıt vermesi sağlanır. Geliştiriciler ayrıca metin istemlerini geliştirerek daha iyi bir performans elde edebilecekleri istem yükseltici modelini de kullanabilir. İşte Cosmos Reason ile aşağıdaki video için çıkarım yapmayı gösteren bir kod örneği:

from transformers import AutoProcessor
from vllm import LLM, SamplingParams
from qwen_vl_utils import process_vision_info

MODEL_PATH = "nvidia/Cosmos-Reason1-7B"

llm = LLM(
    model=MODEL_PATH,
    limit_mm_per_prompt={"image": 10, "video": 10},
)

sampling_params = SamplingParams(
    temperature=0.6,
    top_p=0.95,
    repetition_penalty=1.05,
    max_tokens=4096,
)

video_messages = [
    {"role": "system", "content": "You are a helpful assistant. Answer the question in the following format: <think>nyour reasoningn</think>nn<answer>nyour answern</answer>."},
    {"role": "user", "content": [
            {"type": "text", "text": (
                    "Is it safe to turn right?"
                )
            },
            {
                "type": "video", 
                "video": "assets/sample.mp4",
                "fps": 4,
            }
        ]
    },
]

messages = video_messages

processor = AutoProcessor.from_pretrained(MODEL_PATH)
prompt = processor.apply_chat_template(
    messages,
    tokenize=False,
    add_generation_prompt=True,
)
image_inputs, video_inputs, video_kwargs = process_vision_info(messages, return_video_kwargs=True)

Cosmos Reason’ı İnce Ayar ile Geliştirmek

Denetimli ince ayar, modelin belirli görevlerdeki yeteneklerini artırabilir. Örneğin, robovqa veri seti ile yapılan eğitim, robotik spesifik görsel soru yanıtlama senaryolarında model performansını artırabilir.

FPS = 1
MAX_PIXELS = 81920

class CosmosSFTDataset(Dataset):
    def setup(self, config: Config, tokenizer: AutoTokenizer, *args, **kwargs):
        self.config = config
        self.tokenizer = tokenizer

        if config.train.train_policy.dataset.split:
            if isinstance(config.train.train_policy.dataset.split, list):
                dataset_list = []
                for split_name in config.train.train_policy.dataset.split:
                    dataset_list.append(self.dataset[split_name])
                self.dataset = ConcatDataset(dataset_list)
            else:
                assert isinstance(config.train.train_policy.dataset.split, str)
                self.dataset = self.dataset[config.train.train_policy.dataset.split]

        cosmos_cache_dir = os.environ.get(
            "COSMOS_CACHE", os.path.join(os.path.expanduser("~"), ".cache/cosmos/")
        )
        video_clips_path = os.path.join(
            cosmos_cache_dir,
            "datasets",
            basename_from_modelpath(config.train.train_policy.dataset.name),
            config.train.train_policy.dataset.subset,
            "video_clips",
        )

    def __getitem__(self, idx: int) -> tuple[str, str]:
        payload = self.dataset[idx]
        conversations = copy.deepcopy(payload["conversations"])

        for conv in conversations:
            if conv["role"] == "user":
                assert isinstance(conv["content"], str), "User message must be string"
                content = [
                    {
                        "type": "video",
                        "video": self.mm_files_paths[payload["video"].split("/")[-1]],
                        "max_pixels": MAX_PIXELS,
                        "fps": FPS,
                    },
                    {
                        "type": "text",
                        "text": conv["content"],
                    },
                ]
                conv["content"] = content

        return conversations

Daha fazla bilgi ve ince ayar betikleri için GitHub‘a göz atabilirsiniz.

Cosmos Reason, NVIDIA GPU’ları üzerinde en iyi performansı gösterecek şekilde optimize edilmiştir. Modelleri çalıştırmak için geliştiriciler, bir Docker ortamı kurabilir veya kendi ortamlarında çalıştırabilirler.

Görsel yapay zeka boru hatları için geliştiriciler, VLM‘yi kenar ile bulut arasında, NVIDIA DGX Spark, NVIDIA RTX Pro 6000, NVIDIA AI H100 Tensor Core GPU’lar veya NVIDIA Blackwell GB200 NVL72 gibi GPU’lar üzerinde çalıştırabilirler.

Başlamak için Adımlar

Cosmos ile ilgili dökümantasyonu inceleyerek, detaylı eğitimler, uygulama bilgileri ve pratik kullanım örneklerini keşfedebilirsiniz. Ayrıca şu kaynaklara ulaşabilirsiniz:

Modeli test edin:build.nvidia.com.
Modeli indirin:Hugging Face üzerinden model kontrol noktaları ile denemelere başlayın.
Çıkarma ve eğitim betiklerine erişim:GitHub‘da özelleştirme yapmak için bilgileri kontrol edin.

NVIDIA haberlerini takip etmek ve güncel kalmak için abone olmayı unutmayın,NVIDIA AI‘yi LinkedIn üzerinde izleyin, Instagram‘da takip edin, X‘i izleyin ve Facebook‘da bize katılın. Ayrıca NVIDIA Cosmos Reason forumuna katılarak toplulukla etkileşimde bulunun.

SON DAKİKA