GPT‑OSS‑120B’yi Yerel Çalıştırmak: Minimum Donanım ve Pratik Kurulum

İçindekiler

120b yerel modelleri çalıştırmak: Neden Önemli
Çekirdek Kavramlar
Model Boyutu ve Bellek
İS ve Sürücüler
Disk
Pratik Örnekler & En İyi Uygulamalar
1. Rack’i Kurgula
2. İS ve Sürücüleri Kur
3. Modeli ve Docker Görüntüsünü Çek
4. docker-compose.yml Oluştur
5. Başlat
6. Performansı Ayarla
Sık Hatalar & Sorun Giderme
SSS
Sonuç

Bir ev sunucusunda 120b yerel modelleri çalıştırmak çalıştırmak sadece bir merak eylemi değildir—aylık bulut faturalarını düşürebilir, tam veri egemenliği sağlayabilir ve gecikmeyi kendi ihtiyaçlarınıza göre ayarlamanıza izin verir. Bu makale, minimum donanım, yazılım yığını ve gerçek dünya tuzaklarını sizinle paylaşıyor, böylece modeli kendi rack’ınızda güvenle çalıştırabilirsiniz.

120b yerel modelleri çalıştırmak: Neden Önemli

Elektrik faturasını ödeyen bir homelab operatörü için en büyük çekicilik maliyettir. 4×RTX 3090, 128 GB RAM ve 1 TB NVMe sürücüyle donatılmış bir rig, yük altında yaklaşık 1.5 kW tüketir. Bu, GPU’yu günlük 8 saat çalıştırırsanız yaklaşık $90/ay elektrik maliyeti demektir. Bulut sağlayıcıları her tahmine birkaç dolar tahsis eder, ancak ölçeklendirdikçe hızla artar. Yerel bir dağıtımda, tek seferlik donanım faturası ödersiniz ve yalnızca enerji için marjinal maliyet taşır.

Paranın ötesinde, modeli yerinde çalıştırmak veri egemenliği endişelerini ortadan kaldırır ve anında tahmin sağlar. Örneğin bir felaket müdahalesi senaryosunda, ağa bağlı gecikme veya veri kaçak riskine ihtiyaç duymazsınız.

Ana Kavramlar

Model Boyutu ve Bellek

GPT‑OSS‑120B 117 B parametreyle gelir, ama tahmin sırasında aktif olan sadece yaklaşık 5,1 B. 3,0 B aktif ağırlıkla bile tek blokta model tutuyorsanız yaklaşık 450 GB VRAM gerekir. Bu yüzden 4×RTX 3090 (her biri 24 GB) temel yapı: her kart bir dilim barındırabilir, birleşik 96 GB VRAM çoğu toplu boyut için yeterli. Tek 40 GB’lık GPU (RTX 4090) de çalışabilir, ama titiz dilimleme gerekir.

İşletim Sistemi ve Sürücüler

Linux gerçek seçim. Ubuntu 22.04 LTS ve en yeni CUDA 12.2 ile cuDNN 8.9 sürücüleri önerilir. 64‑bit çekirdek, doğru NVIDIA sürücüsü ve nvidia-smi çıktısının GPU’ları doğru gösterdiğinden emin olun.

Disk

Model kontrol noktası yaklaşık 20 GB, ama çalışma seti ve loglar hızla büyüyebilir. 1 TB NVMe SSD ideal: kontrol noktası yüklemesi ve düşük gecikmeli disk G/Ç için yeterli hız, aynı zamanda mütevazı bir kasa içinde yer alır.

Pratik Örnekler ve En İyi Uygulamalar

Aşağıda, GPT‑OSS‑120B’nin dakikalar içinde çalışmasını sağlayan, host’u temiz tutan bir Docker‑Compose kurulumunu adım adım anlatan bir akış var.

1. Rack’i Kurun

Bileşen	Örnek	Tahmini Maliyet
4 × NVIDIA RTX 3090	RTX 3090 24 GB	$3,600
128 GB DDR5 RAM	4 × 32 GB	$400
1 TB NVMe SSD	Samsung 970 EVO Plus	$150
Dual‑CPU anakart	ASRock Rack EP4024P2	$200
750 W PSU	EVGA SuperNOVA 750 G5	$130
Kas ve Soğutma	Supermicro CSE‑701-AT	$120
Toplam		$4,700

İpucu: Bütçe dar ise, bir RTX 3090’ı RTX 4090’a değiştirin. 40 GB kart, daha küçük bir GPU ile iş yükünü paylaşabilir, ancak tüm çekirdekleri meşgul tutmak için daha büyük bir toplu işlem gerekir.

2. İşletim Sistemi ve Sürücüler Kurulumu

sudo apt update && sudo apt upgrade -y
sudo apt install build-essential dkms
# Add NVIDIA repo
wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64/cuda-ubuntu2204.pin
sudo mv cuda-ubuntu2204.pin /etc/apt/preferences.d/cuda-repository-pin-600
sudo apt-key adv --fetch-keys https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64/7fa2af80.pub
sudo add-apt-repository "deb https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64/ /"
sudo apt update
sudo apt install cuda-12-2

Sistemi yeniden başlatın, nvidia-smi’yi kontrol edin ve her GPU’nun 24 GB boş VRAM gösterdiğinden emin olun.

3. Modeli ve Docker Görüntüsünü Çekme

sudo apt install docker.io docker-compose
sudo systemctl enable --now docker
docker pull ghcr.io/openai/gpt-oss-120b:latest

4. docker-compose.yml Oluşturma

version: "3.9"
services:
  gpt-oss-120b:
    image: ghcr.io/openai/gpt-oss-120b:latest
    deploy:
      resources:
        reservations:
          devices:
            - driver: nvidia
              count: all
              capabilities: [gpu]
    environment:
      - BATCH_SIZE=8
      - MAX_SEQ_LEN=1024
    volumes:
      - /mnt/data/gpt-oss-120b:/model
    ports:
      - "8080:8080"

Checkpoint klasörünü /mnt/data/gpt-oss-120b altında yerleştirin. Konteyner, 8080 portunda basit bir REST uç noktası açacaktır.

5. Başlatma

docker-compose up -d

Bir kaç dakika içinde GPU’lar arasında bölünmeyi gösteren günlükleri görürsünüz. Test etmek için:

curl -X POST http://localhost:8080/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{"model":"gpt-oss-120b","messages":[{"role":"user","content":"Say hello."}],"max_tokens":20}'

6. Performansı Ayarlama

Ayar	Etkisi
BATCH_SIZE’i azaltın	VRAM kullanımını düşürür, gecikmeyi artırır
MAX_SEQ_LEN’i artırın	Daha fazla bağlam, daha fazla bellek
TF32’yi etkinleştirin	RTX 3090’da hafif hızlanma, bellek üzerinde göz ardı edilebilir etki
NVLink köprülerini kullanın	GPU’lar arası bant genişliğini artırır, daha büyük parçalar için faydalıdır

Sıklaşılan Hatalar & Sorun Giderme

Belirti	Muhtemel Neden	Çözüm
`CUDA out of memory`	Yararlanılabilir VRAM için paket çok büyük	`BATCH_SIZE` değerini düşürün veya gradyan kontrol noktasını etkinleştirin
`driver version mismatch`	Docker imajı eski CUDA ile oluşturulmuş	Host CUDA’yı konteynerle eşleştirin veya daha yeni bir imaj çekin
Yavaş çıkarım	Disk I/O darboğazı	Kontrol noktasını NVMe’ye taşıyın veya takas alanını artırın
Başlangıçta rastgele çökmeler	Eksik bölme	`nvidia-smi` tüm GPU’ları gösterdiğinden `docker-compose up` öncesinde doğrulayın
Çıkarım sırasında yüksek CPU kullanımı	CPU, Python yorumlayıcısı tarafından darboğazlanıyor	Kodda `torch.no_grad()` ve `torch.backends.cudnn.benchmark=True` kullanın

Operatör notu: nvidia-smi günlüklerini izleyin; bellek kullanılabilirliğinde ani düşüş genellikle OOM çökmesi öncesinde gelir.

FAQ

120B’yi yerelde çalıştırmak için minimum donanım ne zaman yeterli olur?
4×RTX 3090, 128 GB RAM ve 1 TB NVMe temel donanım. Sadece 3 GPU veya 96 GB RAM varsa, toplama boyutunu küçültmeniz gerekir; bölmeleri daha agresif bölmelisiniz.
120B’yi yerelde kurarken en sık yapılan hata nedir?
GPU bellek parçalanmasını göz ardı edip modeli tek bir karta yüklemeye çalışmak. Her zaman modeli tüm GPU’lar arasında bölün ve toplama boyutunu, tek bir GPU’nun hafıza sınırları içinde kalacak şekilde düşük tutun.

İlgili bağlam için 120b yerel modelleri çalıştırmak için minimum gereksinimler rehberi ve openai gpt oss 120b’yi yerelde çalıştırma inceleyin.

Sonuç

GPT‑OSS‑120B’yi ev sunucunuzda çalıştırmak için tek seferlik $5,000‘dan az bir yatırım gerekiyor, bu da bulut tahminine göre aylık yaklaşık 90 $ elektrik tasarrufu anlamına gelir. Açık bir donanım kontrol listesi, basit bir Docker kurulum ve birkaç performans ayarı ile 120B modeli araştırma, otomasyon ve deney için gerçekçi bir araç haline gelir.

Başlamaya hazır mısınız? Yerel Kurulum Kontrol Listesi‘nı alın ve modelin ağır işi sizin yerinize yapmasına izin verin.

UrbanObserver

Subscribe to newsletter

Movies

TV Shows

Music

Celebrity

Scandals

Drama

Lifestyle

Health

Technology

Company