GPT‑OSS‑120B’yi Yerel Çalıştırmak: Minimum Donanım ve Pratik Kurulum
İçindekiler
- 120b yerel modelleri çalıştırmak: Neden Önemli
- Çekirdek Kavramlar
- Model Boyutu ve Bellek
- İS ve Sürücüler
- Disk
- Pratik Örnekler & En İyi Uygulamalar
- 1. Rack’i Kurgula
- 2. İS ve Sürücüleri Kur
- 3. Modeli ve Docker Görüntüsünü Çek
- 4. docker-compose.yml Oluştur
- 5. Başlat
- 6. Performansı Ayarla
- Sık Hatalar & Sorun Giderme
- SSS
- Sonuç
Bir ev sunucusunda 120b yerel modelleri çalıştırmak çalıştırmak sadece bir merak eylemi değildir—aylık bulut faturalarını düşürebilir, tam veri egemenliği sağlayabilir ve gecikmeyi kendi ihtiyaçlarınıza göre ayarlamanıza izin verir. Bu makale, minimum donanım, yazılım yığını ve gerçek dünya tuzaklarını sizinle paylaşıyor, böylece modeli kendi rack’ınızda güvenle çalıştırabilirsiniz.
120b yerel modelleri çalıştırmak: Neden Önemli
Elektrik faturasını ödeyen bir homelab operatörü için en büyük çekicilik maliyettir. 4×RTX 3090, 128 GB RAM ve 1 TB NVMe sürücüyle donatılmış bir rig, yük altında yaklaşık 1.5 kW tüketir. Bu, GPU’yu günlük 8 saat çalıştırırsanız yaklaşık $90/ay elektrik maliyeti demektir. Bulut sağlayıcıları her tahmine birkaç dolar tahsis eder, ancak ölçeklendirdikçe hızla artar. Yerel bir dağıtımda, tek seferlik donanım faturası ödersiniz ve yalnızca enerji için marjinal maliyet taşır.
Paranın ötesinde, modeli yerinde çalıştırmak veri egemenliği endişelerini ortadan kaldırır ve anında tahmin sağlar. Örneğin bir felaket müdahalesi senaryosunda, ağa bağlı gecikme veya veri kaçak riskine ihtiyaç duymazsınız.
Ana Kavramlar
Model Boyutu ve Bellek
GPT‑OSS‑120B 117 B parametreyle gelir, ama tahmin sırasında aktif olan sadece yaklaşık 5,1 B. 3,0 B aktif ağırlıkla bile tek blokta model tutuyorsanız yaklaşık 450 GB VRAM gerekir. Bu yüzden 4×RTX 3090 (her biri 24 GB) temel yapı: her kart bir dilim barındırabilir, birleşik 96 GB VRAM çoğu toplu boyut için yeterli. Tek 40 GB’lık GPU (RTX 4090) de çalışabilir, ama titiz dilimleme gerekir.
İşletim Sistemi ve Sürücüler
Linux gerçek seçim. Ubuntu 22.04 LTS ve en yeni CUDA 12.2 ile cuDNN 8.9 sürücüleri önerilir. 64‑bit çekirdek, doğru NVIDIA sürücüsü ve nvidia-smi çıktısının GPU’ları doğru gösterdiğinden emin olun.
Disk
Model kontrol noktası yaklaşık 20 GB, ama çalışma seti ve loglar hızla büyüyebilir. 1 TB NVMe SSD ideal: kontrol noktası yüklemesi ve düşük gecikmeli disk G/Ç için yeterli hız, aynı zamanda mütevazı bir kasa içinde yer alır.
Pratik Örnekler ve En İyi Uygulamalar
Aşağıda, GPT‑OSS‑120B’nin dakikalar içinde çalışmasını sağlayan, host’u temiz tutan bir Docker‑Compose kurulumunu adım adım anlatan bir akış var.
1. Rack’i Kurun
| Bileşen | Örnek | Tahmini Maliyet |
|---|---|---|
| 4 × NVIDIA RTX 3090 | RTX 3090 24 GB | $3,600 |
| 128 GB DDR5 RAM | 4 × 32 GB | $400 |
| 1 TB NVMe SSD | Samsung 970 EVO Plus | $150 |
| Dual‑CPU anakart | ASRock Rack EP4024P2 | $200 |
| 750 W PSU | EVGA SuperNOVA 750 G5 | $130 |
| Kas ve Soğutma | Supermicro CSE‑701-AT | $120 |
| Toplam | $4,700 |
İpucu: Bütçe dar ise, bir RTX 3090’ı RTX 4090’a değiştirin. 40 GB kart, daha küçük bir GPU ile iş yükünü paylaşabilir, ancak tüm çekirdekleri meşgul tutmak için daha büyük bir toplu işlem gerekir.
2. İşletim Sistemi ve Sürücüler Kurulumu
sudo apt update && sudo apt upgrade -y
sudo apt install build-essential dkms
# Add NVIDIA repo
wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64/cuda-ubuntu2204.pin
sudo mv cuda-ubuntu2204.pin /etc/apt/preferences.d/cuda-repository-pin-600
sudo apt-key adv --fetch-keys https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64/7fa2af80.pub
sudo add-apt-repository "deb https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64/ /"
sudo apt update
sudo apt install cuda-12-2
Sistemi yeniden başlatın, nvidia-smi’yi kontrol edin ve her GPU’nun 24 GB boş VRAM gösterdiğinden emin olun.
3. Modeli ve Docker Görüntüsünü Çekme
sudo apt install docker.io docker-compose
sudo systemctl enable --now docker
docker pull ghcr.io/openai/gpt-oss-120b:latest
4. docker-compose.yml Oluşturma
version: "3.9"
services:
gpt-oss-120b:
image: ghcr.io/openai/gpt-oss-120b:latest
deploy:
resources:
reservations:
devices:
- driver: nvidia
count: all
capabilities: [gpu]
environment:
- BATCH_SIZE=8
- MAX_SEQ_LEN=1024
volumes:
- /mnt/data/gpt-oss-120b:/model
ports:
- "8080:8080"
Checkpoint klasörünü /mnt/data/gpt-oss-120b altında yerleştirin. Konteyner, 8080 portunda basit bir REST uç noktası açacaktır.
5. Başlatma
docker-compose up -d
Bir kaç dakika içinde GPU’lar arasında bölünmeyi gösteren günlükleri görürsünüz. Test etmek için:
curl -X POST http://localhost:8080/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{"model":"gpt-oss-120b","messages":[{"role":"user","content":"Say hello."}],"max_tokens":20}'
6. Performansı Ayarlama
| Ayar | Etkisi |
|---|---|
| BATCH_SIZE’i azaltın | VRAM kullanımını düşürür, gecikmeyi artırır |
| MAX_SEQ_LEN’i artırın | Daha fazla bağlam, daha fazla bellek |
| TF32’yi etkinleştirin | RTX 3090’da hafif hızlanma, bellek üzerinde göz ardı edilebilir etki |
| NVLink köprülerini kullanın | GPU’lar arası bant genişliğini artırır, daha büyük parçalar için faydalıdır |
Sıklaşılan Hatalar & Sorun Giderme
| Belirti | Muhtemel Neden | Çözüm |
|---|---|---|
CUDA out of memory |
Yararlanılabilir VRAM için paket çok büyük | BATCH_SIZE değerini düşürün veya gradyan kontrol noktasını etkinleştirin |
driver version mismatch |
Docker imajı eski CUDA ile oluşturulmuş | Host CUDA’yı konteynerle eşleştirin veya daha yeni bir imaj çekin |
| Yavaş çıkarım | Disk I/O darboğazı | Kontrol noktasını NVMe’ye taşıyın veya takas alanını artırın |
| Başlangıçta rastgele çökmeler | Eksik bölme | nvidia-smi tüm GPU’ları gösterdiğinden docker-compose up öncesinde doğrulayın |
| Çıkarım sırasında yüksek CPU kullanımı | CPU, Python yorumlayıcısı tarafından darboğazlanıyor | Kodda torch.no_grad() ve torch.backends.cudnn.benchmark=True kullanın |
Operatör notu: nvidia-smi günlüklerini izleyin; bellek kullanılabilirliğinde ani düşüş genellikle OOM çökmesi öncesinde gelir.
FAQ
-
120B’yi yerelde çalıştırmak için minimum donanım ne zaman yeterli olur?
4×RTX 3090, 128 GB RAM ve 1 TB NVMe temel donanım. Sadece 3 GPU veya 96 GB RAM varsa, toplama boyutunu küçültmeniz gerekir; bölmeleri daha agresif bölmelisiniz. -
120B’yi yerelde kurarken en sık yapılan hata nedir?
GPU bellek parçalanmasını göz ardı edip modeli tek bir karta yüklemeye çalışmak. Her zaman modeli tüm GPU’lar arasında bölün ve toplama boyutunu, tek bir GPU’nun hafıza sınırları içinde kalacak şekilde düşük tutun.
İlgili bağlam için 120b yerel modelleri çalıştırmak için minimum gereksinimler rehberi ve openai gpt oss 120b’yi yerelde çalıştırma inceleyin.
Sonuç
GPT‑OSS‑120B’yi ev sunucunuzda çalıştırmak için tek seferlik $5,000‘dan az bir yatırım gerekiyor, bu da bulut tahminine göre aylık yaklaşık 90 $ elektrik tasarrufu anlamına gelir. Açık bir donanım kontrol listesi, basit bir Docker kurulum ve birkaç performans ayarı ile 120B modeli araştırma, otomasyon ve deney için gerçekçi bir araç haline gelir.
Başlamaya hazır mısınız? Yerel Kurulum Kontrol Listesi‘nı alın ve modelin ağır işi sizin yerinize yapmasına izin verin.



