Threadripper 3960X ve ASUS Prime TRX40-Pro: 3x RTX 3090 Yerel AI Sunucusunun Gerçek Yönetim Rehberi

İçindekiler

Threadripper 3960x asus prime: TRX40 Platformu ve 3x 3090 Konfigürasyonunun Teknik Gerçekleri
Donanım Mimarisi ve Gerçeklik Payı Tablosu
Elektrik Tüketimi ve Termal Yönetim Stratejileri
PCIe Lane Dağılımı ve Bellek Yönetimi Stratejileri
vLLM ile Yüksek Başlangıçlı Çıktı (TTFT) Optimizasyonu
llama.cpp ile Hafif ve Esnek Çerçeve
Ollama ile Kullanıcı Dostu Yönetim ve Entegrasyon
Karşılaştırma: vLLM, llama.cpp ve Ollama Arasındaki Farklar
Sisteminiz İçin Elektrik ve Isı Maliyet Analizi
Kurulum Öncesi Kontrol Listesi
Sistem Kararlılığı ve Bakım Kontrol Listesi
Sorun Giderme ve Yaygın Hatalar
Sıkça Sorulan Sorular (SSS)
1. 3x 3090 sistemi TRX40 üzerinde ne kadar ısınır?
2. vLLM ve llama.cpp arasında bu donanımda fark nedir?
3. Elektrik faturası ne kadar artar?
4. PCIe x4/x8 darboğazı performansımı ne kadar etkiler?
5. Bu sistemle 70B parametreli modeli çalıştırabilir miyim?
Sonuç ve İleri Adım Önerileri
Zorlu Senaryo: 24 Saatlik Sürekli Yük ve Model Swapping
Uygulama Öncesi Kontrol Listesi: TRX40 ve 3x 3090 Entegrasyonu
Sorun Giderme ve Yaygın Hata Analizi
Karşılaştırma Tablosu: Model Yükleme ve Yönetim Stratejileri
Pratik Senaryo: Model Değişimi ve Bellek Yönetimi
Sıkça Sorulan Sorular (SSS)

Threadripper 3960x asus prime bu rehberin ilk adimindan itibaren merkezinde yer alir. Bu rehberi yazıyorum çünkü çoğu kaynak, bir Threadripper 3960X ve üç adet RTX 3090’ı bir arada çalıştırmayı, teorik olarak mümkün olan “mükemmel bir sistem” gibi sunuyor. Ancak kendi faturalarımı ödediğim için ve yıllardır homelab’larımda çalışan bir sistem operatörü olarak size gerçeği söylemeliyim: Bu kombinasyon, ev ortamında çalıştırıldığında fiziksel sınırlarını hemen gösterecek, ısı ve enerji tüketimi konusunda sizi test edecektir. AMA, doğru yapılandırma ve yönetişimle, 24GB VRAM’in yetersiz kaldığı yerlerde, 72GB’lık toplam bellek kapasitesi ve yüksek bant genişliği ile yerel yapay zeka modellerini çalıştırmak için hala en güçlü ev tabanlı çözüm olma niteliğini korur.

Bu bolum Threadripper 3960x asus prime odagini koruyarak ilerler: Amacımız, “nasıl takılır” sorusuna basit bir cevap vermek değil. Bu makale, PCIe lane darlıklarının, termal tıkanıklıkların ve yazılımın donanımı nasıl yönettiğinin derinlemesine bir analizi olacaktır. vLLM, llama.cpp ve Ollama gibi araçları bu donanım üzerinde çalıştırırken karşılaşacağınız gerçek darboğazları, maliyet analizlerini ve kaçınılmaz sorun giderme senaryolarını, spekülasyonlardan arındırılmış bir şekilde ele alacağız. Eğer faturanızın artacağını kabul edip, sistemi soğutma konusunda ciddi adımlar atma iradesine sahipseniz, bu rehber sizin için doğru başlangıç noktasıdır.

Threadripper 3960x asus prime: TRX40 Platformu ve 3x 3090 Konfigürasyonunun Teknik Gerçekleri

ASUS Prime TRX40-Pro anakartı ve AMD Ryzen Threadripper 3960X işlemcisi, yerel yapay zeka dünyasında uzun yıllar boyunca tartışılan bir kombinasyon olmuştur. Ancak bu ikilinin üç adet RTX 3090’ı birlikte çalıştırma kapasitesi, sadece anakartın slot sayısı kadar basit bir konu değildir. Burada devreye giren şey, işlemciye sağlanan PCIe lane (şerit) sayısı ve bu şeritlerin dağılım mantığıdır. TRX40 platformu, işlemcinin sunduğu 128 adet PCIe 4.0 lane’ini, genellikle çiftli veya dörtlü gruplar halinde ayırır. Bu da 3x 3090’ın hepsinin tam PCIe x16 hızında çalışabileceği anlamına gelmez.

İlk gerçek, donanımınızın fiziksel yerleşimi ile yazılımınızın bellek yönetimi arasındaki uyumdur. RTX 3090’lar her biri 24GB VRAM’e sahiptir ve toplamda 72GB VRAM elde edersiniz. Bu, 70 milyar parametreli modelleri (örneğin Llama-2-70B) 4-bit veya 8-bit quantizasyonla çalıştırmak için neredeyse tek başına yeterli bir kapasitedir. Ancak, TRX40’un PCIe topolojisi, ikinci ve üçüncü slotların genellikle x8 veya hatta x4 hızında çalışabileceğini belirtir. Bu, veri transfer hızında bir kısıtlama yaratabilir. Örneğin, vLLM gibi dinamik bellek yönetimi yapan bir motor, verileri GPU’lar arasında sürekli olarak eşlerken bu bant genişliği darboğazının farkına varacaktır. Bu darboğaz, modelin tamamen yüklendiği ve sadece çalıştırıldığı senaryolarda fark edilmez, ancak sürekli veri akışı ve model parçalama (split) gerektiren iş yüklerinde performans düşüşüne neden olabilir.

Bu konfigürasyonun bir diğer kritik yönü, anakartın fiziksel ısı dağılımıdır. Üç adet 3090’ı, genellikle birbirine çok yakın olan PCIe slotlarına yerleştirmek zorundasınız. Bu, ısıyı havaya aktarma konusunda ciddi bir rekabet yaratır. İlk kart ılıman olabilirken, ikinci ve üçüncü kartlar, ilk kartın salınımlarına maruz kaldığı için genellikle daha yüksek sıcaklıklarda çalışır. Bu durum, termal throttling (ısıl kısıtlama) riskini artırır. Yani, işlemci gücünüzün %100’ünü kullanamazsınız, çünkü sistem kendini korumak için saat hızını düşürecektir. Bu noktada, anakartın soğutma tasarımı ve kasanın hava akışı, donanımın en zayıf halkası haline gelir. Sadece anakartın slotlarını doldurmak yetmez; sistemin nasıl nefes alacağını planlamanız gerekir.

Donanım Mimarisi ve Gerçeklik Payı Tablosu

Aşağıdaki tablo, TRX40 platformunun 3x RTX 3090 konfigürasyonunda karşılaştığınız lane dağılımını ve bunun performans üzerindeki etkisini görselleştirir. Bu, sadece teknik bir tablo değil, sisteminizdeki darboğazların haritasıdır.

Bu tablo, sisteminizin teorik kapasitesinden ziyade, pratikte ne kadar verimli çalıştığını gösterir. Eğer 3. GPU’yu sadece ek bellek için kullanacaksanız, hız farkı önemli olmayabilir. Ancak modelin bu kartı aktif olarak kullanması gerekiyorsa, verinin diğer kartlardan oraya aktarılması için geçen zaman, toplam işlem süresini uzatabilir. Bu nedenle, modelin parçalanma stratejisi (split strategy) seçimi, donanımınızın bu fiziksel kısıtlamalarına göre ayarlanmalıdır. Unutmayın, bu bir lab çalışması değil, sizin evinizdeki ısı ve elektrik faturasıyla çalıştıracağınız bir sistemdir.

Elektrik Tüketimi ve Termal Yönetim Stratejileri

Bu konfigürasyonun en büyük zorluğu, ısı ve elektrik maliyetidir. Sıradan bir ofis bilgisayarından evdeki bir sunucuya geçiş yaparken, faturanızın artışı size bir “şok” etkisi yaratacaktır. Her bir RTX 3090, tam yük altında (stress test veya model çalıştırma) yaklaşık 350W-400W güç tüketebilir. Sistemde 3 adet varsa, sadece GPU’lardan 1050W-1200W tüketim söz konusudur. Threadripper 3960X işlemci, 24 çekirdekli yapısıyla idare haldeyken 100W-150W çekerken, tam yük altında 300W-350W seviyesine çıkabilir. Ana kart, RAM (256GB DDR4), SSD’ler ve fanlar da bu tabloya yaklaşık 150W ekleyecektir.

Bu durumda, sisteminiz tam yük altında (GPU’lar %100 kullanımda) yaklaşık 1.5kW – 1.7kW güç çeker. Bir gün boyunca (24 saat) bu yükte çalıştırırsanız, tükettiğiniz enerji 36kWh – 40kWh olur. Yerel elektrik fiyatlarına (örneğin, Türkiye’de son dönemlerde endüstriyel veya konut fiyatlarına göre değişen ortalama 1.5 TL/kWh) göre, bu tek bir gün için 54-60 TL tutar. Aylık bazda bu rakam 1.600 TL ile 1.800 TL arasında değişebilir. Bu rakam, sadece bu sunucunun faturaya yansıyan kısmıdır. Ancak unutmayın, modelin eğitimi veya uzun süreli inferans işlemleri sırasında bu değerler, işlemcinin de tam yükte çalışmasıyla daha da artabilir.

Isı yönetimi ise bu elektrik faturasının doğrudan bir sonucudur. 3x 3090, ev ortamında 1.5kW’lık bir ısı kaynağıdır. Yazın, odanızın sıcaklığı 30°C’yi bulduğunda, bu ısıyı dışarı atmak için fanlarınızın daha hızlı dönmesi gerekir, bu da ek bir elektrik tüketimi yaratır. Ayrıca, ısı arttıkça donanımın ömrü kısalır. VRAM sıcaklıkları 85°C’nin üzerine çıkarsa, NVIDIA kartlar kendini korumaya alıp performansını düşürür veya sisteminiz çöker. Bu nedenle, sadece “güç kaynağı var mı?” sorusuna değil, “hava akışı nasıl?” sorusuna odaklanmalısınız.

Termal Yönetim İçin Kritik Stratejiler:

Zorunlu Fan Kontrolü: Fabrika ayarı fan profili, ev ortamı için genellikle yetersizdir. BIOS veya GPU yazılımları (MSI Afterburner vb.) ile fanları %100’e yakın bir şekilde sabitlemeniz gerekebilir. Bu sesli bir sistem yaratır ama donanımınızın yaşaması için şarttır.
Dijital Termal Macun: RTX 3090’lar, orijinal macunların zamanla kurumasına çok duyarlıdır. Sistemde 3 kart varsa, bunların hepsini düzenli olarak (yılda bir kez) macun değişimi yapmak, termal direnci düşürür.
Hava Akışı Optimizasyonu: Kasanın giriş ve çıkış fanlarını doğru konumlandırmalısınız. Sıcak havanın içeride hapsolmaması için “düzgün hava akışı” (positive or negative pressure) prensibi hayati önem taşır.
Isıl Yalıtım: GPU’lar birbirine çok yakınsa, ısı transferi artar. Mümkünse aralarına hava boşluğu bırakın veya özel termal yalıtıcılar kullanın.

Elektrik maliyeti hesaplama konusunda kesin bir rakam vermek imkansızdır çünkü bölgesel fiyat farkları vardır. Ancak formül basittir: (Toplam Güç kW) x (Çalışma Saati) x (Yerel Birim Fiyat) = Aylık Maliyet. Bu formülü kendi faturanız üzerinden uyguladığınızda, sisteminizin “kâr-zarar” noktasını görebilirsiniz. Eğer evinizde sanayi tipi elektrik şebekesi yoksa, bu güç tüketimi bazınızın artmasına neden olabilir. Bu nedenle, sistemi 7/24 tam yükte çalıştırmak yerine, iş yükünü bölümlere ayırarak (batch processing) yönetmek, maliyet açısından daha akılcı bir stratejidir.

PCIe Lane Dağılımı ve Bellek Yönetimi Stratejileri

3x RTX 3090 konfigürasyonunda en önemli teknik kısıtlama, PCIe lane (şerit) dağılımıdır. TRX40 platformu, işlemciye 128 adet PCIe 4.0 lane sunar. Ancak bu lane’ler, anakart üzerindeki slotlara tam olarak x16 şeklinde dağılmaz. ASUS Prime TRX40-Pro’nun teknik özelliklerine bakıldığında, genellikle ilk slot x16 çalışırken, ikinci slot x8 ve üçüncü slot x4 veya x8 hızında çalışır. Bu durum, 3. GPU’nun diğerlerine göre veri transfer hızında önemli bir darboğazla karşılaşmasına neden olur.

Bu darboğaz, özellikle vLLM veya llama.cpp gibi modelleri GPU’lar arasında parçalayan (tensor splitting) yazılımlarda kritiktir. Modelin bir parçası ilk GPU’da, diğeri ikinci GPU’da ve üçüncü parçası üçüncü GPU’da bulunuyorsa, her bir işlem için veri bu GPU’lar arasında sürekli olarak transfer edilmek zorundadır. Üçüncü GPU x4 hızında çalışıyorsa, veri transferi x16’ya göre 4 kat daha yavaş olacaktır. Bu da, modelin üretme hızını (tokens/second) doğrudan etkiler. Örneğin, 100 token/saniye üretmesi gereken bir model, 3. GPU’daki veri transferi yavaşlaması nedeniyle 80 token/saniyeye düşebilir. Bu, sisteminizin teorik performansından ziyade, en yavaş hücresine (bottleneck) göre çalıştığını gösterir.

Bellek yönetimi stratejisi ise bu darboğazı hafifletmek için kritik bir rol oynar. 3x 3090, toplam 72GB VRAM sunar. Ancak bu belleğin tamamını verimli kullanmak için, modellerin hangi GPU’ya yükleneceğini dikkatlice ayarlamanız gerekir. Büyük modelleri (örn: 70B parametre) tek bir GPU’ya sığdıramazsınız, bu yüzden model parçalanması (tensor parallelism) gerekir. vLLM gibi motorlar, bunu otomatik olarak yapabilir, ancak TRX40’un lane dağılımı nedeniyle, manuel müdahale etmek gerekebilir. İlk GPU’ya en büyük model parçasını yükleyip, geri kalanlarını diğer GPU’lara dağıtmak, genel verimliliği artırabilir. Ancak 3. GPU’nun hız sınırlaması nedeniyle, bu GPU’ya çok fazla yük bindirmemek, dengeyi korumak için mantıklı bir yaklaşımdır.

Ayrıca, bellek bant genişliği (memory bandwidth) konusunda da dikkatli olunmalıdır. RTX 3090, 936 GB/s bant genişliğine sahiptir. Üç kart olsa bile, bu bant genişliği sadece yerel olarak kullanılır. PCIe yoluyla yapılan veri transferleri, bu yerel bant genişliğinin çok gerisinde kalır. Bu nedenle, CPU ve RAM arası veri transferi yaparken (model yükleme aşamasında) veya GPU’lar arası veri paylaşımında (inferans sırasında) PCIe bant genişliği, sistem hızının en kritik faktörü haline gelir. Eğer sistemde 256GB DDR4 RAM varsa, bu RAM’in bant genişliği de göz önünde bulundurulmalıdır. DDR4, DDR5’e göre daha düşük bant genişliğine sahiptir, bu da büyük modellerin yüklenmesi sırasında CPU’nun RAM’den yeterli hızda veri çekememesine neden olabilir.

Bellek Yönetimi İçin Önerilen Yaklaşımlar:

Model Parçalama (Tensor Split): Modeli mümkün olduğunca dengeli bir şekilde dağıtmak yerine, yavaş kartlara (x4 slot) daha az yük bindirmeye odaklanın.
CPU Offload: Eğer model tam olarak GPU’lara sığmıyorsa, bazı katmanları RAM’e (CPU) yükleyin. Bu, hızı düşürür ama çöküşleri önler.
PCIe Bant Genişliği Kontrolü: Sisteminizde hangi PCIe slotlarının ne hızda çalıştığını lspci komutuyla kontrol edin. Beklediğiniz hızda çalışmıyorsa, BIOS ayarlarını gözden geçirin.

Bu stratejiler, donanımın fiziksel sınırlamalarını kabul ederek, yazılımın bu sınırlar içinde en verimli şekilde çalışmasını sağlamak için gereklidir. “Mükemmel bir sistem” yoktur, sadece mevcut donanımla en iyi sonucu alabilen bir yönetişim vardır.

vLLM ile Yüksek Başlangıçlı Çıktı (TTFT) Optimizasyonu

vLLM, yerel yapay zeka sunucularında yüksek başlangıçlı çıktı (Time To First Token – TTFT) ve yüksek throughput (tok/kak) sağlamak için tasarlanmış bir motor olarak öne çıkar. Ancak 3x RTX 3090 gibi çoklu GPU konfigürasyonlarında, vLLM’in performansını optimize etmek, sadece “çalıştır” komutu vermekle olmaz. vLLM, modelin katmanlarını GPU’lar arasında dağıtırken, PCIe lane darboğazlarını ve bellek yönetimini dikkate almalıdır. Özellikle TRX40 platformunda, 3. GPU’nun x4 hızında çalışması, vLLM’in otomatik dağıtım stratejilerini etkileyebilir.

vLLM’in temel avantajı, PagedAttention mekanizması sayesinde VRAM kullanımını optimize etmesidir. 70B parametreli bir modeli (örn: Llama-2-70B) tek bir 3090’a sığdırmak imkansızdır. Bu durumda, vLLM modelin katmanlarını GPU’lara bölüştürür. Ancak TRX40’un lane dağılımı nedeniyle, verilerin GPU’lar arasında transferi yavaşlayabilir. Bu da, ilk tokenin üretilme süresini (TTFT) artırır. Kullanıcı, komutu girdikten sonra cevabı beklemek zorunda kalır. Bu gecikme, özellikle interaktif (sohbet tarzı) kullanım için rahatsız edici olabilir.

vLLM Optimizasyonu İçin Stratejiler:

Model Parçalama Stratejisi: vLLM, varsayılan olarak model katmanlarını GPU’lara eşit olarak dağıtır. Ancak TRX40 konfigürasyonunda, bu strateji optimize edilmelidir. İlk GPU (x16) ve ikinci GPU (x8) daha fazla yükü üstlenmeli, üçüncü GPU (x4) daha az yükü üstlenmelidir. Bu, modelin parçalama stratejisini manuel olarak ayarlayarak yapılabilir.
Tensor Parallelism: tensor-parallel-size parametresi, vLLM’in GPU’ları nasıl kullandığını belirler. 3 kartlı bir sistemde bu değeri 3 olarak ayarlamak, 3. GPU’nun darboğazını tetikleyebilir. Bunu 2 olarak ayarlayıp, 3. GPU’yu sadece ek bellek olarak kullanmak (model split’i) daha iyi bir performans sağlayabilir.
Block Cache Yönetimi: vLLM’in kullandığı bellek bloklarının boyutu, sistemde ne kadar çok paralel istek işleneceğini belirler. Büyük GPU’lu sistemlerde, blok boyutunu artırarak bellek kullanımı optimize edilebilir.

vLLM’i çalıştırmak için kullanacağınız temel komut satırı örneği aşağıdadır. Bu komut, modelin GPU’lar arasında nasıl dağıtılacağını belirler. Dikkat ederseniz, tensor-parallel-size parametresi kritik bir rol oynar.

# vLLM başlatma komutu (3 GPU için)
# --model: Modelin yolunu veya adını belirtin
# --tensor-parallel-size: GPU sayısı (Burada 3 veya 2 denenebilir)
# --max-model-len: Modelin maksimum uzunluğu
# --dtype: Bellek hassasiyeti (float16 veya bfloat16)

python -m vllm.entrypoints.api_server \
    --model meta-llama/Llama-2-70b-hf \
    --tensor-parallel-size 3 \
    --max-model-len 32768 \
    --dtype bfloat16 \
    --host 0.0.0.0 \
    --port 8000

Bu komutu çalıştırdığınızda, vLLM’in loglarını dikkatlice takip etmelisiniz. Eğer 3. GPU’nun PCIe lane darboğazı nedeniyle performansı düşerse, --tensor-parallel-size değerini 2’ye düşürmeyi ve 3. GPU’yu sadece bellek olarak kullanmayı deneyebilirsiniz. Bu, sisteminizin en hızlı GPU’larını daha verimli kullanmanızı sağlar.

llama.cpp ile Hafif ve Esnek Çerçeve

llama.cpp, yerel yapay zeka dünyasında CPU ve GPU karışık kullanım (offload) konusunda en esnek çözümlerden biridir. TRX40 ve 3x RTX 3090 konfigürasyonunda, llama.cpp’in en büyük avantajı, modelin katmanlarını istediğiniz gibi GPU’lara ve RAM’e dağıtabilmesidir. vLLM’e kıyasla daha az otomatizm sunar ancak daha fazla kontrol sağlar. Özellikle bellek sınırlamaları olan durumlarda, llama.cpp’in “CPU offload” özelliği, modelin tamamen GPU’ya sığmaması durumunda sistemin çökmesini engeller.

llama.cpp, modelin katmanlarını (layers) GPU’lara yükler ve kalan katmanları RAM’de (CPU) tutar. Bu, bellek kapasitesini artırır ancak işlem hızını düşürür. TRX40 konfigürasyonunda, 3x 3090’ın toplam 72GB VRAM’i, 70B parametreli modelleri 4-bit veya 8-bit quantizasyon ile çalıştırmak için idealdir. Ancak llama.cpp, modelin katmanlarını dağıtırken, hangi katmanların GPU’da, hangilerinin CPU’da olacağını sizin belirlemenize izin verir. Bu, PCIe lane darboğazını minimize etmek için stratejik bir avantajdır. Örneğin, yoğun veri trafiği gerektiren katmanları hızlı GPU’lara (1. ve 2. slot) yükleyip, daha az kritik katmanları yavaş GPU’ya (3. slot) veya RAM’e bırakabilirsiniz.

llama.cpp Konfigürasyonu İçin Stratejiler:

GPU Offload Ayarı: n_gpu_layers parametresi, GPU’ya yüklenecek katman sayısını belirler. Bu değeri sisteminizin VRAM kapasitesine ve PCIe lane dağılımına göre ayarlamalısınız.
Model Split Stratejisi: llama.cpp, modelin katmanlarını GPU’lara dağıtırken, 3. GPU’nun yavaşlığı nedeniyle bu dağılımı dengeli yapmanız gerekebilir.
Bellek Yönetimi: llamacpp, bellek yönetimi için n_ctx (bağlam uzunluğu) ve n_batch gibi parametreleri hassas bir şekilde ayarlamanızı sağlar. Bu, özellikle uzun bağlamlarla çalışırken performansı etkiler.

llama.cpp ile modelin hangi GPU’ya yükleneceğini ayarlamak için Python kodu kullanabilirsiniz. Bu kod, modelin katmanlarını GPU’lara dağıtma stratejisini gösterir.

# llama.cpp Python API kullanarak model yükleme
# n_gpu_layers: GPU'ya yüklenecek katman sayısı
# n_ctx: Bağlam uzunluğu
# n_batch: İşlemci batch boyutu

import llama_cpp

# Modeli yükleme
llm = llama_cpp.Llama(
    model_path="./llama-2-70b.gguf",
    n_ctx=32768,          # Bağlam uzunluğu
    n_batch=1024,         # İşlemci batch boyutu
    n_gpu_layers=99,      # GPU'ya yüklenecek katman sayısı (max değer)
    offload_kqv=True,     # K-V cache'i GPU'ya yükle
    tensor_split=[0.5, 0.5, 0.0] # 3 GPU'ya dağılım (3. GPU'yu atlamak için)
)

# Sorgu çalıştırma
output = llm(
    "Sormak istediğiniz soruyu buraya yazın...",
    max_tokens=256,
    stop=["USER:", "ASSISTANT:"],
    echo=True
)

print(output['choices'][0]['text'])

Bu kodda tensor_split parametresi, 3. GPU’nun darboğazını minimize etmek için 0.0 olarak ayarlanmıştır. Bu, modelin katmanlarını sadece ilk iki GPU’ya yüklerken, 3. GPU’yu sadece ek bellek olarak kullanmaktır. Bu strateji, TRX40 konfigürasyonunda llama.cpp’in en verimli kullanımını sağlar.

Ollama ile Kullanıcı Dostu Yönetim ve Entegrasyon

Ollama, yerel yapay zeka modellerini çalıştırmak için tasarlanmış, kurulumu ve kullanımı en kolay araçlardan biridir. TRX40 ve 3x RTX 3090 konfigürasyonunda Ollama, otomatik olarak GPU’ları tespit eder ve modelin katmanlarını dağıtır. Ancak, vLLM ve llama.cpp gibi araçlar kadar ince ayar imkanı sunmaz. Ollama’nın temel avantajı, kullanıcının teknik detaylarla uğraşmadan modelleri çalıştırabilmesidir.

Ollama, modelleri otomatik olarak GPU’lara yükler ve bellek yönetimini kendi içinde halleder. TRX40 konfigürasyonunda, Ollama’nın otomatik dağıtımı, PCIe lane darboğazını optimize etmeyebilir. Ancak, kullanıcının manuel ayar yapması gerekmeden, sistemin hızlıca çalışmasını sağlar. Bu, özellikle yeni başlayanlar veya sürekli deneme yapma ihtiyacı olmayan kullanıcılar için idealdir.

Ollama Kullanımı İçin Stratejiler:

Otomatik GPU Tespiti: Ollama, sistemindeki GPU’ları otomatik olarak tespit eder ve modelin katmanlarını dağıtır.
Model Yükleme: Ollama, modelleri doğrudan GitHub reposundan çeker ve yükleme yapar.
API Entegrasyonu: Ollama, yerel bir API sunar, bu sayede diğer uygulamalarla kolayca entegre edilebilir.

Ollama’yı çalıştırmak için komut satırı şu şekildedir:

# Ollama başlatma
ollama serve

# Model çekme ve çalışma
ollama pull llama2:70b
ollama run llama2:70b

Bu komut, Ollama’nın modeli otomatik olarak GPU’lara yükleyip çalıştırmasını sağlar. Ancak, TRX40 konfigürasyonunda, Ollama’nın otomatik dağıtımı, PCIe lane darboğazını optimize etmeyebilir. Bu durumda, kullanıcının manuel ayar yapması gerekmeden, sistemin hızlıca çalışmasını sağlar.

Karşılaştırma: vLLM, llama.cpp ve Ollama Arasındaki Farklar

Bu üç araç, TRX40 ve 3x RTX 3090 konfigürasyonunda farklı kullanım senaryolarına hitap eder. vLLM, yüksek performans ve düşük gecikme (low latency) gerektiren iş yükleri için idealdir. llama.cpp, esneklik ve bellek yönetimi için tercih edilirken, Ollama ise kolay kullanım ve hızlı kurulum için öne çıkar.

Özellik	vLLM	llama.cpp	Ollama
Performans	Yüksek (Optimize edilmiş)	Orta-Yüksek (Ayarlara bağlı)	Orta
Bellek Yönetimi	Otomatik (PagedAttention)	Manuel (Offload ayarları)	Otomatik
Kurulum Kolaylığı	Orta	Zor	Çok Kolay
PCIe Darboğazı	Yüksek (Manuel ayar gerekir)	Orta (Stratejik ayar)	Düşük (Otomatik)
Kullanım Senaryosu	Yüksek trafikli API, Chatbot	Model eğitimi, özel dağıtım	Hızlı deneme, prototipleme

Bu tablo, hangi aracın hangi senaryoda daha uygun olduğunu gösterir. vLLM, yüksek performanslı bir API sunmak için idealdir. llama.cpp, modelin katmanlarını manuel olarak dağıtmak isteyenler için uygundur. Ollama ise hızlı kurulum ve kolay kullanım isteyenler için en iyi seçenektir.

Sisteminiz İçin Elektrik ve Isı Maliyet Analizi

TRX40 ve 3x RTX 3090 konfigürasyonunun en büyük maliyeti, elektrik ve ısıdır. Bu maliyet, sisteminizin çalışma süresine ve yüküne göre değişir. Ancak, sisteminizin ortalama elektrik tüketimini hesaplamak ve bu maliyeti öngörmek için bir formül kullanabilirsiniz.

Elektrik Tüketimi Formülü:

Aylık Maliyet = (Toplam Güç kW) x (Günlük Çalışma Saati) x (30 Gün) x (Yerel Birim Fiyat)

TRX40 ve 3x RTX 3090 konfigürasyonu için:
* Toplam Güç: ~1.5kW – 1.7kW (Tam yük)
* Günlük Çalışma Saati: 8-12 saat (Ortalama kullanım)
* Yerel Birim Fiyat: 1.5 TL/kWh (Örnek)

Bu formüle göre:

Aylık Maliyet = 1.6kW x 10 saat x 30 gün x 1.5 TL = 720 TL

Bu maliyet, sisteminizin sadece elektrik tüketimini gösterir. Ancak, soğutma için kullanılan fanlar ve diğer ek maliyetler de bu tabloya eklenmelidir. Ayrıca, sisteminizin ısı üretimi, odanızın sıcaklığını artırır. Bu da, yazın klima maliyetlerini artırabilir. Bu nedenle, sisteminizin ısı yönetimi ve soğutma stratejileri, maliyet analizi açısından çok önemlidir.

Elektrik Tüketimi ve Tahmini Maliyet Analizi Tablosu

Durum	GPU Gücü (3x)	CPU Gücü	Toplam Güç (kW)	Günlük Tüketim (kWh)	Aylık Maliyet (TL)*
Idle	150W	50W	0.2kW	4.8 kWh	~22 TL
Orta Yük	600W	150W	0.8kW	19.2 kWh	~86 TL
Tam Yük	1200W	300W	1.5kW	36.0 kWh	~162 TL

Not: 1.5 TL/kWh fiyat üzerinden hesaplanmıştır. Gerçek maliyet yerel fiyatlar değişebilir.

Bu tablo, sisteminizin farklı durumlardaki elektrik tüketimini ve maliyetini gösterir. Tam yükte çalıştırma maliyeti oldukça yüksektir. Bu nedenle, sisteminizi sadece ihtiyaç duyduğunuzda çalıştırmak veya yükü bölümlere ayırmak, maliyetleri azaltmak için mantıklı bir stratejidir.

Kurulum Öncesi Kontrol Listesi

Sisteminizi kurmadan önce, aşağıdaki kontrol listesini tamamlamanız, kurulum sonrası sorunları minimize etmek için kritiktir. Bu liste, donanımın fiziksel ve yazılısal hazırlıklarını içerir.

Donanım Kurulumu Öncesi Kontrol Listesi

☐ Güç Kaynağı Kontrolü: 1000W+ (Önerilen 1200W+) kaliteli bir PSU’nun mevcut olduğundan emin olun. 3x 3090 + Threadripper için yeterli güç olmalıdır.
☐ Isı Yönetimi: Kasanın hava akışının (airflow) doğru yapılandırıldığından emin olun. Giriş ve çıkış fanları yerinde mi?
☐ PCIe Slot Uyumu: TRX40 anakartın PCIe slotlarının fiziksel olarak 3x 3090 için yeterli olduğundan emin olun. Slotlar birbirine çok yakın olabilir, termal etkileşim riskini göz önünde bulundurun.
☐ Sürüm Uyumluluğu: NVIDIA drivers, PyTorch, CUDA sürümlerinin uyumlu olduğundan emin olun.
☐ Bellek Yönetimi: 256GB RAM’in yeterli olduğundan emin olun. Model yükleme sırasında RAM yetersizliği yaşanabilir.
☐ Soğutma Sıvısı: Eğer su soğutma kullanacaksanız, sızıntı riskini minimize etmek için gerekli önlemleri alın.
☐ Güç Kaynağı Bağlantısı: GPU’lara yeterli PCIe güç kablosu bağlandığından emin olun. Her GPU için ayrı kablo kullanmak daha iyidir.
☐ Termal Macun: GPU’ların termal macunlarının taze olduğundan emin olun. Eski macunlar, ısıyı aktaramaz.
☐ Sistem Testi: Sistemi çalıştırmadan önce, BIOS ayarlarını kontrol edin ve PCIe slotlarının doğru çalıştığını doğrulayın.
☐ Yedekleme: Sistem yedeği alın veya önemli dosyaları yedekleyin. Kurulum sırasında veri kaybı yaşanabilir.

Bu kontrol listesini tamamlamak, kurulum sonrası karşılaşabileceğiniz sorunları minimize etmek için çok önemlidir. Özellikle güç kaynağı ve ısı yönetimi konularına dikkat etmelisiniz.

Sistem Kararlılığı ve Bakım Kontrol Listesi

Sisteminizi kurduktan sonra, uzun süreli kararlılık ve performans için düzenli bakımlar yapmanız gerekir. Bu liste, sisteminizdeki potansiyel sorunları erken tespit etmek ve önlemek için kritiktir.

Sistem Kararlılığı ve Bakım Kontrol Listesi

☐ Günlük Isı Kontrolü: Her gün, GPU ve CPU sıcaklıklarını kontrol edin. 85°C üzeri sıcaklıklar alarm verin.
☐ Fan Kontrolü: Fanların düzgün çalıştığından ve tozlanma olmadığından emin olun. Toz, ısıyı artırır.
☐ Yazılım Güncellemeleri: NVIDIA drivers, PyTorch, vLLM ve diğer yazılımların güncel olduğundan emin olun.
☐ Bellek Testi: RAM’lerde hata olup olmadığını kontrol edin. ECC RAM kullanıyorsanız, hata kayıtlarını inceleyin.
☐ Termal Macun Değişimi: Yılda bir kez, GPU’ların termal macunlarını değiştirmeyi planlayın.
☐ Güç Kaynağı Kontrolü: PSU’nun voltajının stabil olduğu ve kabloların gevşemediği kontrol edin.
☐ Isı Akışı Testi: Sistemde hava akışının düzgün çalıştığından emin olun.
☐ Yazılım Logları: Uygulamaların loglarını düzenli olarak inceleyin. Hataları tespit edin.
☐ Yedekleme: Model dosyalarını ve konfigürasyonları düzenli olarak yedekleyin.
☐ Sistem Performansı: Sistemin performansını düzenli olarak test edin. Düşük performans, donanım sorununa işaret edebilir.

Bu liste, sisteminizin uzun süreli kararlılığını sağlamak için kritiktir. Özellikle ısı yönetimi ve yazılım güncellemeleri konularına dikkat etmelisiniz.

Sorun Giderme ve Yaygın Hatalar

3x RTX 3090 ve TRX40 konfigürasyonunda, karşılaşabileceğiniz yaygın hatalar ve çözümleri şunlardır:

PCIe Lane Darboğazı: 3. GPU x4 hızında çalışıyorsa, modelin dağıtımı yavaşlayabilir. Çözüm: tensor-parallel-size parametresini düşürmek veya modelin dağıtımını manuel ayarlamak.
Isı Artışı: GPU’lar 85°C üzerine çıkarsa, sistem kendini korumaya alır. Çözüm: Fan hızını artırmak, ortam sıcaklığını düşürmek.
Elektrik Tüketimi: Fatura çok yüksek çıkarsa, sistemi sadece ihtiyaç duyduğunuzda çalıştırmak veya yükü bölümlere ayırmak.
Yazılım Çökmesi: Model yüklenirken sistem çökerse, RAM yetersizliği olabilir. Çözüm: RAM miktarını artırmak veya modelin boyutunu küçültmek.
PCIe Sürüş Hatası: PCIe slotlarında hata varsa, BIOS ayarlarını kontrol edin.
Termal Macun Sorunu: GPU’lar çok ısınırsa, termal macun değişimi gerekebilir.
Güç Kaynağı Yetersizliği: Sistem açılmıyorsa, PSU yetersiz olabilir. Çözüm: Daha yüksek watt’lı PSU kullanmak.

Bu hataların çoğu, donanımın fiziksel sınırlamalarından kaynaklanır. Bu sınırlamaları kabul edip, yazılımın bu sınırlar içinde çalışmasını sağlamak, sisteminiz için en iyi stratejidir.

Sıkça Sorulan Sorular (SSS)

1. 3x 3090 sistemi TRX40 üzerinde ne kadar ısınır?

Bu konfigürasyon, ev ortamında ciddi bir ısı kaynağıdır. Tam yük altında, GPU sıcaklıkları 75°C ile 85°C arasında değişebilir. Ortam sıcaklığı 30°C’nin üzerindeyse, bu değerler daha da artabilir. Isıyı kontrol etmek için fan hızını artırmak ve ortam sıcaklığını düşürmek kritiktir. Isı, donanımın ömrünü kısaltır ve performansı düşürür.

2. vLLM ve llama.cpp arasında bu donanımda fark nedir?

vLLM, yüksek performans ve düşük gecikme için tasarlanmıştır. TRX40 konfigürasyonunda, vLLM’in otomatik dağıtımı, PCIe lane darboğazını optimize etmeyebilir. llama.cpp ise, modelin katmanlarını manuel olarak dağıtmanıza izin verir. Bu, 3. GPU’nun darboğazını minimize etmek için stratejik bir avantajdır. vLLM daha otomatik, llama.cpp daha esnektir.

3. Elektrik faturası ne kadar artar?

Sisteminiz tam yükte çalıştığında, aylık elektrik faturası 700 TL ile 1800 TL arasında değişebilir. Bu, sisteminizin çalışma süresine ve yüküne bağlıdır. Soğutma maliyetleri (klimalar) de bu tabloya eklenebilir. Bu maliyet, sisteminizin “kâr-zarar” noktasını belirler.

4. PCIe x4/x8 darboğazı performansımı ne kadar etkiler?

GPU x4 hızında çalışıyorsa, modelin dağıtımı yavaşlayabilir. Bu, özellikle vLLM gibi otomatik dağıtım yapan araçlarda fark edilir. llama.cpp gibi araçlarda, manuel ayarlarla bu darboğaz minimize edilebilir. Performans düşüşü, modelin parçalama stratejisine bağlıdır.

5. Bu sistemle 70B parametreli modeli çalıştırabilir miyim?

Evet, 3x 3090’ın 72GB VRAM’i, 70B parametreli modeli 4-bit veya 8-bit quantizasyon ile çalıştırmak için yeterlidir. Ancak, PCIe lane darboğazı nedeniyle, modelin dağıtımı yavaşlayabilir. Bu durumda, llama.cpp veya vLLM’in manuel ayarlarını kullanmak gerekebilir.

Sonuç ve İleri Adım Önerileri

3x RTX 3090 ve TRX40 konfigürasyonu, yerel yapay zeka dünyasında güçlü bir seçenektir. Ancak, bu donanımın sınırlamalarını kabul etmek ve bunları yönetmek, sisteminiz için en önemli adımdır. Elektrik maliyeti, ısı yönetimi ve PCIe lane darboğazları, sisteminizin en kritik noktalarıdır.

İleri Adım Önerileri:

Performans Testleri: Sisteminizi farklı yüklerle test edin. vLLM, llama.cpp ve Ollama’nın performansını karşılaştırın.
Maliyet Analizi: Elektrik maliyetinizi hesaplayın ve sisteminizin “kâr-zarar” noktasını belirleyin.
Isı Yönetimi: Termal yönetiminizi optimize edin. Fan hızını artırmak, ortam sıcaklığını düşürmek.
Yazılım Güncellemeleri: Sürümleri güncel tutun. Yeni sürümler, performans artırabilir.
Bakım: Düzenli bakım yapın. Termal macun değişimi, temizlik.

Bu sistem, ev ortamında yerel yapay zeka sunucusu kurmak için en güçlü seçeneklerden biridir. Ancak, maliyet ve ısı yönetimi konusunda dikkatli olmalısınız. Sisteminizi yönetirken, donanımın sınırlamalarını kabul edip, yazılımın bu sınırlar içinde çalışmasını sağlamak, en iyi stratejidir.

Önerilen Okuma:
* Yerel LLM Kurulum Rehberi
* Donanım Soğutma Temelleri
* GPU Bellek Yönetimi Kılavuzu
* Elektrik Maliyeti Hesaplama Aracı

Kaynaklar:
* NVIDIA CUDA Dokümantasyonu
* llama.cpp Resmi GitHub Reposu
* vLLM Resmi Dokümantasyonu
* ASUS TRX40-Pro Kullanım Kılavuzu

Bu rehber, sisteminizi kurarken ve yönetirken size rehberlik edecektir. Başarılar dileriz.

Zorlu Senaryo: 24 Saatlik Sürekli Yük ve Model Swapping

TRX40 platformu ve 3x 3090 konfigürasyonu teorik olarak güçlü olsa da, pratikte en büyük düşmanınız donanımın kendisi değil, süreklilik üzerindeki baskıdır. Yerel yapay zeka sunucusu, ofis saatiyle çalıştığında sorun çıkarmaz; ancak modelin sürekli bellekte kalması gereken ve 7/24 veri işleyen bir ortamda, durum değişir.

Gerçek senaryo şu şekilde işler: Sabah saatlerinde vLLM üzerinden 200 kişilik bir ekibin aynı anda 7B veya 13B modellerle çalışmasını sağlıyorsunuz. GPU’lar %100 kullanımda, bellek doluluğu %95 civarında. Öğleden sonra, farklı bir ekibin daha büyük bir model (örneğin 30B veya 70B, quantize edilmiş) gerektirmesiyle, mevcut model bellekten silinip yenisinin yüklenmesi (swapping) zorunluluğu doğar. 256 GB RAM bu senaryoda bir kurtarıcı değil, bir geçiş noktasıdır. DDR4’ün bant genişliği sınırlaması nedeniyle, PCIe lane dağılımında oluşan x8/x4 darboğazları, modelin ana bellekten VRAM’a aktarılma süresini kritikleştirir.

İlk 15 dakikada termal koruma devreye girer. 3x 3090, TRX40 üzerindeki yoğun PCIe trafiği ve işlemci yükü nedeniyle tek başına yeterli soğutma sağlamaz. Odak noktası, GPU sıcaklıklarının 85°C’nin üzerine çıkmaması değil, hotspot değerlerinin 105°C’yi aşmamasıdır. ASUS Prime TRX40-Pro’nun VRM (Voltaj Regülasyon Modülü) yapısı, bu yoğunlukta sürekli yük altında 70°C’yi görmezden gelebilir. Ancak, kabin içindeki hava akışı bozulduğunda, 3. kartın hava çıkışı 1. kartın girişine çarparak “ısı geri dönüşümü” yaratır.

Bu senaryoda başarısızlığın ilk göstergesi performans düşüşü değil, sessizlik değil, “Yerel Model Yanıtı Hatası”dır. bellek tükendiğinde, RAM’den VRAM’a veri aktarımı için sistem kullandığı taksiyi (PCIe) yavaşlatır. vLLM’in yüksek TTFT (Time To First Token) avantajı, bu darboğazda anında kaybolur. Gerçek dünya yöneticisi olarak dikkat etmeniz gereken tek şey, sistemin “çalışıp çalışmadığı” değil, “nasıl çalıştığı”dır. Modeli değiştirmek için beklenen 10 saniyelik boşluk, aslında 45 saniyeye çıkar.

Bu durumun çözüm planı basittir: Sürekli çalışan senaryolarda model caching’ini devreye almanız veya 3. bir kartı tamamen farklı bir iş yükü için (örneğin video render veya görüntü işleme) ayırmanız gerekir. Tek bir 3090 kartı, 24/7 yapay zeka yükü altında bile %100 verimlilikle çalışmaz; bu, maliyet analizinizi doğrudan etkiler. Elektrik faturası, sadece “çalışma süresi” ile değil, “soğutma yükü” ile de artar. 3x 3090, sadece 300W çeker; kabin içi havayı 100W daha soğutmak için fanları zorlamak, sisteminizin toplam elektrik tüketimini %15-20 artırır. Bu, “sadece donanım” sorunu değil, “enerji maliyeti” sorunudur.

Uygulama Öncesi Kontrol Listesi: TRX40 ve 3x 3090 Entegrasyonu

Bu yapıyı kurmadan önce, donanımın fiziksel ve yazılımsal sınırlarını gözden geçirmeniz gerekir. Aşağıdaki maddeler, projenin başarısız olma ihtimalini en aza indirmek için kritik adımlardır.

Donanım ve Fiziksel Hazırlık – [ ] Kabin Hacmi ve Fan Düzeni: 3x 3090’ın kalınlığı (genellikle 3 slot) ve uzunluğu için kabin içinde en az 30 cm’lik ekstra alan bırakıldı mı? Yan fanlar, hava akışını doğrudan 3. karta yönlendiriyor mu? – [ ] Güç Kaynağı (PSU) Yeterliliği: 3x 3090 (toplam ~900W) + Threadripper 3960X (150-280W) + Anakart ve RAM yükü için 1600W+ Platinum/Titanium sertifikalı bir PSU kullanıldı mı? 1200W sınırında kalmayın, %80-90 verimlilik aralığında çalışması şart. – [ ] PCIe Slot Yerleşimi:

3x 3090’ın TRX40 üzerindeki slot dağılımı (x16/x16/x4 veya x16/x8/x8) kabin içi ısı akışına uygun mu? 3. kartı mümkünse en üst slotta veya en soğuk hizada tutun. – [ ] Soğutma Çözümü: Sıvı soğutma veya aşırı yüksek devirli hava soğutma çözümleri (AIO veya özel fan kurulumu) 3. kartın termal hotspots için planlandı mı? – [ ] Güç Kabloları: Her kart için ayrı ayrı PCIe güç kablosu çekildi mi? Tek bir kablodan iki kartı beslemeyin; bu, kablo erimesine ve sistem çökmesine yol açar.

Yazılım ve Konfigürasyon – [ ] BIOS Ayarları: TRX40 BIOS’unda PCIe Lane ayarları (x16, x8, x4) manuel olarak doğrulandı mı? Auto ayarlar bazen PCIe 4.0 yerine PCIe 3.0’e düşer. – [ ] DRAM Hızı ve Timingle: 256 GB DDR4 RAM’in çalıştığı frekans (2933/3200 MT/s) ve gecikme değerleri (CL22/CL28) stabil olarak test edildi mi? Overclock’lı bellek, yüksek bellek yoğunluğunda kararsızlık yaratabilir. – [ ] Isı ve Güç Sınırlandırması (Power Limit):

NVIDIA driver’ında GPU TDP sınırlaması %90 veya %80 olarak ayarlandı mı? Bu, termal geçişleri önler ve ömrü uzatır. – [ ] Isı Yönetim Yazılımı: HWMonitor, GPU-Z ve Fan Control araçları kurularak, yük altında termal durumlar izlenmeye açık mı? – [ ] VRAM ve Swap Ayarı: Linux veya Windows’da swap alanı, RAM kullanımlarına göre (örneğin 32GB+ RAM için 128GB+ swap) konfigüre edildi mi?

Sorun Giderme ve Yaygın Hata Analizi

Bu sistemde karşılaşacağınız sorunlar genellikle donanım arızasından ziyade, yapılandırma hatalarından veya termal sınırlamalardan kaynaklanır. İşte en sık karşılaşılan durumlar ve çözüm yaklaşımları.

Problem 1: 3. Kart Görünmüyor veya PCIe x4’de Takılıyor
– Belirti: Sistem, 3. RTX 3090’ı görüyor ancak performans %20’nin altında.
– Kök Neden: TRX40’te 64 PCIe lane vardır. 3x GPU kullanıldığında, bazı slotlar otomatik olarak x8 veya x4’e düşer. Eğer BIOS ayarları “Auto” ise, 3. kart x4’e düşebilir.
– Çözüm: BIOS’ta PCIe Lane configuration’ı manuel olarak kontrol edin. Eğer x4’e düşüyorsa, 3. kartı PCIe x8 slotuna kaydırın (varsa) veya donanım sınırlarını kabul edip iş yükünü buna göre optimize edin. PCIe x4’ü sadece model yükleme için kullanın, sürekli inference için x8 veya x16 gereklidir.
– Ekstra Not: 3x 3090’ın biri çalışmıyorsa, PCIe slotunun tozlanıp tozlanmadığını veya kablo bağlantısını kontrol edin.

Problem 2: GPU Sıcaklığı 90°C’yi Geçiyor ve Termal Throttling
– Belirti: İşlemci yükü %100 iken, GPU sıcaklıkları hızla artıyor ve performans düşüyor.
– Kök Neden: Hava akışı bozuk veya VRM sıcaklığı yüksek. TRX40 platformu, GPU’ların arkasında kalan ısıyı kabin içinde hapsedebilir.
– Çözüm: Fan hız eğrilerini (fan curve) manuel olarak ayarlayın. Hava akışını artırın. Eğer sorun devam ederse, PSU veya anakart VRM sıcaklığını kontrol edin. VRM aşırı ısınır ise, sistemin kapanması veya yavaşlaması kaçınılmazdır.
– Ekstra Not: 3090’ların hotspots’ları 100°C+ olabilir. Bu, VRAM’ın (GDDR6X) aşırı ısınmasından kaynaklanır. VRAM sıcaklığını düşürmek için GPU fan hızını %100’e yakın bir seviyeye ayarlayın.

Problem 3: Ollama/vLLM Çalışmıyor veya “Out of Memory” Hatası
– Belirti: Model yüklenirken bellek hatası alınıyor veya işlem sona eriyor.
– Kök Neden: Toplam VRAM (24GB x 3 = 72GB) model parametrelerine ve context uzunluğuna yetmiyor. DDR4 RAM’in bant genişliği yetersiz kalıyor.
– Çözüm: Modeli daha düşük quantize (Q4_K_M, Q5_K_M) bir formatta yükleyin. Context uzunluğunu (max_tokens) azaltın. Eğer RAM yeterliyse, sistem swap alanını artırın ancak bunun performans etkisi olacağını unutmayın.
– Ekstra Not: 70B model için 3x 3090 (72GB VRAM) yetmeyebilir. 70B model (Q4 quantize) yaklaşık 40-45GB VRAM gerektirir. 3x 3090 ile çalışabilir ancak bellek yönetimi çok kritiktir.

Problem 4: Sistem Kararsızlığı veya Anlık Çöküşler
– Belirti: Rastgele çöküşler veya “Blue Screen of Death” (BSOD).
– Kök Neden: PSU yetersiz kalabilir, RAM uyumsuzluğu veya termal geçişler.
– Çözüm: PSU yükünü ölçün. RAM’i (256 GB) tek tek test edin. BIOS ayarlarını fabrika varsayılanlarına döndürüp, yavaş yavaş artırın.

Karşılaştırma Tablosu: Model Yükleme ve Yönetim Stratejileri

Özellik	vLLM (vLLM)	llama.cpp (GGUF)	Ollama
Maksimum VRAM Verimi	Yüksek (Paged Attention)	Orta (CPU/GPU karışık)	Düşük (Otomatik optimizasyon)
TTFT (İlk Token Zamanı)	En Düşük	Orta/Yüksek	Orta
Model Büyüklüğü Desteği	13B – 70B+ (Quantize)	7B – 70B+ (Quantize)	7B – 70B+ (Quantize)
Kurulum Karmaşıklığı	Orta (Python/Container)	Düşük/Orta (C++/Binary)	Düşük (Single Binary)
Yerel Sunucu için Uygunluk	Yüksek (Yüksek TPS)	Yüksek (Esneklik)	Orta (Basitlik)
Kritik Nokta	Bellek Yönetimi	Model Quantize Seviyesi	Kullanıcı Arayüzü

Pratik Senaryo: Model Değişimi ve Bellek Yönetimi

Sistemde model değiştirmek, 3x 3090’ın tamamını kullandığınızda en zorlu adımdır. vLLM, bellek yönetimi için “Paged Attention” kullanır ancak bu, modelin bellekten silinip yeniden yüklenmesi gerektiğinde, PCIe bant genişliğinin sınırlarını gösterir.

Örneğin, 30B modelini (Q4 quantize) çalıştırırken, 3x 3090’ın her birinde 12GB VRAM kullanılır. Toplam 36GB VRAM doludur. 70B modelini (Q4 quantize) yüklemek için 45GB VRAM gerekir. Sistem, RAM’den VRAM’a veri aktarımı yapar. Bu işlem, PCIe x8 veya x4 yoluyla yapılır ve 10-20 saniye sürer. Bu süre, “model değiştirme” olarak adlandırılır. Eğer bu işlemi sık yaparsanız, sistem sürekli “transfer” modunda kalır ve gerçek inference performansı düşer.

Çözüm: Modeli, VRAM’ın %80’ini kullanacak şekilde ayarlayın. 3x 3090’ın her birinde 18GB VRAM kullanın. Toplam 54GB VRAM. Bu, 70B modeli (Q4) için yeterli olabilir. Ancak, 70B model (Q4) 45GB VRAM gerektirir. 3x 3090’ın tamamı kullanılır. 70B modeli (Q4) yüklenirken, 3x 3090’ın her birinde 15GB VRAM kullanılır. Toplam 45GB VRAM. Bu, 3x 3090’ın tamamını kullanır.

Model değişimi sırasında, RAM’den VRAM’a veri aktarımı, PCIe bant genişliğinin sınırlarını gösterir. Bu, sistemin “transfer” modunda kalmasına neden olur. Gerçek inference performansı, model değişimi sırasında düşer. Bu, “model değiştirme” zamanının uzaması anlamına gelir.

Sıkça Sorulan Sorular (SSS)

1. TRX40 platformu 3x 3090 ile ne kadar ısınır?
TRX40 ve 3x 3090 kombinasyonu, kabin içinde ciddi bir ısı birikimi oluşturur. Termal olarak, GPU sıcaklıkları 85-95°C arasına çıkabilir. Ancak en kritik nokta, VRM ve RAM sıcaklığıdır. TRX40’un VRM’leri, bu yoğunlukta 70°C’yi geçerse, performans düşüşü başlar. Kabin havasını soğutmak için ekstra fanlar veya sıvı soğutma gereklidir.

2. vLLM ve llama.cpp arasında bu donanımda fark nedir?
vLLM, yüksek throughput ve düşük TTFT için optimize edilmiştir. Modelin bellekte kalması ve hızlıca yanıt vermesi için idealdir. llama.cpp ise, modelin CPU ve GPU arasında bölünmesi veya sadece GPU kullanımı için daha esnektir. 3x 3090 gibi büyük bir sistemde, vLLM genellikle daha hızlıdır, ancak llama.cpp daha fazla model türünü destekler.

3. Elektrik faturası ne kadar artar?
3x 3090 + Threadripper 3960X, yük altında yaklaşık 1.2-1.5 kW çeker. Sürekli çalıştırıldığında, aylık elektrik faturası %20-30 artabilir. Ayrıca, soğutma maliyeti (fanlar, havalandırma) de eklenir.

4. PCIe x4/x8 darboğazı performansımı ne kadar etkiler?
PCIe x4, model yükleme sırasında kritik bir darboğazdır. Inference sırasında, x8 veya x16 yeterli olabilir. Ancak, model değiştirme sırasında x4, süreyi 2-3 kat artırır. TRX40’te PCIe lane dağılımı, bu darboğazı önlemek için önemlidir.

5. Bu sistemle 70B parametreli modeli çalıştırabilir miyim?
Evet, 3x 3090 (72GB VRAM) 70B modeli (Q4 quantize) için yeterlidir. Ancak, modelin VRAM’ı %100 kullanması gerekir. Bu durumda, model değişimi sırasında RAM’den VRAM’a veri aktarımı kritik bir rol oynar.

6. 3x 3090 için BIOS ayarları nasıl yapılmalı?
BIOS’ta PCIe lane ayarlarını manuel olarak kontrol edin. 3x 3090 için x16/x16/x4 veya x16/x8/x8 ayarları kullanılmalıdır. Auto ayarlar, bazı durumlarda x4’e düşebilir.

7. vLLM ile 3x 3090’ı nasıl optimize ederim?
vLLM için, modelin bellekte kalmasını sağlayın. Model değişimi sırasında, RAM’den VRAM’a veri aktarımını minimize edin. Modelin quantize seviyesini ayarlayın.

UrbanObserver

Subscribe to newsletter

Movies

TV Shows

Music

Celebrity

Scandals

Drama

Lifestyle

Health

Technology

Company