Ollama vs. vLLM vs. llama.cpp: Yerel LLM Dağıtımı İçin Pratik Karşılaştırma

Bu bölüm, Ollama vllm llama cpp üzerine odaklanır, İçindekiler

Ollama vllm llama cpp: Neden Önemli: Maliyet, Gizlilik ve Kontrol
Tartışma Adayları: Ollama, vLLM ve llama.cpp
Detaylı Karşılaştırma: Kullanım Senaryoları ve Mimari
Donanım Gereksinimleri: Gerçekte Neye İhtiyacınız Var
Adım Adım: Hızlı Sonuçlar İçin Ollama Kurulumu
Adım Adım: Yüksek Verimlilik İçin vLLM Dağıtımı
Adım Adım: CPU Verimliliği İçin llama.cpp Çalıştırma
Yaygın Arıza Modlarının Sorun Giderilmesi
Optimizasyon: Donanımınızdan En Fazlasını Almak
Güvenlik ve Bakım: Dağıtımınızı Koruma
Dağıtımdan Önce Doğrulama Kontrol Listesi
Dağıtımdan Sonra Güvenlik ve Bakım Kontrol Listesi
Risk ve Geri Alma Karar Matrisi
SSS
Sonuç

Ollama vllm llama cpp, bu rehberin ilk adımından itibaren merkezi konumdadır. Bulut API maliyetleri, sonsuza kadar görmezden gelebileceğiniz bir kalemin adı değildir. İç arama, kod yardımı veya belge özetleme için milyonlarca token işlediğinizde fatura katlanarak artar. Daha da önemlisi, üçüncü taraf bir sunucuya özel veriler, hukuki sözleşmeler veya tıbbi kayıtlar göndermek, birçok kuruluşun kabul edemeyeceği bir sorumluluk riski doğurur. İşte yerel LLM çıkarımına olan eğilimin hız kazanmasının nedeni. Bu sadece bir moda değil; kontrol, maliyet öngörülebilirliği ve veri egemenliği konularıyla ilgilidir.

Yine de, “yerel bir LLM çalıştırmak” tek bir eylem değildir. Bu bir altyapı seçimidir. Bu alandaki üç baskın motor Ollama vs vLLM vs llama.cpp’dir. Her biri farklı bir amaca hizmet eder, farklı donanım kısıtlamalarını hedefler ve kendi operasyonel risk setine sahiptir. Yanlış aracı seçmek, boşa harcanan donanım satın alımlarına, yavaş performansa veya güvenlik açıklarına yol açabilir.

Bu rehber, pazarlama gürültüsünü filtreleyerek bu araçların doğrudan, operatöre yönelik bir karşılaştırmasını sunmayı amaçlar. Nelerin bozulduğunu, ne kadar bellek tükettiklerini ve onları nasıl güvenli bir şekilde dağıtacağımızı inceleyeceğiz. Kendi elektrik faturasını ödeyen bir ev laboratuvarı meraklısı olun ya da güvenli bir iç API geliştiren bir DevOps mühendisi olun; Ollama, vLLM ve llama.cpp arasındaki farkları anlamak kritiktir.

Ollama vllm llama cpp: Neden Önemli: Maliyet, Gizlilik ve Kontrol

İstatiksel çıkarım iş yüklerini yerel makinelere veya kenar cihazlara taşıma kararı, üç zorlayıcı kısıtla belirlenir: maliyet, gizlilik ve özelleştirme. Bulut sağlayıcılar token başına ücret alıyor ve birim maliyet düşük görünse de toplam kullanım hızla artıyor. Bir AI kod asistanı kullanan geliştirme ekibi için, binlerce bağlam penceresi ve yeniden deneme maliyeti aylar içinde orta sınıf bir GPU sunucusunun fiyatını geçebilir. Yerel dağıtım, donanım maliyetini zamanla amorti eder. Elektrik faturasını ve başlangıç donanımını ödersiniz, ancak çıkarım işlemi kendisi ücretsiz hale gelir.

Gizlilik, birçok işletme için tartışmasız bir gerekliliktir. Hassas fikri mülkiyet veya kişisel tanımlayıcı bilgileri (PII) harici API’lere göndermek GDPR, HIPAA veya SOC2 gibi uyumluluk çerçevelerini ihlal eder. Modelleri yerel olarak çalıştırmak, verilerin ağ sınırınızdan çıkmadığını garanti eder. Bu sadece bir tercih değil; birçok sektör için yasal bir zorunluluk.

Kontrol, özel model ince ayarı ve sürüm sabitleme imkanı sunar. Sağlayıcının güncelleme takvimine veya model sonlandırma kararlarına karşı çaresiz değilsiniz. Alanınıza özel modelleri test edebilir, geri alabilir ve optimize edebilirsiniz. Bu düzeydeki kontrol, operasyonel olgunluk gerektirir. Donanımı yönetmeli, güncellemeleri ele almalı ve performansı izlemelisiniz. Ama karşılığı büyük: yığını kendiniz yönetirsiniz ve çıktıyı kontrol altında tutarsınız.

Katılımcılarla Tanışın: Ollama, vLLM ve llama.cpp

Doğru aracı seçmek için her bir altyapının ne için inşa edildiğini anlamanız gerekir. Bu üç araç—Ollama, vLLM ve llama.cpp—vakumda doğrudan rakipler değildir; farklı sorunları çözerler.

Ollama, kullanım kolaylığı için tasarlanmıştır. Modelleri, bağımlılıkları ve servis altyapısını tek, kullanıcı dostu bir ikili dosyada (binary) paketler. Kuantizasyon ve arka uç seçiminin karmaşıklığını soyutlar, bu da geliştiricilerin laptoplarında veya küçük sunucularda minimum yapılandırmayla bir model hızlıca çalıştırmasını sağlar. Yerel LLM’lerin “Hello World”i gibidir, ancak basit iç API’ler için de yeterince sağlamdır.

vLLM, işleme hacmi (throughput) için inşa edilmiştir. Belleği verimli yönetmek için PagedAttention gibi gelişmiş teknikler kullanır; bu da ona yüksek gecikme (latency) istikrarıyla birçok eş zamanlı isteği halletme imkânı tanır. Yüzlerce kullanıcıyı aynı anda karşılaymanız gereken üretim düzeyinde (production-grade) API servisleri için tercih edilen seçenektir. Kurulumu karmaşıktır ve dikkatli ayarlama gerektirir, ancak eş zamanlı ortamlardaki performans artışı belirleyicidir.

llama.cpp, verimliliğin omurgasıdır. C/C++ ile yazılmış olup, güçlü GPU’lara sahip olmayan donanımlarda çalışması için tasarlanmıştır. CPU tabanlı çıkarımda (inference) üstündür ve agresif kuantizasyonu destekler; bu sayede büyük modelleri sınırlı VRAM’e sahip cihazlarda veya hatta sadece sistem belleği (RAM) olan ortamlarda çalıştırmanızı sağlar. Ollama dahil birçok aracın arkasındaki motordur; ancak bağımsız bir araç olarak, kaynak kısıtlı ortamlar için maksimum esneklik ve minimum iş yükü sunar.

Detaylı Karşılaştırma: Kullanım Alanları ve Mimari

Ollama vs vLLM vs llama.cpp arasında seçim yaparken odak noktanız nedir? Geliştirici deneyimini mi, ham işleme gücünü mü yoksa donanım verimliliğini mi hedefliyorsunuz? Aşağıdaki tablo kritik farklılıkları net bir şekilde ortaya koyuyor.

Özellik	Ollama	vLLM	llama.cpp
Öncelikli Güç	Kullanım kolaylığı, hızlı prototipleme	Yüksek eşzamanlılık, düşük gecikme süresi	CPU verimliliği, düşük kaynak kullanımı
Kurulum Kolaylığı	Çok Kolay	Zor	Orta
Donanım Odak	GPU (NVIDIA/AMD/Metal)	GPU (NVIDIA H100/A100)	CPU, GPU ve Mobil
Küçültme (Quantization)	Otomatik (Varsayılan Q4_K_M)	FP16, INT8, FP8	Manuel (Q2’den Q8’e)
API Arayüzü	REST API (OpenAI uyumlu)	REST API (OpenAI uyumlu)	CLI, Sunucu (OpenAI uyumlu)
En Uygun Kullanım	Dev laptopları, küçük ekipler	Üretim ortamı API sunucuları	Kıyı cihazları, eski donanımlar
Topluluk Desteği	Büyük, aktif	Büyük, kurumsal odaklı	Büyük, geliştirici odaklı

Ollama, işe hızla başlamak istediğinizde doğru tercihtir. Model indirme, küçültme ve sunum işlemlerini tek komutla halleder. Bireysel geliştiriciler, küçük ekipler veya yeni modelleri test etmek için idealdir. Ancak yüksek eşzamanlı yük altında verimli ölçeklenmeyebilir; bu sınırını bilerek hareket edin.

vLLM, üretim ortamındaki API’ler için seçilen çözümdür. Eşzamanlı birçok kullanıcıyı yönetmesi gereken bir hizmet kuruyorsanız, vLLM’in PagedAttention algoritması bellek parçalanmasını en aza indirir ve işleme gücünü maksimize eder. Dağıtımı karmaşıktır ve önemli miktarda VRAM’a sahip NVIDIA GPU’ları gerektirir, ancak eşzamanlı çıkarım performansında rakipsizdir. Maliyeti ve karmaşıklığını göz önünde bulundurun.

llama.cpp, donanım kısıtlamaları ile başa çıkmanız gerektiğinde devreye girer. Güçlü bir GPU’nuz yoksa veya Apple Silicon veya Raspberry Pi gibi ARM tabanlı cihazlarda çalışıyorsanız, llama.cpp vazgeçilmezdir. Sistem RAM’ini kullanarak CPU’lar üzerinde büyük modeller çalıştırmanıza olanak tanır, ancak çıkarım hızları daha yavaştır. Birçok mobil ve kıyı (edge) yapay zeka uygulamasının temelini oluşturur; eski donanımda hayatta kalmak istiyorsanız işte çözüm.

Donanım Gereksinimleri: Aslında İhtiyacınız Olanlar

Yerel LLM projelerinin çoğu donanım kısmında çöker. Bellek gereksinimlerini hafife almak, bellek taşması (OOM) hatalarına, yavaş swap tabanlı çıkarımlara veya sistem çökmelerine yol açar. Model boyutu, nicelleme ve donanım arasındaki ilişkiyi anlamak hayati önem taşıyor.

GPU çıkarımı için en kritik kaynak VRAM (Video Belleği). Model tamamen VRAM’e sığıyorsa çıkarım hızlıdır. Sistem belleğine taşarsa performans ciddi şekilde düşer. CPU çıkarımında ise sistem RAM’i ve CPU önbellek boyutu darboğazdır.

Nicelleme, model ağırlıklarının hassasiyetini azaltarak doğruluğu bellek verimliliğiyle takas eder. Q4_K_M popüler bir denge noktasıdır; model boyutunu yarıya indirirken minimal kalite kaybı sağlar. Q8 daha yüksek kalite sunar ancak daha fazla bellek kullanır. Q2 aşırı sıkıştırılmıştır ve tutarsız çıktılara neden olabilir.

Aşağıdaki tablo, yaygın model boyutları için minimum donanım gereksinimlerini özetlemektedir. Bunlar tahminlerdir ve belirli model mimarisi ile motor ek yüküne göre değişebilir.

Model Boyutu	Nicelleme	Min VRAM (GPU)	Min RAM (CPU)	Notlar
7B Parametre	Q4_K_M	6 GB	8 GB	Çoğu modern GPU’ya sığar
7B Parametre	Q8_0	8 GB	12 GB	Daha yüksek kalite, daha fazla VRAM gerektirir
13B Parametre	Q4_K_M	8 GB	12 GB	Ayrılmış GPU veya büyük RAM gerektirir
70B Parametre	Q4_K_M	32 GB	48 GB	Çoklu GPU veya üst düzey sunucu gerektirir
70B Parametre	Q2_K	16 GB	24 GB	Agresif sıkıştırma, kalite kaybı

Ollama için, 8GB VRAM’li bir tüketici GPU’su (RTX 3060 veya 4060 gibi) 7B modellerini rahatlıkla çalıştırabilir. vLLM, eşzamanlılık özelliklerini etkili şekilde kullanmak için genellikle kurumsal sınıf GPU’lar (A100, H100) gerektirir, ancak tüketici kartlarında sınırlamalarla çalışabilir. llama.cpp neredeyse her cihazda çalışabilir, ancak CPU sınırlı sistemlerde performans yavaş olacaktır. İşletim sistemi ve diğer uygulamalar için her zaman boş alan bırakın.

Adım Adım: Hızlı Başlangıç İçin Ollama Kurulumu

Ollama, yerel LLM’ler için en kolay giriş noktasıdır. Model yönetimi ve sunum karmaşıklığını soyutlayarak, dakikalar içinde modellerle etkileşime geçmenizi sağlar. Bu bölüm, Linux ve macOS’ta temel kurulumu kapsar.

Öncelikle, resmi script’i kullanarak Ollama’yı kurun. Bu script, bağımlılıkları yönetir ve arka plan hizmetini ayarlar.

curl -fsSL https://ollama.com/install.sh | sh

Kurulduktan sonra, Ollama arka plan işlemi olarak çalışır. Çalıştığını doğrulamak için hizmet durumunu kontrol edebilir veya tarayıcınızda http://localhost:11434 adresini ziyaret edebilirsiniz. Bir model indirmek için ollama pull komutunu kullanın. Örneğin, Llama 3.2 modelini indirmek için:

ollama pull llama3.2

Modeli CLI’dan etkileşimli olarak veya API üzerinden çalıştırabilirsiniz. Etkileşimli bir sohbet başlatmak için:

ollama run llama3.2

API’yi kullanmak için /api/chat adresine bir POST isteği gönderin. Bu, birçok istemci kütüphanesiyle uyumludur. Ollama, çoğu model için varsayılan olarak Q4_K_M’i seçerek kuantizasyonu otomatik olarak yönetir. Model adının sonuna ekleyerek belirli bir kuantizasyon seviyesi belirleyebilirsiniz, örn. ollama pull llama3.2:q8_0.

Docker yapılandırmaları ve gelişmiş API kullanımı dahil olmak üzere daha detaylı kurulum talimatları için bkz. Ollama kurulum kılavuzu.

Adım Adım: Yüksek Verim İçin vLLM Dağıtımı

vLLM, yüksek eşzamanlılık ve düşük gecikmenin kritik olduğu üretim ortamları için tasarlanmıştır. Ollama’ya göre kurulumu biraz daha zahmetlidir ancak API servislemesinde üstün performans sunar. Bu örnek, dağıtımı basitleştirmek için Docker Compose kullanır.

Öncelikle Docker ve NVIDIA Container Toolkit’in yüklü olduğundan emin olun. Aşağıdaki yapılandırmayla bir docker-compose.yml dosyası oluşturun. Bu örnekte resmi vLLM imajı kullanılıyor.

version: '3.8'
services:
  vllm-server:
    image: vllm/vllm-openai:latest
    runtime: nvidia
    ports:
      - "8000:8000"
    environment:
      - HUGGING_FACE_HUB_TOKEN=${HUGGING_FACE_HUB_TOKEN}
    volumes:
      - ./data:/root/.cache/huggingface
    command: >
      --model meta-llama/Llama-3.2-3B-Instruct
      --max-model-len 4096
      --tensor-parallel-size 1

meta-llama/Llama-3.2-3B-Instruct kısmını kullanmak istediğiniz modelle değiştirin. --max-model-len parametresi bağlam penceresini kontrol eder. Birden fazla GPU kullanıyorsanız --tensor-parallel-size değerini ayarlayın.

Servisi şu komutla başlatın:

docker compose up -d

vLLM, http://localhost:8000/v1 adresinde OpenAI uyumlu bir API sunar. curl veya herhangi bir HTTP istemcisi ile test edebilirsiniz. vLLM’nin VRAM kullanımına hassas olduğunu unutmayın. OOM (Bellek Taşması) hataları alırsanız, max-model-len veya yığın boyutunu azaltın.

vLLM ve Ollama kullanarak GraphRAG kurulumları hakkında daha derinlemesine bilgi almak için bu GraphRAG yerel kurulum kılavuzuna bakın.

Adım Adım: CPU Verimliliği İçin llama.cpp Çalıştırma

llama.cpp, CPU çıkarımı (inference) veya düşük kaynaklı ortamlar için tartışmasız tercihtir. Manuel derleme veya ikili dosya indirme gerektirir; bunun karşılığında tam denetim sunar. Bu bölüm, llama.cpp’yi sunucu modunda çalıştırmayı kapsar.

Önce, önceden derlenmiş ikili dosyaları llama.cpp GitHub deposundan indirin. Arşivi çıkarın ve build/bin dizinine gidin.

GGUF formatında bir modele ihtiyacınız olacak. Depoda sağlanan convert.py betiğini kullanarak modelleri dönüştürebilir veya Hugging Face’ten önceden dönüştürülmüş GGUF dosyalarını indirebilirsiniz.

Sunucuyu aşağıdaki komutla çalıştırın. Bu örnek, 4-bit nicelleştirme (quantization) içeren bir 7B model kullanır.

./llama-server -m /path/to/llama-3.2-7b-instruct.Q4_K_M.gguf -c 4096 --threads 8 --port 8080

-c parametresi bağlam uzunluğunu belirler, --threads ise kullanılacak CPU iş parçacığı sayısını belirtir. Sunucu 8080 portunda başlayacak ve OpenAI uyumlu bir API açacaktır.

CPU çıkarımında performans, CPU’nuzun tek çekirdek hızına ve önbellek (cache) boyutuna büyük ölçüde bağlıdır. CPU çekirdek sayınıza uygun olarak --threads değerini kullanın, ancak aşırı fazla iş parçacığının aşırı yük (overhead) yarattığını unutmayın. Boğulmayı (throttling) önlemek için CPU kullanımını ve sıcaklığı izleyin; fanlarınızın uğultusu arttığında performans çöküşü zaten başlamıştır.

Yaygın Arıza Modlarının Giderilmesi

Yerel LLM dağıtımı, fişe takıp çalıştıracak türden bir iş değil. Donanım kısıtlamaları veya yapılandırma hataları nedeniyle sorunlar sıkça ortaya çıkar. İşte en yaygın problemler ve çözüm yolları.

Hafıza Dışı (OOM) Hataları: Bu en sık karşılaşılan sorundur. Model, VRAM veya RAM’e sığmadığında gerçekleşir. Çözüm önerileri:
1. Model boyutunu küçültün (örneğin, 13B yerine 7B kullanın).
2. Daha düşük bir nicelleme seviyesi kullanın (örneğin, Q8 yerine Q4).
3. Bağlam penceresini azaltın (--max-model-len).
4. vLLM kullanıyorsanız, GPU belleği dolduğunda CPU yönlendirmesini (offloading) etkinleştirin.

Yavaş Çıkarım Hızları: Eğer token üretimi yavaşlarsa, şunları kontrol edin:
1. Modelin tamamen VRAM’e yüklendiğinden emin olun. Sistem RAM’ini kullanıyorsa hız dramatik şekilde düşer.
2. CPU çıkarımı için, yeterli ama aşırı olmayan iş parçacığı sayısı kullandığınızdan emin olun.
3. Dizüstü bilgisayarlar veya sunucularda termal boğulma (thermal throttling) olup olmadığını kontrol edin.

Bağlam Penceresi Başarısızlıkları: Eğer model konuşmanın daha önceki kısımlarını unuttuysa veya belirli uzunluklarda çöküyorsa, bağlam penceresi mevcut bellek için çok büyük olabilir. Bağlam boyutunu küçültün ve kademeli olarak test edin.

API Bağlantı Hataları: Yerel API’ye bağlanamıyorsanız, güvenlik duvarı ayarlarını kontrol edin ve hizmetin doğru portta dinlediğinden emin olun. Bağlantıyı doğrulamak için curl localhost:<port>/v1/models komutunu kullanın.

Kapsamlı arıza giderme adımları ve geri alma prosedürleri için arıza giderme rehberine başvurun.

Optimizasyon: Donanımından Son Damlayı Sık

Yerel LLM performansını optimize etmek, hız, bellek ve kalite arasında bir denge kurmaktır. İşte ileri seviye ipuçları.

Kantileme Stratejileri: Kantilem her durumda aynı değildir. Q4_K_M iyi bir varsayılandır, ancak kritik görevler için Q8_0 veya FP16 gerekli olabilir. Sınırlı donanım için Q2_K büyük modelleri çalıştırılabilir hale getirebilir, ancak ciddi kalite düşüşü beklemelisiniz. Farklı kantileme seviyelerini test ederek kullanım senaryonuz için en uygun noktayı bulun.

Bağlam Penceresi Yönetimi: Daha uzun bağlamlar daha fazla bellek tüketir. Uzun konuşmalara ihtiyacınız yoksa, kaynakları serbest bırakmak için bağlam penceresini küçültün. RAG uygulamaları için, belgelerinizi modelin optimal bağlam aralığına sığacak şekilde parçalara ayırın.

Toplu İşleme ve Eş Zamanlılık: vLLM için, --max-num-seqs ve --gpu-memory-utilization parametrelerini ayarlayın. Daha yüksek GPU bellek kullanımı, bellekte daha fazla model bulundurmaya izin verir, ancak dinamik yükler için boşluğu azaltır. Optimal dengeyi bulmak için yük altındaki gecikmeleri izleyin.

Donanım Hızlandırması: Doğru sürücüler ve kütüphaneleri kullandığınızdan emin olun. NVIDIA GPU’lar için en son CUDA sürücülerini kullanın. Apple Silicon için Metal’in etkin olduğundan emin olun. Intel CPU’lar için daha hızlı çıkarım için AVX-512 desteğinin mevcut olup olmadığını kontrol edin.

Güvenlik ve Bakım: Dağıtımınızı Korumak

Yerel LLM’ler çalıştırmak, güvenliği göz ardı edebileceğiniz anlamına gelmez. LLM API’lerini uygun güvenlik önlemleri olmadan açmak, veri sızıntılarına, istem enjeksiyonlarına veya kaynak tüketimine yol açabilir.

Ağ Güvenliği: Kimlik doğrulama ve hız sınırlaması olmadan LLM API’nizi asla doğrudan internete açmayın. HTTPS uygulamak ve erişim kontrollerini yönetmek için bir ters proxy (Nginx veya Traefik gibi) kullanın. Erişimi iç ağlara veya belirli IP aralıklarına kısıtlayın.

Model Güncellemeleri: Modeller sık sık güncellenir. Üretim ortamına dağıtmadan önce yeni modelleri bir hazırlık ortamında test etmek için bir süreç oluşturun. Yenilenebilirliği sağlamak için model sürümlerini ve nicelleme seviyelerini takip edin.

İzleme: Kaynak kullanımını (CPU, GPU, bellek) ve API gecikmesini izleyin. Olmayan artışlar veya hatalar için uyarılar ayarlayın. Performans metriklerini görselleştirmek için Prometheus ve Grafana gibi araçları kullanın.

Veri Gizliliği: Yerel kurulumda bile, günlüklerin hassas kullanıcı verileri içermemesini sağlayın. Günlük seviyelerini uygun şekilde yapılandırın ve günlük dosyalarını güvence altına alın.

Detaylı güvenlik en iyi uygulamaları için güvenlik notlarına bakın.

Dağıtım Öncesi Doğrulama Kontrol Listesi

Yerel LLM’nizi dağıtmadan önce, her şeyin yerinde olduğundan emin olmak için bu kontrol listesini kullanın.

☐ Donanim Uyumluluğu: GPU/CPU’nuzun seçilen modelin ve kantizasyonun minimum gereksinimlerini karşıladığını doğrulayın.
☐ Yazılım Bağımlılıkları: Tüm sürücülerin (CUDA, Metal, ROCm) ve kütüphanelerin yüklü ve güncel olduğundan emin olun.
☐ Model Erişilebilirliği: Model dosyasının indirildiğini ve erişilebilir olduğunu onaylayın. Manuel olarak indirildiyse dosya bütünlüğünü kontrol edin.
☐ Kaynak Yedek Kapasitesi: İşletim sistemi ve diğer uygulamalar için yeterli boş bellek olduğundan emin olun. En az %20 yedek kapasite hedefleyin.
☐ Ağ Yapılandırması: API portunun erişilebilir olduğunu ve güvenlik duvarı kurallarının doğru şekilde yapılandırıldığını doğrulayın.
☐ Güvenlik Önlemleri: API maruz kalıyorsa kimlik doğrulama, hız sınırlaması ve HTTPS uygulayın.
☐ Yedekleme ve Geri Yükleme Planı: Sorun çıkarsa önceki bir modele veya yapılandırmaya geri dönmek için bir plana sahip olun.

Dağıtımdan Sonra Güvenlik ve Bakım Kontrol Listesi

Dağıtımdan sonra, istikrar ve güvenlik açısından sürekli bakım hayati önem taşır.

☐ Düzenli Güncellemeler: LLM motorunun (Ollama, vLLM, llama.cpp) güncellemelerini kontrol edin ve bunları önce bir hazırlık ortamında uygulayın.
☐ Log İzleme: Hataları, uyarıları ve şüpheli aktiviteleri loglarda inceleyin. Kritik hatalar için uyarılar kurun.
☐ Performans Ayarlamaları: Gecikme ve veri aktarım hızını izleyin. Performansı optimize etmek için yapılandırma parametrelerini gerektiğinde ayarlayın.
☐ Model Yeniden Eğitimi: İnce ayarlı modeller kullanıyorsanız, doğruluğu korumak için yeni verilerle periyodik yeniden eğitim planlayın.
☐ Güvenlik Denetimleri: Erişim kontrollerini, güvenlik duvarı kurallarını ve API yapılandırmalarını düzenli olarak denetleyin.
☐ Afeti Kalkınma: Hata durumunda servisleri hızlıca geri yükleyebildiğinizden emin olmak için yedekleme ve kurtarma prosedürlerinizi test edin.

Risk ve Geri Alma Karar Matrisi

Yeni modelleri veya motor güncellemelerini yayınlamak risk içerir. Ne zaman devam edeceğiniz, ne zaman geri alacağınız konusunda karar vermek için bu matrisi kullanın.

Senaryo	Risk Seviyesi	Aksiyon	Geri Alma Stratejisi
Yeni Model Sürümü	Orta	Önce hazırlık (staging) ortamına dağıt	Önceki model sürümüne dön
Motor Güncellemesi	Yüksek	İzole bir ortamda test et	Önceki motor sürümünü yeniden yükle
Kantileme Değişikliği	Düşük	Örnek istemlerle test et	Önceki kantilemeye geri geç
Donanım Yükseltmesi	Orta	Kararlılığı yakından izle	Önceki donanım yapılandırmasına dön
API Yapılandırma Değişikliği	Orta	Yük üreteciyle test et	Önceki yapılandırma dosyasını geri yükle

SSS

Ollama, vLLM veya llama.cpp’nin doğru seçim olduğu zamanlar?
Ollama, dizüstü bilgisayarlarda veya küçük sunucularda kolay kullanım ve hızlı prototipleme için en iyisidir. vLLM, yüksek eşzamanlılık ve düşük gecikme süresi gerektiren üretim API sunucuları için idealdir. llama.cpp ise GPU erişimi sınırlı olan CPU çıkarsama (inference), düşük kaynaklı ortamlar veya uç (edge) cihazlar için en iyi tercihtir.

Bu motorları implemente ederken en yaygın hata nedir?
En yaygın hata, VRAM kapasitesini abartmak veya kuantizasyon seviyelerini göz ardı etmektir. Kullanıcılar genellikle, donanımının yalnızca daha düşük hassasiyeti (Q4 veya Q2) desteklediği durumlarda, büyük modelleri yüksek hassasiyetle (Q8 veya FP16) çalıştırmaya çalışır. Bu durum da Bellek Hatası’na (OOM) veya son derece yavaş performansa yol açar. Dağıtımdan önce belirli modeliniz ve kuantizasyon seviyeniz için bellek gereksinimlerini her zaman kontrol edin.

Yerel LLM’leri kurduktan sonra neleri doğrulamalısınız?
Kurulum sonrası, bağlam penceresi limitlerini, yük altında gecikme süresini ve API uç noktası güvenliğini doğrulayın. Modelin çökmediğinden veya bağlamı unutmadığından emin olmak için çeşitli istem (prompt) uzunluklarıyla test yapın. Eşzamanlı istekler altındaki kararlılığı kontrol etmek için yük testi gerçekleştirin. Son olarak, API’nin uygun kimlik doğrulama ve hız sınırlama olmadan genel internete açılmadığından emin olun.

Birden fazla modeli aynı anda çalıştırabilir miyim?
Evet, ancak bu donanım kaynaklarınıza bağlıdır. Ollama, birden fazla modeli çalıştırmaya izin verir, ancak yeterli VRAM’iniz yoksa GPU belleğinde yalnızca biri aktif olabilir. vLLM, VRAM mevcut olduğunda birden fazla modeli eşzamanlı olarak hizmet verebilir. llama.cpp birden fazla örneği çalıştırabilir, ancak CPU ve bellek kullanımı artacaktır. Darboğazları önlemek için kaynak kullanımını izleyin.

Sonuç

Ollama, vLLM ve llama.cpp arasında seçim yaparken “en iyi” aracı bulmaya çalışmak yerine, belirli kısıtlamalarınıza uygun olanı bulmalısınız. Ollama basitlik sunar, vLLM yüksek veri işleme kapasitesi sağlar ve llama.cpp esneklik sunar. Güçlü yönlerini, donanım gereksinimlerini ve operasyonel riskleri anlayarak yerel LLM’leri maliyet etkin, güvenli ve performanslı bir şekilde dağıtabilirsiniz.

Yerel dağıtımın sürekli bir süreç olduğunu unutmayın. Donanım sınırları, model güncellemeleri ve güvenlik endişeleri sürekli dikkat gerektirir. Kararlı ve güvenli bir ortam sürdürmek için sağlanan kontrol listelerini ve sorun giderme kılavuzlarını kullanın. Yerel LLM kurulumu hakkında daha fazla eğitim için LLM kurulum eğitimleri bölümümüzü ziyaret edin.

Bu yerel modelleri kod asistanlarına bağlamaya ilgi duyuyorsanız, Claude Code ile yerel LLM’leri çalıştırmaya yönelik Unsloth kılavuzunu inceleyin. Ollama kullanarak Llama 3.2’yi yerel olarak çalıştırmanın daha derinlemesine bir analizine bakmak için Apidog eğitimine göz atın. 2025 yılında Ollama hakkında kapsamlı bir genel bakış için ise Collabnix kılavuzuna başvurun.

UrbanObserver

Subscribe to newsletter

Movies

TV Shows

Music

Celebrity

Scandals

Drama

Lifestyle

Health

Technology

Company