v1.0 — RTX 50xx Blackwell desteği

Sıfırdan yazılmış CUDA GPT eğitim motoru.

PyTorch yok. TensorFlow yok. Sadece cuBLAS, elle yazılmış CUDA kernel'ları ve modern C++20. 5070 Ti üstünde 400M parametreye kadar tam GPT eğitimi.

0
Python bağımlılığı
0
M parametre (XL preset)
0
% C++ / CUDA
0
Hazır model boyutu
Ne var içinde

Header-only CPU çekirdeği,
elle yazılmış GPU motoru.

XasmAI iki katmanlıdır: okumak ve öğrenmek için tasarlanmış, tamamen header-only bir C++20 CPU çekirdeği — ve 5070 Ti'yi sınıra çekmek için optimize edilmiş, native CUDA tabanlı bir GPT eğitim motoru.

CPU çekirdeği

header-only

Tek #include ile çalışan, bağımlılıksız C++20 kütüphanesi. Eğitim teorisini görerek öğrenmek için ideal.

  • Matris, katman ve aktivasyonlar — ReLU, GELU, SiLU, Tanh, Softmax
  • Loss fonksiyonları — MSE, BCE, Cross-Entropy
  • Optimizer'lar — SGD, Momentum, Adam
  • LSTM, Attention, Transformer blokları
  • BPE tokenizer (saf C++)

CUDA GPT motoru

native

Modern GPT mimarisi, üretim kalitesinde optimizasyonlar — hepsi elle yazılmış kernel'lar ve cuBLAS üstünde.

  • RMSNorm + RoPE + SwiGLU FFN + causal self-attention
  • AdamW + cosine LR schedule + warmup
  • Gradient clipping (global L2 norm)
  • Top-k / top-p sampling
  • TF32 tensor core matmul (cuBLAS)
  • Weight tying — input/output embedding
  • Checkpoint kaydet/yükle + SIGINT ile güvenli kapanış
  • Pre-allocated workspace — per-step allocation yok
Mimari

Modern transformer, açık kodda.

Her blok, kara kutu değil. Her satır, okunabilir. Aşağıdaki forward path tek bir CUDA dosyasında bulunur.

01

Token + Position

Embedding tablosu, RoPE ile pozisyonel rotasyon. Weight tying'le çıkışla paylaşılır.

02

RMSNorm

LayerNorm yerine RMSNorm — daha hızlı, modern LLM standardı.

03

Causal Attention

Multi-head causal self-attention. Q/K/V projection cuBLAS, mask elle yazılmış kernel.

04

SwiGLU FFN

SiLU(xW₁) ⊙ (xW₂) · W₃ — Llama benzeri gated MLP, ReLU yerine.

05

Residual + Norm

Pre-norm residual yapısı — derin ağ için stabil gradyan akışı.

06

Logits + Sampling

Temperature, top-k ve top-p ile çeşitlilik kontrolü; tied output projection.

Pre-allocated workspace
Zero per-step alloc
TF32 tensor cores
FP32 master weights
SIGINT-safe shutdown
Hazır presetler

Tiny'den XL'e — tek komut.

Wizard'da bir sayı seç, model boyutu otomatik kurulsun. Veya kendin gir.

Preset dim heads layers Parametre Hedef VRAM
Tiny 12844 ~1M <1 GB Hızlı deney
Small 25686 ~10M ~2 GB Karakter düzeyi
Medium 51288 ~50M ~6 GB Domain SLM
Large 7681212 ~150M ~12 GB Üretim kalitesi
XL 10241616 ~400M ~15 GB 5070 Ti sınırı
Özel Tüm hiperparametreleri elle gir — dim, heads, layers, ff, seq, lr, steps…
Hızlı başlangıç

İki yol: çift tıkla, ya da CLI.

Windows + RTX 50xx için derlenmiş gpt_cuda.exe hazırdır. Wizard her şeyi sorar — corpus, model, learning rate, adım sayısı.

XasmAI — interactive wizard
$ gpt_cuda.exe

[XasmAI v1.0 — CUDA 12.x — sm_120]

? Mod seç:
  ▶ 1) Yeni eğit
    2) Devam et (--resume)
    3) Sadece metin üret

? Corpus dosyası:
  ▶ corpus.txt    (1.2 KB)
    data.txt      (1.5 KB)

? Model boyutu:
  ▶ Medium  — dim 512, layers 8 (~50M)

? Adım sayısı: 100000
? Learning rate: 3e-4

 Eğitim başlıyor...
step    100 | loss 5.812 | lr 3.0e-05 | tok/s 24,118
step    500 | loss 4.214 | lr 1.5e-04 | tok/s 24,602
step   1000 | loss 3.018 | lr 3.0e-04 | tok/s 24,711
XasmAI — CLI mode
$ ./gpt_cuda.exe corpus.txt \
    --dim 512 --heads 8 --layers 8 \
    --ff 2048 --seq 256 \
    --lr 3e-4 --steps 100000 --warmup 1000 \
    --clip 1.0 --top-k 40 --top-p 0.95 \
    --ckpt my_model

# devam etmek için:
$ ./gpt_cuda.exe --resume my_model_latest.bin

# inference modu komutları:
  /temp 0.5    sampling sıcaklığı
  /len 300     üretim uzunluğu
  /q           çıkış

✓ checkpoint yazıldı: my_model_latest.bin

Derleme — GPU mimarisine göre

make gpt_cuda CUDA_ARCH=sm_120 RTX 50xx · Blackwell
make gpt_cuda CUDA_ARCH=sm_89 RTX 40xx · Ada
make gpt_cuda CUDA_ARCH=sm_86 RTX 30xx · Ampere
make gpt_cuda CUDA_ARCH=sm_75 RTX 20xx · Turing

Gereksinimler: CUDA Toolkit 12+, C++20 derleyici, cuBLAS. CPU-only örnekler için: make xor regression agent gan gpt

Gerçekçi kullanım

"Mini GPT" değil — domain motorudur.

Trilyon token pre-train için değil. Asıl güçlü olduğu üç senaryo şunlar.

01

Domain SLM

ERP, kod, log analizi, yapısal görevler için 10M – 200M parametrelik özel model. Kendi corpus'unla eğit, kendi makinene koy.

02

Araştırma & öğrenme

CUDA kernel + transformer matematiğini soyutlamasız, okunabilir kodda görmek isteyen herkes için. Black-box yok.

03

Fine-tune tabanı

Açık ağırlık loader yol haritasında — Qwen / Llama / Mistral ağırlıklarına LoRA fine-tuning yakında.

Yol haritası

Sırada ne var?

v1.0 sağlam bir taban. Aşağıdaki adımlar performansı 2-5x artıracak ve XasmAI'yi açık-ağırlık ekosistemine bağlayacak.

  1. FP16 / BF16 mixed precision

    Tensor core hızlanması — eğitim 2-3x hızlanır, VRAM yarıya iner.

  2. KV-cache'li inference

    Uzun metin üretiminde her token sabit zamanda — generation 5-10x daha hızlı.

  3. Gradient accumulation

    Tek GPU'da büyük effective batch size — daha stabil eğitim sinyali.

  4. FlashAttention-tarzı fused softmax

    Uzun context (4K+ seq) için memory-efficient attention.

  5. BPE tokenizer entegrasyonu

    Char-level yerine — daha kısa context, daha iyi semantik.

  6. LoRA fine-tuning

    Düşük-rank adapter'larla az VRAM'da büyük model fine-tune.

  7. Açık ağırlık loader

    Qwen, Llama ve Mistral checkpoint'lerini doğrudan yükle.

Şimdi başla

Tek .exe. Sıfır kurulum.

Windows için derlenmiş binary'i indir, corpus'unu hazırla, çift tıkla. Ya da kaynaktan derle — tüm CUDA mimarileri destekleniyor.

Lisans MIT
Diller C++20 · CUDA
Bağımlılık cuBLAS
Platform Windows · Linux
Hedef RTX 20xx → 50xx

Sıkça sorulanlar

Neden PyTorch yok?

Transformer matematiğini ve CUDA kernel'larını soyutlamadan görmek için. Aynı zamanda bağımlılık zinciri sıfır — tek .exe, taşınabilir, embedded sistemlere uygun.

Hangi ekran kartı gerekli?

CUDA destekli herhangi bir NVIDIA GPU — sm_75 ve üstü. Tiny preset 4 GB VRAM'lı bir kartta bile çalışır; XL preset için 16 GB önerilir.

ChatGPT yerine kullanabilir miyim?

Hayır — ve bu zaten amacı değil. XasmAI kendi domain'inde küçük, hızlı, lokal çalışan bir model eğitmek için tasarlandı. ERP log analizi, kod tamamlama, yapısal metin üretimi gibi dar görevlerde mükemmeldir.

Eğitim ne kadar sürer?

Corpus boyutuna ve preset'e bağlı. Tiny + 1MB metin → birkaç dakika. Medium + 100MB metin → birkaç saat. Eğitim sırasında SIGINT (Ctrl+C) ile güvenle durdurabilir, sonra --resume ile devam edebilirsin.

Linux'ta çalışır mı?

Evet. make gpt_cuda CUDA_ARCH=sm_XX ile derle — Makefile cross-platform.