v1.0 — RTX 50xx Blackwell desteği

Sıfırdan yazılmış CUDA GPT eğitim motoru.

PyTorch yok. TensorFlow yok. Sadece cuBLAS, elle yazılmış CUDA kernel'ları ve modern C++20. 5070 Ti üstünde 400M parametreye kadar tam GPT eğitimi.

Hızlı Başlangıç Mimariyi gör

Python bağımlılığı

M parametre (XL preset)

% C++ / CUDA

Hazır model boyutu

██╗  ██╗ █████╗ ███████╗███╗   ███╗     █████╗ ██╗
╚██╗██╔╝██╔══██╗██╔════╝████╗ ████║    ██╔══██╗██║
 ╚███╔╝ ███████║███████╗██╔████╔██║    ███████║██║
 ██╔██╗ ██╔══██║╚════██║██║╚██╔╝██║    ██╔══██║██║
██╔╝ ██╗██║  ██║███████║██║ ╚═╝ ██║    ██║  ██║██║
╚═╝  ╚═╝╚═╝  ╚═╝╚══════╝╚═╝     ╚═╝    ╚═╝  ╚═╝╚═╝

RMSNorm· RoPE· SwiGLU FFN· Causal Self-Attention· AdamW· Cosine LR· Gradient Clipping· Top-k / Top-p· TF32 Tensor Cores· Weight Tying· BPE Tokenizer· Checkpoint I/O· RMSNorm· RoPE· SwiGLU FFN· Causal Self-Attention· AdamW· Cosine LR· Gradient Clipping· Top-k / Top-p· TF32 Tensor Cores· Weight Tying· BPE Tokenizer· Checkpoint I/O·

Ne var içinde

Header-only CPU çekirdeği,
elle yazılmış GPU motoru.

XasmAI iki katmanlıdır: okumak ve öğrenmek için tasarlanmış, tamamen header-only bir C++20 CPU çekirdeği — ve 5070 Ti'yi sınıra çekmek için optimize edilmiş, native CUDA tabanlı bir GPT eğitim motoru.

▮

CPU çekirdeği

header-only

Tek #include ile çalışan, bağımlılıksız C++20 kütüphanesi. Eğitim teorisini görerek öğrenmek için ideal.

Matris, katman ve aktivasyonlar — ReLU, GELU, SiLU, Tanh, Softmax
Loss fonksiyonları — MSE, BCE, Cross-Entropy
Optimizer'lar — SGD, Momentum, Adam
LSTM, Attention, Transformer blokları
BPE tokenizer (saf C++)

⚡

CUDA GPT motoru

native

Modern GPT mimarisi, üretim kalitesinde optimizasyonlar — hepsi elle yazılmış kernel'lar ve cuBLAS üstünde.

RMSNorm + RoPE + SwiGLU FFN + causal self-attention
AdamW + cosine LR schedule + warmup
Gradient clipping (global L2 norm)
Top-k / top-p sampling
TF32 tensor core matmul (cuBLAS)
Weight tying — input/output embedding
Checkpoint kaydet/yükle + SIGINT ile güvenli kapanış
Pre-allocated workspace — per-step allocation yok

Mimari

Modern transformer, açık kodda.

Her blok, kara kutu değil. Her satır, okunabilir. Aşağıdaki forward path tek bir CUDA dosyasında bulunur.

Token + Position

Embedding tablosu, RoPE ile pozisyonel rotasyon. Weight tying'le çıkışla paylaşılır.

RMSNorm

LayerNorm yerine RMSNorm — daha hızlı, modern LLM standardı.

Causal Attention

Multi-head causal self-attention. Q/K/V projection cuBLAS, mask elle yazılmış kernel.

SwiGLU FFN

SiLU(xW₁) ⊙ (xW₂) · W₃ — Llama benzeri gated MLP, ReLU yerine.

Residual + Norm

Pre-norm residual yapısı — derin ağ için stabil gradyan akışı.

Logits + Sampling

Temperature, top-k ve top-p ile çeşitlilik kontrolü; tied output projection.

Pre-allocated workspace

Zero per-step alloc

TF32 tensor cores

FP32 master weights

SIGINT-safe shutdown

Hazır presetler

Tiny'den XL'e — tek komut.

Wizard'da bir sayı seç, model boyutu otomatik kurulsun. Veya kendin gir.

Preset	dim	heads	layers	Parametre	Hedef VRAM
Tiny	128	4	4	~1M	<1 GB	Hızlı deney
Small	256	8	6	~10M	~2 GB	Karakter düzeyi
Medium	512	8	8	~50M	~6 GB	Domain SLM
Large	768	12	12	~150M	~12 GB	Üretim kalitesi
XL	1024	16	16	~400M	~15 GB	5070 Ti sınırı
Özel	Tüm hiperparametreleri elle gir — dim, heads, layers, ff, seq, lr, steps…

Hızlı başlangıç

İki yol: çift tıkla, ya da CLI.

Windows + RTX 50xx için derlenmiş gpt_cuda.exe hazırdır. Wizard her şeyi sorar — corpus, model, learning rate, adım sayısı.

XasmAI — interactive wizard

$ gpt_cuda.exe

[XasmAI v1.0 — CUDA 12.x — sm_120]

? Mod seç:
  ▶ 1) Yeni eğit
    2) Devam et (--resume)
    3) Sadece metin üret

? Corpus dosyası:
  ▶ corpus.txt    (1.2 KB)
    data.txt      (1.5 KB)

? Model boyutu:
  ▶ Medium  — dim 512, layers 8 (~50M)

? Adım sayısı: 100000
? Learning rate: 3e-4

✓ Eğitim başlıyor...
step    100 | loss 5.812 | lr 3.0e-05 | tok/s 24,118
step    500 | loss 4.214 | lr 1.5e-04 | tok/s 24,602
step   1000 | loss 3.018 | lr 3.0e-04 | tok/s 24,711
█

XasmAI — CLI mode

$ ./gpt_cuda.exe corpus.txt \
    --dim 512 --heads 8 --layers 8 \
    --ff 2048 --seq 256 \
    --lr 3e-4 --steps 100000 --warmup 1000 \
    --clip 1.0 --top-k 40 --top-p 0.95 \
    --ckpt my_model

# devam etmek için:
$ ./gpt_cuda.exe --resume my_model_latest.bin

# inference modu komutları:
  /temp 0.5    sampling sıcaklığı
  /len 300     üretim uzunluğu
  /q           çıkış

✓ checkpoint yazıldı: my_model_latest.bin

Derleme — GPU mimarisine göre

make gpt_cuda CUDA_ARCH=sm_120 RTX 50xx · Blackwell

make gpt_cuda CUDA_ARCH=sm_89 RTX 40xx · Ada

make gpt_cuda CUDA_ARCH=sm_86 RTX 30xx · Ampere

make gpt_cuda CUDA_ARCH=sm_75 RTX 20xx · Turing

Gereksinimler: CUDA Toolkit 12+, C++20 derleyici, cuBLAS. CPU-only örnekler için: make xor regression agent gan gpt

Gerçekçi kullanım

"Mini GPT" değil — domain motorudur.

Trilyon token pre-train için değil. Asıl güçlü olduğu üç senaryo şunlar.

Domain SLM

ERP, kod, log analizi, yapısal görevler için 10M – 200M parametrelik özel model. Kendi corpus'unla eğit, kendi makinene koy.

Araştırma & öğrenme

CUDA kernel + transformer matematiğini soyutlamasız, okunabilir kodda görmek isteyen herkes için. Black-box yok.

Fine-tune tabanı

Açık ağırlık loader yol haritasında — Qwen / Llama / Mistral ağırlıklarına LoRA fine-tuning yakında.

Yol haritası

Sırada ne var?

v1.0 sağlam bir taban. Aşağıdaki adımlar performansı 2-5x artıracak ve XasmAI'yi açık-ağırlık ekosistemine bağlayacak.

FP16 / BF16 mixed precision

Tensor core hızlanması — eğitim 2-3x hızlanır, VRAM yarıya iner.
KV-cache'li inference

Uzun metin üretiminde her token sabit zamanda — generation 5-10x daha hızlı.
Gradient accumulation

Tek GPU'da büyük effective batch size — daha stabil eğitim sinyali.
FlashAttention-tarzı fused softmax

Uzun context (4K+ seq) için memory-efficient attention.
BPE tokenizer entegrasyonu

Char-level yerine — daha kısa context, daha iyi semantik.
LoRA fine-tuning

Düşük-rank adapter'larla az VRAM'da büyük model fine-tune.
Açık ağırlık loader

Qwen, Llama ve Mistral checkpoint'lerini doğrudan yükle.

Şimdi başla

Tek `.exe`. Sıfır kurulum.

Windows için derlenmiş binary'i indir, corpus'unu hazırla, çift tıkla. Ya da kaynaktan derle — tüm CUDA mimarileri destekleniyor.

gpt_cuda.exe · 537 KB README.md

Lisans MIT

Diller C++20 · CUDA

Bağımlılık cuBLAS

Platform Windows · Linux

Hedef RTX 20xx → 50xx

Sıkça sorulanlar

Neden PyTorch yok?

Transformer matematiğini ve CUDA kernel'larını soyutlamadan görmek için. Aynı zamanda bağımlılık zinciri sıfır — tek .exe, taşınabilir, embedded sistemlere uygun.

Hangi ekran kartı gerekli?

CUDA destekli herhangi bir NVIDIA GPU — sm_75 ve üstü. Tiny preset 4 GB VRAM'lı bir kartta bile çalışır; XL preset için 16 GB önerilir.

ChatGPT yerine kullanabilir miyim?

Hayır — ve bu zaten amacı değil. XasmAI kendi domain'inde küçük, hızlı, lokal çalışan bir model eğitmek için tasarlandı. ERP log analizi, kod tamamlama, yapısal metin üretimi gibi dar görevlerde mükemmeldir.

Eğitim ne kadar sürer?

Corpus boyutuna ve preset'e bağlı. Tiny + 1MB metin → birkaç dakika. Medium + 100MB metin → birkaç saat. Eğitim sırasında SIGINT (Ctrl+C) ile güvenle durdurabilir, sonra --resume ile devam edebilirsin.

Linux'ta çalışır mı?

Evet. make gpt_cuda CUDA_ARCH=sm_XX ile derle — Makefile cross-platform.

Sıfırdan yazılmış CUDA GPT eğitim motoru.

Token + Position

RMSNorm

Causal Attention

SwiGLU FFN

Residual + Norm

Logits + Sampling

Derleme — GPU mimarisine göre

Domain SLM

Araştırma & öğrenme

Fine-tune tabanı

FP16 / BF16 mixed precision

KV-cache'li inference

Gradient accumulation

FlashAttention-tarzı fused softmax

BPE tokenizer entegrasyonu

LoRA fine-tuning

Açık ağırlık loader

Tek .exe. Sıfır kurulum.

Sıkça sorulanlar

Tek `.exe`. Sıfır kurulum.