Evaluation
Model quality & serving metrics
Benchmarks across Thai understanding, reasoning, safety and real-world serving performance.
Leaderboard
แถวไฮไลต์ = โมเดลของเรา · เปิด Δ เพื่อดูว่าดีขึ้น/ถอยจาก base · คะแนน normalize 0–100
Capability Radar
Qwen-Thai-SFT Qwen2.5-7B (base)
Serving metrics
Average Latency
412 ms
First token, B200, batch 1
Throughput
64.5 tokens/s
Single stream decode
Error Rate
0.4 %
Last 24h
Uptime
99.95 %
Last 30 days
Submit eval results — API
POST /eval/{model_id}ส่งผล eval หลาย task ของแต่ละโมเดลเข้ามา แล้ว Leaderboard + Radar จะอัปเดตตาม (task keys: exam, math, inst, chat, trans, nlu, legal, safe · ค่า 0–100)
curl -X POST https://your-host/eval/Qwen-Thai-SFT \
-H "Content-Type: application/json" \
-d '{
"name": "Qwen-Thai-SFT",
"tasks": { "exam": 71, "math": 58, "inst": 74, "safe": 91 }
}' เอกสารฉบับเต็มที่ web/EVAL_API.md