Evaluation

Model quality & serving metrics

Benchmarks across Thai understanding, reasoning, safety and real-world serving performance.

Leaderboard

Model ExamMathInstructChat/GenTranslateNLULegalSafety Overall
1 Typhoon2-8B 74 56 70 71 78 80 58 93 73
2 Qwen-Thai-SFT ours 71 58 74 68 82 79 55 91 72
3 Sailor2-8B 69 60 67 63 84 76 52 86 70
4 Qwen2.5-7B (base) 64 55 66 55 80 74 41 84 65
5 OpenThaiGPT-7B 66 47 61 60 75 77 49 88 65

แถวไฮไลต์ = โมเดลของเรา · เปิด Δ เพื่อดูว่าดีขึ้น/ถอยจาก base · คะแนน normalize 0–100

Capability Radar

Exam Math Instruct Chat/Gen Translate NLU Legal Safety
Qwen-Thai-SFT Qwen2.5-7B (base)

Serving metrics

Average Latency

412 ms

First token, B200, batch 1

Throughput

64.5 tokens/s

Single stream decode

Error Rate

0.4 %

Last 24h

Uptime

99.95 %

Last 30 days

Submit eval results — API

POST /eval/{model_id}

ส่งผล eval หลาย task ของแต่ละโมเดลเข้ามา แล้ว Leaderboard + Radar จะอัปเดตตาม (task keys: exam, math, inst, chat, trans, nlu, legal, safe · ค่า 0–100)

curl -X POST https://your-host/eval/Qwen-Thai-SFT \
  -H "Content-Type: application/json" \
  -d '{
    "name": "Qwen-Thai-SFT",
    "tasks": { "exam": 71, "math": 58, "inst": 74, "safe": 91 }
  }'

เอกสารฉบับเต็มที่ web/EVAL_API.md