Evaluation - Super AI Engineer LLM

Evaluation

Model quality & serving metrics

Benchmarks across Thai understanding, reasoning, safety and real-world serving performance.

Leaderboard

Model	Exam	Math	Instruct	Chat/Gen	Translate	NLU	Legal	Safety	Overall
1 Typhoon2-8B	74	56	70	71	78	80	58	93	73
2 Qwen-Thai-SFT ours	71	58	74	68	82	79	55	91	72
3 Sailor2-8B	69	60	67	63	84	76	52	86	70
4 Qwen2.5-7B (base)	64	55	66	55	80	74	41	84	65
5 OpenThaiGPT-7B	66	47	61	60	75	77	49	88	65

แถวไฮไลต์ = โมเดลของเรา · เปิด Δ เพื่อดูว่าดีขึ้น/ถอยจาก base · คะแนน normalize 0–100

Capability Radar

Qwen-Thai-SFT Qwen2.5-7B (base)

Serving metrics

Average Latency

412 ms

First token, B200, batch 1

Throughput

64.5 tokens/s

Single stream decode

Error Rate

0.4 %

Last 24h

Uptime

99.95 %

Last 30 days

Submit eval results — API

POST /eval/{model_id}

ส่งผล eval หลาย task ของแต่ละโมเดลเข้ามา แล้ว Leaderboard + Radar จะอัปเดตตาม (task keys: exam, math, inst, chat, trans, nlu, legal, safe · ค่า 0–100)

curl -X POST https://your-host/eval/Qwen-Thai-SFT \
  -H "Content-Type: application/json" \
  -d '{
    "name": "Qwen-Thai-SFT",
    "tasks": { "exam": 71, "math": 58, "inst": 74, "safe": 91 }
  }'

เอกสารฉบับเต็มที่ web/EVAL_API.md