Research

How Super AI Engineer LLM is built

We share our methods openly — from tokenizer design to serving infrastructure.

Overview Coming soon

Technical Report

ภาพรวมสถาปัตยกรรมโมเดล วิธีการเทรน และผลการประเมินทั้งหมด

Read more →
Data Draft

Tokenizer Design

การออกแบบ tokenizer สำหรับภาษาไทย เพื่อลดจำนวน token และต้นทุน

Read more →
Data Draft

Dataset Pipeline

กระบวนการรวบรวม ทำความสะอาด และคัดกรองข้อมูลภาษาไทยคุณภาพสูง

Read more →
Training Coming soon

Pretraining Recipe

สูตรการ pretrain ตั้งแต่ต้น รวมถึง hyperparameters และ schedule

Read more →
Safety Draft

Safety Alignment

แนวทาง alignment และความปลอดภัยสำหรับบริบทภาษาและวัฒนธรรมไทย

Read more →
Eval Open source

Evaluation Harness

ชุดเครื่องมือและ benchmark สำหรับวัดคุณภาพโมเดลภาษาไทย

Read more →
Infra In progress

Serving Infrastructure

การ deploy บน B200 / LANTA ด้วย vLLM / TGI พร้อม streaming API

Read more →