วิธีรัน LLM บน GPU เครื่องเดียว (Local AI Server) แบบที่นักพัฒนาใช้จริง เพื่อสร้าง AI Chatbot ส่วนตัวเหมือน ChatGPT แต่รันบนเครื่องตัวเอง
ต่อไปนี้คือ วิธีรัน LLM บน GPU เครื่องเดียว (Local AI Server) แบบที่นักพัฒนาใช้จริง เพื่อสร้าง AI Chatbot ส่วนตัวเหมือน ChatGPT แต่รันบนเครื่องตัวเอง
ผมจะอธิบายตั้งแต่ Hardware → Software → Installation → Run Model
1. Hardware สำหรับ Local LLM
GPU สำคัญที่สุด
|
GPU |
VRAM |
ขนาด LLM ที่รันได้ |
|
NVIDIA RTX 3060 |
12GB |
7B (quantized) |
|
NVIDIA RTX 3090 |
24GB |
13B |
|
NVIDIA RTX 4090 |
24GB |
30B (quantized) |
CPU
8 – 16 cores
RAM
32 GB recommended
Storage
SSD 1TB
2. Software Stack
Stack ของ Local LLM
User Interface
↓
LLM Runtime
↓
Model
↓
CUDA
↓
GPU
เครื่องมือที่นิยม
Runtime
- Ollama
- LM Studio
- vLLM
Framework
- PyTorch
3. LLM Open Source ที่เหมาะกับ Local
โมเดลที่นิยม
|
Model |
Size |
|
LLaMA 3 |
8B |
|
Mistral 7B |
7B |
|
TinyLlama |
1.1B |
4. วิธีติดตั้ง Ollama (ง่ายที่สุด)
Step 1
ติดตั้ง
https://ollama.com
หรือ
brew install ollama
Step 2
รัน server
ollama serve
Step 3
ดาวน์โหลดโมเดล
ตัวอย่าง
ollama run llama3
5. ตัวอย่าง Chat กับ LLM
ollama run llama3
แล้วพิมพ์
Explain artificial intelligence
โมเดลจะตอบทันที
6. ใช้ Python เชื่อม LLM
ตัวอย่างโค้ด
import requests
response = requests.post(
"http://localhost:11434/api/generate",
json={
"model":"llama3",
"prompt":"Explain machine learning"
})
print(response.json())
7. Quantization (สำคัญมาก)
เพื่อลด VRAM
FP16
↓
INT8
↓
INT4
ตัวอย่าง
|
Model |
VRAM |
|
7B FP16 |
14GB |
|
7B INT4 |
4GB |
8. Interface สำหรับ Local AI
UI ที่นิยม
- Open WebUI
- Text Generation WebUI
หน้าตาจะเหมือน
- ChatGPT
9. Local AI Server Architecture
User
↓
Web Interface
↓
LLM API
↓
Model Runtime
↓
GPU
10. ความเร็วตัวอย่าง (RTX 4090)
|
Model |
Speed |
|
7B |
80 tokens/s |
|
13B |
50 tokens/s |
|
30B |
20 tokens/s |
11. ระบบ RAG เพิ่มความรู้
ถ้าต้องการให้ AI อ่านเอกสาร
ต้องใช้
RAG
Retrieval Augmented Generation
Stack
Documents
↓
Embeddings
↓
Vector Database
↓
LLM
Vector DB เช่น
- Chroma
- Pinecone
12. ระบบ AI Agent
Local LLM สามารถทำ
AI assistant
Coding AI
Document AI
Chatbot
Automation
เหมือน
- Claude
- Gemini
13. Cost สร้าง Local AI Server
ตัวอย่าง
|
อุปกรณ์ |
ราคา |
|
RTX 4090 |
~$1600 |
|
CPU |
~$400 |
|
RAM |
~$150 |
|
SSD |
~$100 |
รวม
≈ $2000
สรุป
Local LLM ต้องมี
GPU
Open Source Model
LLM Runtime
Interface
จะได้ AI server ส่วนตัว
ความคิดเห็น
แสดงความคิดเห็น