AIINFRASTRUCTUREHOWTO
📅 1 מרץ 2026

שרת AI פרטי: Ollama + Open WebUI + Private API ב-₪599/חודש

Private LLM — בלי הגבלת tokens, הנתונים שלך לא עוזבים את השרת. מה כולל ה-Setup, מה הביצועים האמיתיים שמדדנו בייצור, ומדוע זה כדאי לכל עסק שמשלם $100+ לחודש ל-OpenAI.

👨‍💻
יעקב בידני
BDNHOST Group · AI-Ready Server
⏱ 7 דקות קריאה

למה בכלל שרת AI פרטי?

שאלה פשוטה: כמה אתה משלם לחודש ל-OpenAI? אם התשובה היא $50+, שרת AI פרטי יהיה זול יותר תוך 2–3 חודשים. אם התשובה כוללת "אבל הנתונים שלנו רגישים" — זה כבר ברמת חובה.

שלושה יתרונות אמיתיים:

החיסרון האמיתי: מודלים מקומיים חלשים יותר מ-GPT-4o ב-tasks מורכבים. 7B–13B models מצוינים ל-80% מה-use cases — לשאר עדיין צריך API.

ביצועים אמיתיים — מה מדדנו

בדקנו שלושה מודלים על VPS עם 16GB RAM ו-8 CPU cores (Business tier):

Llama 3.1 8B
~18
tokens/שנייה
מהיר · צ'אט ותוכן · 4.7GB RAM
Mistral 7B
~22
tokens/שנייה
הכי מהיר · קוד ו-JSON · 4.1GB RAM
DeepSeek-R1 8B
~14
tokens/שנייה
Reasoning · ניתוח מעמיק · 4.9GB RAM
⚠️ מגבלה חשובה

CPU inference מספיק ל-1–3 משתמשים בו-זמנית. לצוות גדול — צריך GPU inference (Enterprise tier). בדקו עם המשתמשים לפני שמתחייבים.

השכבות הטכניות

🖥
Ubuntu 24 + Docker
VPS Hostinger · 8–32GB RAM לפי חבילה
מוגדר
🧠
Ollama
מריץ את המודל · llama, mistral, deepseek, qwen
מוגדר
🌐
Open WebUI
ממשק ChatGPT-like על הדומיין שלך
אופציה
🔌
Private API Gateway
POST https://ai.yourco.com/v1/chat · OpenAI-compatible
מוגדר
🔒
Nginx + SSL + Auth
HTTPS · Rate limiting · Fail2ban
מוגדר
📊
PM2 + Monitoring
Auto-restart · התראות WhatsApp בנפילה
מוגדר

ה-API — זהה ל-OpenAI

🔌 OpenAI-Compatible API Call
// קריאה ל-Private LLM — זהה ל-OpenAI API
const response = await fetch('https://ai.yourcompany.com/v1/chat/completions', {
  method: 'POST',
  headers: { 'Authorization': 'Bearer your-api-key' },
  body: JSON.stringify({
    model: 'llama3.1:8b',
    messages: [{ role: 'user', content: prompt }]
  })
});
// ~312ms latency · 0 עלות per-token
💡 Migration קל

ה-API שלנו מחזיר את אותו פורמט כמו OpenAI. כל אפליקציה שכתבת מול OpenAI עובדת מיד — רק מחליפים את ה-base URL. בדרך כלל שינוי של שורה אחת.

השוואת עלויות

שימוש חודשיOpenAI GPT-4oAI-Ready Serverפער
10M tokens$50 (~₪185)₪599 (flat)יותר יקר
50M tokens$250 (~₪925)₪599חוסך ₪326
100M tokens$500 (~₪1,850)₪599חוסך ₪1,251
Unlimited₪599חוסך אינסוף

למי מתאים — ולמי לא

מתאים
משלם $50+/חודש ל-OpenAI · מידע רגיש · צוות 1–5 · n8n עם AI · Developer שבונה אפליקציה.
⚠️
שקול פעמיים
צריך GPT-4 level לכל task · יותר מ-10 משתמשים בו-זמנית · שימוש נמוך של פחות מ-10M tokens.

מוכן להפסיק לשלם לפי token?

AI-Ready Server Business ב-₪599/חודש — מוכן ב-24 שעות. הנתונים שלך, הדומיין שלך, unlimited tokens.

ראה AI-Ready Server ←