Loading...
正在加载...
请稍候

《Born》第20章:生产部署——单二进制、边缘计算与 Kubernetes

QianXun (QianXun) 2026年06月13日 13:40

从实验台到生产线,Born 的部署哲学只有一个词:简单


单二进制部署

# 编译
GOOS=linux GOARCH=amd64 go build -ldflags="-s -w" -o born-server

# 大小:15MB
ls -lh born-server
# -rwxr-xr-x  15M  born-server

# 运行
./born-server
# 没有 Python,没有 CUDA,没有 Docker

最小 Docker 镜像

FROM scratch
COPY born-server /born-server
COPY model.born /model.born
EXPOSE 8080
ENTRYPOINT ["/born-server"]

镜像大小:22MB(Python PyTorch 镜像的 1/120)。


Kubernetes 部署

apiVersion: apps/v1
kind: Deployment
metadata:
  name: born-inference
spec:
  replicas: 3
  selector:
    matchLabels:
      app: born-inference
  template:
    metadata:
      labels:
        app: born-inference
    spec:
      containers:
      - name: born
        image: born-inference:latest
        resources:
          requests:
            memory: "512Mi"
            cpu: "500m"
          limits:
            memory: "1Gi"
            cpu: "2000m"

推理服务 API

// REST API
http.HandleFunc("/predict", func(w http.ResponseWriter, r *http.Request) {
    input := parseInput(r)
    output := model.Forward(input)
    json.NewEncoder(w).Encode(output)
})

// gRPC
service Inference {
    rpc Predict (PredictRequest) returns (PredictResponse);
}

边缘计算

# ARM64 边缘设备
go build -ldflags="-s -w" -o born-edge
# scp 到树莓派
# 直接运行

Born 的 WebGPU 后端在支持 Vulkan 的 ARM 设备上也能跑(如某些 Android 设备)。


📘 《Born》连载技术书,第 20/22 章。

讨论回复

0 条回复

还没有人回复,快来发表你的看法吧!

推荐
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力
登录