安装 OLLAMA 后,使用流程可以分为以下几个步骤,从拉取模型到实际推理,再到通过 API 调用。以下是详细说明:
---
### **1. 拉取预训练模型**
首先需要从 OLLAMA 的模型仓库中拉取你需要的模型。可用的模型包括 **Llama-3**、**Qwen**、**Qwen-VL** 等。
#### **查看可用模型列表**
```bash
ollama models
```
执行此命令会列出所有支持的模型及其描述,例如:
```
Available models:
llama Llama-3 series (2B/7B/13B/34B/65B)
qwen Qwen series (7B/1.5B/3.5B)
qwen-vl Qwen-VL series (vision-language models)
...
```
#### **拉取具体模型**
选择一个模型并拉取(例如拉取 **Llama-3-7B**):
```bash
ollama pull llama-3-7b
```
拉取完成后,模型会被缓存到本地,下次使用时无需重复下载。
---
### **2. 直接运行推理**
通过 `ollama run` 命令直接与模型交互,输入提示并获取响应。
#### **基本命令格式**
```bash
ollama run <模型名> "<提示>"
```
#### **示例**
```bash
# 使用 Llama-3-7B 回答问题
ollama run llama-3-7b "什么是量子计算?"
# 使用 Qwen 编写 Python 代码
ollama run qwen "请写一个计算斐波那契数列的 Python 函数"
```
#### **输出结果**
模型会直接在终端输出生成的文本,例如:
```
量子计算是一种基于量子力学原理的计算方式,利用量子比特(qubit)的叠加和纠缠特性,能够在短时间内解决传统计算机难以处理的复杂问题,如大整数分解和大规模优化问题。
```
---
### **3. 调整推理参数**
可以通过命令行参数控制模型的行为,例如调整输出长度、随机性等。
#### **常用参数**
- `--temperature`:控制输出的随机性(0 表示确定性,1 表示较高随机性)
- `--max_tokens`:限制输出的最大 token 数
- `--model`:指定模型(可选,与命令中的模型名冲突时以命令为准)
#### **示例**
```bash
# 使用较低随机性,输出更短的结果
ollama run llama-3-7b --temperature 0.2 --max_tokens 50 "解释机器学习"
```
---
### **4. 通过 API 调用模型**
OLLAMA 还支持通过 HTTP/HTTPS 或 gRPC 接口调用模型,适合集成到应用程序中。
#### **启动 API 服务**
默认情况下,OLLAMA 的 API 监听在 `localhost:11434`。确保服务已启动:
```bash
ollama api
```
#### **发送 HTTP 请求**
使用 `curl` 或 Postman 发送 POST 请求:
```bash
curl -X POST http://localhost:11434/run/llama-3-7b \
-H "Content-Type: application/json" \
-d '{"prompt": "推荐一本编程入门书籍"}'
```
#### **响应示例**
```json
{
"model": "llama-3-7b",
"usage": {
"prompt_tokens": 7,
"completion_tokens": 23
},
"choices": [
{
"text": "《Python Crash Course》是一本适合编程新手的入门书籍,内容涵盖基础语法和实战项目。",
"finish_reason": "stop"
}
]
}
```
---
### **5. 管理模型**
#### **查看已下载的模型**
```bash
ollama list
```
#### **删除不再需要的模型**
```bash
ollama rm qwen
```
#### **更新模型**
部分模型会定期更新,可通过重新拉取覆盖旧版本:
```bash
ollama pull llama-3-7b
```
---
### **6. 高级用法**
#### **使用 GPU 加速**
默认情况下,OLLAMA 会自动检测并使用 GPU(需安装 CUDA)。若想强制使用 CPU:
```bash
ollama run --device cpu llama-3-7b "..."
```
#### **自定义模型**
如果你有自己训练的模型,可以通过 Docker 定义模型配置文件(`model.yaml`)并注册到 OLLAMA。具体方法参考 [官方文档](https://ollama.ai/docs/models/custom)。
---
### **常见问题**
#### **Q:模型拉取失败?**
- 确保网络正常,或尝试更换镜像源(如使用阿里云镜像)。
- 部分模型可能需要登录账号(如 Qwen 需要访问阿里云)。
#### **Q:内存不足?**
- 大模型(如 65B 参数)需要大量 GPU 内存(建议至少 32GB VRAM)。
- 可尝试缩小 batch size 或使用较小的模型(如 Llama-3-7B)。
#### **Q:API 访问被拒绝?**
- 默认 API 仅监听本地端口,若需远程访问,需通过 `--host` 参数指定 IP:
```bash
ollama api --host 0.0.0.0
```
---
### **总结**
1. **拉取模型** → `ollama pull
评论区: