快速开始
这个工具用于检查各类模型 API 或中转接口的接入质量,只要接口兼容 /v1/chat/completions 格式即可:模型是否能正常响应、答案是否稳定、响应 model 字段是否和请求接近,以及和基线接口相比是否有明显退化。
推荐流程:先做「单次跑测」确认接入,再用「官方对比」和可信节点做横向比较。
开始之前
- 准备 Base URL,例如
https://api.example.com/v1 或平台提供的 /v1 地址。
- 准备 API Key,通常以
sk- 开头。
- 准备 模型 ID,例如
qwen-max、qwen-plus、deepseek-chat、glm-4.5。
- 建议优先使用试用 Key 或临时测试 Key,避免在公开环境中填写正式生产凭证。
单次跑测
- 在左侧填写 Base URL、API Key、模型 ID,也可以把连接信息粘贴到「智能粘贴」后点「一键识别」。
- 选择探针类别。默认「验收」会跑完整探针;「补测」会跑一组独立题库,覆盖基础、能力、对抗、耐久和进阶探针,适合快速复核。
- 建议每次新跑测前先点「清空结果」,再点击「一键跑测」。绿色是通过,橙色是需复核,红色是失败。
- 点击左侧任意探针,可以查看提示词、模型回答和具体判分项。
- 右侧查看综合评分、风险等级、model 字段对照和最终结论。
功能页说明
| 标签页 | 用途 | 适合场景 |
| 单次跑测 | 一键跑完整套探针 | 第一次接入、快速验收 |
| 官方对比 | A/B 两个接口并行跑同一批题 | 对比中转节点、可信节点或不同供应商 |
| 历史记录 | 保存并比较历次结果 | 追踪模型质量变化和节点波动 |
探针在测什么
| 层级 | 重点 | 异常含义 |
| 基础层 | 最小返回、JSON、中文筛选、精确命中 | 接入点、格式控制或基础理解有问题 |
| 能力层 | 代码追踪、逻辑、概率、规则遵循、幻觉边界 | 推理、事实边界或系统规则处理不稳 |
| 对抗层 | 抗干扰、Prompt 注入、跨步一致性 | 安全边界或多步任务可靠性不足 |
| 耐久层 | 长输出、长上下文、多步推理链 | 长任务容易截断、重复或算错 |
| 进阶层 | 多轮回忆、工具规划、复杂业务推理 | 真实业务场景下可能丢上下文或结构不稳 |
看懂结果
- 综合评分:所有已完成探针的平均分。90 分以上通常表现较好,75 分以下建议复核。
- 风险等级:综合考虑分数、失败率和响应
model 字段。
- model 字段:请求模型和响应模型完全一致最好;别名、快照名、大小写差异可能只是供应商映射,需要结合基线确认。
- 失败项:先看是否是 HTTP 401/403、超时、内容过滤等接口错误,再判断是否是模型答案问题。
注意:本工具给出的是风险信号,不是最终裁决。要确认是否存在路由替换或降级,建议使用「官方对比」和业务真实任务一起判断。
清空规则
- 每次新跑测前,建议先点击左侧「清空结果」,避免上一轮数据混入本轮判断。
- 「清空结果」会清空当前跑测结果和运行日志,但不会删除历史记录。
- 「历史记录」页里的「清空历史」才会删除已保存的历史记录。
常见错误
| 日志 | 含义 | 处理方式 |
HTTP 401 | Key 无效 | 检查 API Key 是否填错或过期 |
HTTP 403 / 渠道已禁用 | 当前 Key 或模型渠道无权限 | 更换模型、Key,或联系供应商开启渠道 |
temperature deprecated | 该模型不接受 temperature 参数 | 工具会自动跳过该参数重试 |
Failed to fetch | 网络、CORS 或 URL 不可达 | 优先尝试 HTTPS 地址,确认 Base URL 可访问 |
| 内容管理策略过滤 | 上游安全策略拦截了某个探针 | 这是接口策略问题,可换节点或跳过该题复核 |
| 超时 | 模型或节点响应太慢 | 重跑、换节点,或降低并发/等待高峰期过去 |
官方对比
官方对比适合把待测接口和可信接口放在一起比较。分差很小时通常问题不大;分差较大时,应查看具体失败题,再决定是否更换供应商或节点。
导出报告
跑测完成后点击顶部「导出报告」,会生成 Markdown 报告,包含探针明细、响应 model、分数、风险结论和每个检查项,可用于存档或发给供应商排查。