达播玩-帮你测模型

标签页	用途	适合场景
单次跑测	一键跑完整套探针	第一次接入、快速验收
官方对比	A/B 两个接口并行跑同一批题	对比中转节点、可信节点或不同供应商
历史记录	保存并比较历次结果	追踪模型质量变化和节点波动

层级	重点	异常含义
基础层	最小返回、JSON、中文筛选、精确命中	接入点、格式控制或基础理解有问题
能力层	代码追踪、逻辑、概率、规则遵循、幻觉边界	推理、事实边界或系统规则处理不稳
对抗层	抗干扰、Prompt 注入、跨步一致性	安全边界或多步任务可靠性不足
耐久层	长输出、长上下文、多步推理链	长任务容易截断、重复或算错
进阶层	多轮回忆、工具规划、复杂业务推理	真实业务场景下可能丢上下文或结构不稳

日志	含义	处理方式
`HTTP 401`	Key 无效	检查 API Key 是否填错或过期
`HTTP 403` / 渠道已禁用	当前 Key 或模型渠道无权限	更换模型、Key，或联系供应商开启渠道
`temperature deprecated`	该模型不接受 temperature 参数	工具会自动跳过该参数重试
`Failed to fetch`	网络、CORS 或 URL 不可达	优先尝试 HTTPS 地址，确认 Base URL 可访问
内容管理策略过滤	上游安全策略拦截了某个探针	这是接口策略问题，可换节点或跳过该题复核
超时	模型或节点响应太慢	重跑、换节点，或降低并发/等待高峰期过去

测试配置 0 / 17

免责声明：本页面仅用于模型接入连通性与基础能力测试，不构成任何官方认证、性能承诺或采购建议。

您已知悉：仅使用可随时作废的试用 Key / 测试 Key，勿填写生产环境 Key、正式计费 Key、企业主账号 Key 或任何高权限密钥。使用本工具即视为您已知悉并自行承担测试行为、配额消耗、接口费用与数据安全风险。

Base URL

API Key（仅限测试 Key）

模型 ID

探针类别

建议：使用单独申请的试用 Key、限制额度的测试 Key，或临时子账号 Key。不要复用线上业务 Key。

探针

基础能力对抗耐久进阶

选择探针

未评估

探针 Prompt

模型返回 content

评估明细

联系与关注扫码查看对应渠道

验收结论

完成进度0 / 17

—

综合评分

—

风险等级

模型身份校验未知

请求模型—

响应 model—

一致性—

等待评估

完成至少 6 道探针后生成结论。

诊断分析

完成至少 6 道探针后生成诊断分析。

决策建议

通过0%

复核0%

失败0%

Markdown 报告

A 端：待测节点

填写要验证的中转站或目标 endpoint。

Base URL

API Key

模型 ID

B 端：对比基线

填写可信接口作为官方对比基线。

Base URL

API Key

模型 ID

对照结果

未运行

等待运行

完成双端跑测后生成差异分析。

—

A 端综合分

—

B 端综合分

逐题对照

尚无数据

历史记录列表

每次单次跑测自动存档。选两个快照可对比能力变化趋势。

尚无历史记录

趋势对比

选 2 个快照

点击左侧两个快照进行对比