向量化与重排

这两个操作属于通用余额的 OpenAI 兼容数据面。先从实时模型目录选择可用模型，再使用运行时生成的操作页，不要把示例中的模型名、价格或供应商能力复制为长期配置。

向量化

POST /v1/embeddings 接受 model 与 input。运行时 Schema 明确 input 可以是一个字符串或字符串数组，其他可透传字段和上游响应保持开放边界。

用于检索前的文本向量化时，先确认模型目录中该模型的输入能力。
批量输入会共同受请求体与模型事实约束，不以页面外的固定批量大小作承诺。
响应中上游字段的可用性依模型与供应商事实而定，客户端应只依赖当前操作页列出的稳定边界。

重排

POST /v1/rerank 接受 model、query 和 documents，适合在候选文档已召回后进行相关性排序。

documents 的数量、总字节数和模型限制应由当前操作页和上游事实共同判断。
业务侧应保留候选文档标识与排序版本，避免把一次上游输出当作长期不可变事实。
请求失败时先按错误处理分类，不要把未知结果的重试误认为无副作用。

鉴权、计费与失败处理

两个操作使用有效 API Key 与通用余额语境。余额、限额、模型可用性和上游超时分别可能产生不同动作，请在发布前结合计费说明与流式和重试制定调用策略。