|
结果我们注意到 队列中的性能得到了提高问题也减少了。此外我们在后续实验中将模型升级到 月版本涉及版本 和 。令人惊讶的是即使不修改任何一个提示 版和 版之间的性能差距也明显缩小。 我们的结论是团队必须不断调整和测试提示以验证其性能是否达到预期。 护栏必不可少 使用法学硕士的一个固有危险是它们的输出是概率性的。我们发现在数千次测试中表现良好的提示在部署给用户时却无法提供预期的结果。我们在早期实验中犯的一个严重错误是允许模型确定何时在没有用户逃生舱的情况下转移到人类身上。
用户有时会因为法学硕士拒绝转学而陷入困境。 这些失败清楚地警告我们某些行动不应该留给模型来决定。例如我们不应该允许 法学硕士在没有用户审核流程的情况下交易股票。简而言之我们的人工智能应用需要护栏。在 我们实施了多项防护措施以尽量减少人工智能决策不理想的不利影响。首先我们的聊天系统(和其他工具)使用控件来检查人工智能响应用户消息和提示指令中的个人身份信息和攻击性内容。 我们在聊天系统中使用确定性方法来决 日本手机号码数据 定何时将对话转移给人类。例如我们依赖于代码识别的停止短语而不是模型的判断。我们还限制机器人与客户聊天交互的数量以防止客户无限期地陷入困境。我们确保可能对客户产生负面影响的敏感行为通过法学硕士外部渠道获得批准。
这种做法降低了模型独立采取可能迷惑或伤害用户的操作的可能性。 最后当情况不确定时我们默认进行人工干预因为考虑到人工智会带来不值得承担的风险。 模型可能缓慢且不可靠 我们从操作模型中学到的一个重要教训是它们可能很慢且不可靠。我们的聊天完成率平均有 在模型提供商(例如 )处失败。虽然公司可能会提高系统的可靠性但尚不清楚他们将如何解决完成时的延迟问题。我们的使用发现像 这样的更大上下文(更强大)的模型平均在 秒内响应 个令牌以下的完成。随着令牌大小的增加性能会显着下降(我们看到调用持续长达 秒 当我们使客户端超时时)。虽然 的延迟要低得多但较新型号比前几代型号慢的趋势并不令人鼓舞。 幸运的是处理缓慢不可靠的系统是业界众所周知的问题
|
|