Claude 2.1 升级后,可轻松处理20W指令。虽然很高兴能够将这一强大的新功能交到用户手中,但通常需要几个小时的人力才能完成的任务可能需要 Claude 几分钟的时间。我们预计随着技术的进步,延迟将大幅减少。
幻觉率降低 2 倍
Claude 2.1 在诚实方面也取得了显着进步,与我们之前的 Claude 2.0 模型相比,虚假陈述减少了 2 倍。这使企业能够构建高性能的人工智能应用程序,解决具体的业务问题,并以更高的信任度和可靠性在其运营中部署人工智能。
我们通过设计大量复杂的事实问题来探究当前模型中已知的弱点,从而测试了 Claude 2.1 的诚实性。使用区分错误说法(“玻利维亚人口第五多的城市是蒙特罗”)和承认不确定性(“我不确定玻利维亚人口第五多的城市是什么”)的标题,Claude 2.1 更有可能提出异议而不是提供不正确的信息。
Claude 2.1 在理解和总结方面也做出了有意义的改进,特别是对于需要高精度的长而复杂的文档,例如法律文件、财务报告和技术规范。在我们的评估中,Claude 2.1 证明错误答案减少了 30%,并且错误地得出文档支持特定主张的比率降低了 3-4 倍。
虽然我们对这些准确性的提高感到鼓舞,但提高用户输出的准确性和可靠性仍然是我们产品和研究团队的首要任务。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
THE END