ChatGPT简介
我们已经训练了一个名为ChatGPT的模型,它以对话的方式进行交互。对话形式使ChatGPT可以回答后续问题,承认错误,质疑不正确的前提,并拒绝不适当的请求。
ChatGPT是InstructGPT的兄弟模型,它被训练为在提示中遵循指令并提供详细的响应。
我们很高兴能够引入ChatGPT,以获得用户的反馈并了解其优势和劣势。在研究预览期间,ChatGPT的使用是免费的。现在就在chat.openai.com上试试吧。
我们使用来自人类反馈的强化学习(RLHF)来训练这个模型,使用与InstructGPT相同的方法,但在数据收集设置上略有不同。我们使用监督微调训练了一个初始模型:人类人工智能训练器提供对话,他们在对话中扮演用户和人工智能助手。我们为培训师提供了模型书面建议,帮助他们撰写回应。我们将这个新的对话数据集与InstructGPT数据集混合,并将其转换为对话格式。
为了创建强化学习的奖励模型,我们需要收集比较数据,这些数据由两个或多个按质量排序的模型响应组成。为了收集这些数据,我们进行了人工智能培训师与聊天机器人的对话。我们随机选择了一条模型书面信息,对几种备选完成方式进行了抽样,并让人工智能培训师对其进行排名。使用这些奖励模型,我们可以使用近端策略优化对模型进行微调。我们对这个过程进行了多次迭代。
ChatGPT Plus简介
我们正在推出ChatGPT的试点订阅计划,这是一种对话式人工智能,可以与您聊天,回答后续问题,并挑战错误的假设。
新的订阅计划ChatGPT Plus将以每月20美元的价格提供,用户将获得多项优惠:
对ChatGPT的一般访问,即使在高峰时段也是如此
更快的响应时间
优先使用新功能和改进
ChatGPT Plus可供美国和世界各地的客户使用
2023年2月10日,我们扩大了美国以外客户对ChatGPT Plus的访问权限。
我们喜欢我们的免费用户,并将继续提供免费访问ChatGPT的服务。通过提供此订阅定价,我们将能够帮助支持尽可能多的人免费访问。
从研究预览中学习
我们推出了ChatGPT作为研究预览,这样我们就可以更多地了解系统的优势和劣势,并收集用户反馈,帮助我们改进其局限性。从那时起,数百万人给了我们反馈,我们进行了几次重要的更新,我们看到用户在一系列专业用例中找到了价值,包括起草和编辑内容、集思广益、编程帮助和学习新主题。