chatgpt注册教程

ChatGPT 的原理是什么?

chatgpt2024-09-02 08:55:0961

ChatGPT 出来有一段时间了,工作中遇到难解的问题现在已经习惯向它提问来获取指导性建议。

最近也刚好和它一起合作完成了一款产品你好,时间助手的实践,我提需求和测试,他来研发,一起协同完成了这款产品,印证了开发经常吐槽产品的一句话 “开局一张图,后面内容全靠编” ,从现在的视角来看也未尝不可实现。

实践比较多后,对它的原理愈发的感兴趣,它是怎么做到理解我说的话并给出了还不错的回答。在翻阅了不少资料,遂今天尝试记录下来留着以后进行回顾。在这之前先看几个在日常工作中应用ChatGPT的案例。

在 ChatGPT 未出现之前要进行文章的错别字检查,往往需要排期,投入不少研发力量来做这个需求,现在直接一条 Prompt,不到几秒就快速检查出来错别字,并帮你更正了,甚至可以将其封装成一个 API 集成到自己的业务系统中。

GPT 进行错别字检查

Excel 公式提取,工作中经常会遇到非标的数据,要提取需要的数据分析的话,往往需要用到公式,这个时候 ChatGPT 就是 1 个好帮手。

GPT 根据需求编写 Excel 公式

生成考试题目,产品上线前往往需要对内进行产品的培训,培训完之后需要验证下培训成员的对产品的熟悉情况,这个时候考试题目的生成就可以基于已有的上线公告。

GPT 基于上线公告生成了考试题目

甚至于你不知道如何给 GPT 提示,就按照大白话告诉它你的需求,然后让它来给你提供 Prompt 提示词。

GPT 生成 Prompt

上述 ChatGPT 的实践,对工作效率的提升是不是看起来还不错?那它是怎么做到的呢?

我们先来区分 2 个概念:GPT 和 ChatGPT,GPT 被训练用于预测大量互联网文本数据集上的下一个单词,通过"阅读"大量文本,理论上 GPT 就能学习预测下一个词出现的概率。而 ChatGPT 是专门针对对话场景优化过的 GPT,可以根据上下文和人进行聊天,我们经常打交道的就是它。

GPT 和 ChatGPT

通过ChatGPT 的官网,可以看到经过特定场景优化过的 GPT ( InstructGPT,可类比 ChatGPT)输出的分数比使用少量提示(GPT(prompted))和不使用提示的 GPT 输出以及使用监督学习进行微调的模型(Supervised Fine-Tuning)的输出质量都要高很多。

不同模型输出质量对比

区分这 2 个概念之后,我们再看看我们平时接触最多的 ChatGPT 是怎么从 GPT 演化而来的,这个就要从下面官方提供的这张原理图来说起:

GPT 原理-英文版

为了便于理解,我这里翻译成了中文的版本。

GPT 原理-中文版

通过上面这张图,可以看出来 GPT 生成答案的原理可以分为 3 个步骤。

第 1 步:学习基本技能

比如让 GPT: "写一个简单的蛋炒饭菜谱"

研究人员给一个示范的期望输出,就类似一个表述的模板,例如:

“简单蛋炒饭菜谱”:

1. 准备材料:米饭、鸡蛋、葱、油、盐

2. 将鸡蛋打散

3. 热锅下油,倒入打散的鸡蛋炒熟

4. 加入米饭,翻炒均匀

5. 加盐调味,最后撒上葱花

6. 炒至米饭金黄即可出锅"

这些数据用于微调GPT-3.5模型,形成初始的监督策略。所以你看为什么把需求向 ChatGPT 描述得越清楚,越能得到想要的回答。

第 2 步:对回答结果的好坏进行评价

GPT 根据微调后的模型生成多个输出的版本:

研究人员以人类的评分标准对 GPT 所给出的答案进行评分,比如这个回答结果的好坏排序是: D > B > A > C

基于大量这些人工评价的数据,研究人员又训练了一个符合人类评分标准的评分模型,专门对 GPT 回答结果好坏进行评分。

第 3 步:持续改进

根据回答结果进行评分,这个时候该轮到改进模型上场了,它会根据结果的好坏进行对应的优化(即调整“更新策略”)。比如,如果评分说火候不够,那么下次你就多炒一会儿。经过改进的 GPT ,下一次回答类似问题的时候:"写一个简单的蛋炒饭菜谱",就会得到更好的回答。

最终输出可能是这样的:

"简易蛋炒饭食谱:

1. 准备:冷米饭1碗,鸡蛋2个,葱1根,食用油2汤匙,盐适量

2. 将鸡蛋打散,加少许盐调匀

3. 热锅倒油,倒入蛋液快炒至半熟

4. 加入米饭,用铲快速翻炒至米粒分散

5. 适量加盐调味,继续翻炒至米粒略显金黄

6. 最后撒入葱花,翻炒均匀即可

提示:用隔夜米饭更好,炒时保持大火快炒以防粘锅"

这个输出结合了详细程度和简洁性,还提供了有用的小贴士,应该能获得较高的评分。

上述学习的过程是不是像极了人类学习新鲜知识的路径。可以想象你在学习做蛋炒饭。这个过程就像是:

1. 你先学会了基本的做法(这就是“监督策略初始化”,给了一个模板进行模仿)。

2. 每次你做一盘蛋炒饭(“生成输出”),你都请一位美食评论家(“评分模型”)来品尝并给出评分。

3. 根据评分,你稍微调整你的做法(“改进模型”)。比如,如果评分说火候不够,下次你就多炒一会儿。

4. 你不断重复这个过程:做饭、获得反馈、微调做法。

5. 通过这种方式,你的蛋炒饭技术("输出质量")会逐渐提升。

通过 GPT 的原理,我们大概知道为什么我们需要提供角色扮演的文案给到 GPT,这是不是正是产品定位中常说的,什么样的用户群体在什么样的场景下遇到了什么问题,然后再给几个 case,它能更好地回答。

看起来很复杂的东西往往背后的原理很朴素

本文链接:https://xhhm.cc/chatgpt_64.html

gpt4帐号升级倒卖gpt帐号多少违法用谷歌帐号登陆gptgpt帐号有什么用Gpt帐号什么原因停用gpt4帐号支付宝如何在淘宝上卖GPT帐号

相关文章

网友评论