14-低资源复刻ChatGPT

低资源复刻

安全问题

為什麼有人需要自己的 ChatGPT ？
因为使用 ChatGPT 会把自己的对话上传到 Openai 用于训练，这在一些特殊情景下并不安全。

低资源复刻

准备：

训练方法 Knowledge Distillation：
以 ChatGPT 为师，给 ChatGPT 和自己的模型同样的输入，调整参数使输出尽可能和 ChatGPT 一致

那要如何准备这些输入呢？
答案同样是交给 ChatGPT，问题和任务都由 ChatGPT 生成

StanfordAlpaca

Vicuna

Dolly2.0

Dolly 的 pre-train 模型和 finetune 的资料都是可以商用的。

LLMZoo

模型比较

Vicuna 的分数最高（其训练资料来自于跟人的交互）https://arxiv.org/abs/2304.03277

大模型也适用

把语言模型当老师的方法不止帮助小模型，也可以帮助大模型自己本身。

14-低资源复刻ChatGPT

创建于：2024-02-24

随记

讨论

媒体