Karpathy疯狂之作!8000行代码手搓ChatGPT,只需100美元?
AI大神Karpathy于10月14日发布了让整个社区沸腾的开源项目nanochat,这是一个从零开始、极简但功能完整的ChatGPT克隆训练与推理管线。用他的话说:"这是我写过最疯狂的代码之一!"
该项目仅需8000行代码,就能以100美元成本、4小时训练时间,让开发者在云GPU上打造属于自己的ChatGPT克隆版。
项目上线不到12小时,GitHub星标就突破4.2k,受到开发者们的狂热追捧。与Karpathy之前的nanoGPT不同,nanochat覆盖了从数据准备、预训练到SFT微调、强化学习的全流程。
机器之心在报道中证实,只需启动一台GPU机器,运行脚本,4小时后就能在网页界面与训练好的"小ChatGPT"对话。投入1000美元训练约42小时,模型就能解决基础数学和代码问题。
不过Karpathy也提醒,这个微型模型更像是"非常年幼的孩子",智力有限,不适合需要高度个性化的场景。他建议对个性化有需求的用户采用检索增强生成(RAG)等更成熟方案。