ChatGPT 已进入课堂：LLM 如何改变教育

近日，教育心理学家罗纳德·贝盖托（Ronald Beghetto）要求一群研究生和教学专业人员以一种不寻常的方式讨论他们的工作。除了互相交谈之外，他们还与 Beghetto 设计的一系列以创造力为中心的聊天机器人进行了交谈。这些聊天机器人很快将托管在Beghetto所在的亚利桑那州立大学 (ASU) 平台上。

这些聊天机器人基于 ChatGPT 提供的技术支持。Beghetto 促使机器人扮演各种角色来鼓励创造力——例如，故意挑战某人的假设。一名学生与聊天机器人讨论了各种论文主题。讲师们谈论了如何设计课程。

反馈非常积极。一位参与者表示，他们之前曾尝试使用 ChatGPT 来支持学习，但没有发现它有用——与 Beghetto 的聊天机器人不同。另一位网友问道：“这些东西什么时候能开放使用？” 这些机器人帮助参与者创造了比他们想象的更多可能性。

许多教育工作者担心 ChatGPT 的兴起会让学生更容易在作业中作弊。然而， Beghetto 和其他人正在探索大语言模型 (LLM)（例如 ChatGPT）加强教育工具的潜力。

使用大语言模型阅读和总结大量文本可以节省学生和教师的时间，并帮助他们专注于讨论和学习。ChatGPT 能够清晰地讨论几乎任何主题，这提高了使用大语言模型创建个性化、对话式教育体验的前景。一些教育工作者将他们视为潜在的“思想伙伴”，其成本可能低于人类导师，而且与人类不同的是，他们总是随时可用。

“一对一辅导是最有效的教学干预措施，但它非常昂贵且无法扩展，”一位创业者Gray表示。“人们尝试过软件，但通常效果不是很好。现在确实有可能开发出有效的教育软件。”

这样的人工智能合作伙伴可以用来引导学生逐步解决问题，激发批判性思维，或者像 Beghetto 的实验一样，增强用户的创造力并拓宽正在考虑的可能性。田纳西州纳什维尔范德比尔特大学未来学习和生成人工智能项目主任 Jules White 将 ChatGPT 称为“心灵的外骨骼”。

风险是真实存在的

自加州公司 OpenAI 于 2022 年 11 月推出 ChatGPT 以来，对其在教育中的使用的关注大多是负面的。大语言模型的工作原理是从包含数十亿个示例的训练数据中学习单词和短语如何相互关联。然后，根据用户提示，他们生成句子，包括作业问题的答案，甚至整篇文章。

与以前的人工智能系统不同，ChatGPT 的答案通常写得很好，而且似乎经过了充分的研究。这引起了人们的担忧，即学生们将能够简单地让 ChatGPT 为他们做作业，或者至少他们可能会依赖聊天机器人来获得快速答案，而不了解其基本原理。

ChatGPT 也可能会让学生误入歧途。尽管该机器人在一系列商业、法律和学术考试中表现出色，但该机器人仍然非常脆弱，如果问题的措辞略有不同，它就会出错，甚至会编造错误，这种问题被称为幻觉。

加州大学洛杉矶分校的计算机科学家 Wei Wang 发现，为免费版 ChatGPT 提供支持的 GPT-3.5 及其后继者 GPT-4 在测试物理、化学、化学等问题时出现了很多错误。Wang 和她的同事尝试了不同的方法来查询这两个 GPT 机器人。他们发现最好的方法是使用 GPT-4，其机器人可以通过这种方式正确回答大约三分之一的教科书问题，尽管它在一次考试中得分为 80%。

隐私是另一个障碍：一旦学生意识到他们输入的所有内容都被 OpenAI 存储并可能用于训练模型，他们可能会推迟与大语言模型的定期合作。

拥抱大语言模型

尽管面临挑战，一些研究人员、教育工作者和公司还是看到了 ChatGPT 及其底层大语言模型技术的巨大潜力。与 Beghetto 和 Wolfram Research 一样，他们现在正在试验如何最好地在教育中使用大语言模型。有些人使用 ChatGPT 的替代方案，有些人找到尽量减少不准确和幻觉的方法，有些人则提高大语言模型的特定学科知识。

“有积极的用途吗？” 位于罗利的北卡罗来纳州立大学专门研究教育系统的计算机科学家科林·林奇问道。“绝对优。有风险吗？存在巨大的风险和担忧。但我认为有一些方法可以减轻这些影响。”

位于巴黎的联合国教育机构联合国教科文组织未来学习与创新主任索比·塔维尔 (Sobhi Tawil) 表示，社会需要帮助学生了解大语言模型的优势和风险，而不仅仅是禁止他们使用该技术。9月，联合国教科文组织发布了一份题为《生成式人工智能教育和研究指南》的报告。其主要建议之一是教育机构在使用 ChatGPT 等工具支持学习之前先对其进行验证。

商业公司正在营销一些教育聊天机器人助手工具，它们基于OpenAI的LLM技术，帮助学校教师规划课程活动并评估学生的作业。学术界还开发了其他工具，例如由宾夕法尼亚州立大学计算机科学家 Rebecca Passonneau 团队创建的 PyrEval 4，用于阅读论文并提取关键思想。

在威斯康星大学麦迪逊分校教育心理学家 Sadhana Puntambekar 的帮助下，PyrEval在过去三年中每年对约 2,000 名中学生在科学课上撰写的物理论文5进行评分。Puntambekar 表示，这些论文没有给出传统的评分，但 PyrEval 使教师能够快速检查作业是否包含关键主题，并在课堂上提供反馈，否则这是不可能的。

PyrEval 的分数还可以帮助学生反思他们的工作：如果人工智能没有检测到学生认为他们已经包含的主题，则可能表明该想法需要更清楚地解释，或者他们犯了小的概念或语法错误。该团队现在要求 ChatGPT 和其他大语言模型完成相同的任务，并比较结果。

引入AI导师

其他组织也在使用人工智能直接帮助学生。这可能是除 ChatGPT 本身之外使用最广泛的基于 LLM 教育工具的方法；AI导师兼助教Khanmigo。该工具是 OpenAI 与加利福尼亚州山景城教育非营利组织可汗学院合作的成果。Khanmigo 使用 GPT-4 在学生完成练习时为他们提供提示，从而节省了教师的时间。

Khanmigo 的工作方式与 ChatGPT 不同。它在学生的计算机屏幕上显示为弹出式聊天机器人。学生可以讨论他们正在解决的问题。该工具在将学生的查询发送到 GPT-4 之前会自动添加提示，指示机器人不要放弃答案，而是提出大量问题。

该学院的首席学习官克里斯汀·迪塞博（Kristen DiCerbo）将这一过程称为“富有成效的斗争”。但她承认，Khanmigo 仍处于试点阶段，有助于学习的问题和因困难而导致学生放弃的问题之间存在着微妙的界限。“关键是要找出那条线在哪里，”她说。

Khanmigo 于 3 月份首次推出，据可汗学院称，本学年有超过 28,000 名美国教师、以及 11 至 18 岁学生正在试用这款人工智能助手。用户包括私人订户以及 30 多个学区。个人每年支付 99 美元来支付大语言模型的计算费用，学区每年为每位学生支付 60 美元的费用。为了保护学生隐私，OpenAI 同意不使用 Khanmigo 数据进行训练。

但 Khanmigo 能否真正彻底改变教育仍不清楚。大语言模型接受的训练是只包含句子中下一个最可能的单词，而不是检查事实。因此，他们有时会犯错。DiCerbo 表示，为了提高准确性，Khanmigo 发送给 GPT-4 的提示现在包含了正确的指导答案。然而，它仍然会犯错误，可汗学院要求用户在犯错误时告知组织。

Lynch 说 Khanmigo 似乎表现不错。但他警告说：“我还没有看到明确的验证。”

更广泛地说，Lynch 强调，重要的是，在教育中使用的任何聊天机器人都必须仔细检查其语气和准确性，并且它不会侮辱或贬低学生，或让他们感到迷失。“情感是学习的关键。不好的方式将破坏学生的学习兴趣，”ynch说。

DiCerbo 指出，Khanmigo 在每种情况下对每个学生的反应都不同，她希望这能让机器人比以前的辅导系统更具吸引力。可汗学院预计在 2024 年底或 2025 年初分享其关于 Khanmigo 功效的研究。

增强检索

创建人工智能学习伙伴的另一种方法是将大语言模型与经过严格验证的外部、重点知识库（例如教科书或一组科学论文）相结合。这种检索增强生成（RAG）方法的目标是避免无法验证数十亿文本源的情况，这些文本源赋予大语言模型会话能力。

纽约市的人工智能公司 Merlyn Mind 正在其面向教育的开源 Corpus-qa LLM 中使用 RAG。与 ChatGPT 一样，Merlyn Mind 的大语言模型最初接受了大量与教育无关的文本训练，这赋予了它会话能力。

但与 ChatGPT 不同的是，当 LLM 回答查询时，它不仅仅依赖于在训练中学到的知识。相反，它还指向一个特定的信息库，可以最大限度地减少幻觉和其他错误，该公司首席执行官萨蒂亚·尼塔(Satya Nitta)说。Nitta 表示，Merlyn Mind 还会对大语言模型进行微调，让他们在没有高质量回应的情况下“坦白”，并努力提供更好的答案，从而在许多情况下抵制幻觉。

纽约市教育技术公司的投资者 GSV Ventures 的副总裁克莱尔·佐 (Claire Zau) 表示，亚利桑那州立大学也正在使用 RAG，亚利桑那州立大学是采用大语言模型最先进的大学之一。经过最初的小范围测试后，亚利桑那州立大学于 10 月份推出了一个工具箱，使其教职人员能够通过网络界面试验教育领域的大语言模型。这包括访问六个大语言模型，包括 GPT-3.5、GPT-4 和 Google 的 Bard，以及 RAG 功能。

这些工具将使更多研究人员（例如 Beghetto）能够构建聊天机器人供学生互动。在最初的研讨会结束后，Beghetto 计划在他正在开发的课程中使用这些机器人。亚利桑那州立大学人工智能加速执行董事、驻菲尼克斯的伊丽莎白·雷利 (Elizabeth Reilley) 表示，亚利桑那州立大学在其私有云中托管了大语言模型的安全版本，以最大程度地减少隐私问题。

Reilley 表示，这些机器人已经对亚利桑那州立大学的教育产生了积极影响。例如，她说，为亚利桑那州立大学的化学入门课程创建的机器人使用 RAG 将 GPT-3.5 与 PDF 和 PowerPoint 课程材料结合起来。她举了一个测试的例子，想象一名热爱棒球的学生向大语言模型询问基于该运动的分子中偶极子相互作用的解释。她说，这个回应是一个准确的解释，其中融入了“一个棒球的比喻，使之更有意义”。

亚利桑那州立大学坦佩学习工程研究所执行主任 Danielle McNamara 表示，将通用大语言模型与 RAG 相结合与以前的机器学习方法不同，以前的机器学习方法试图训练人工智能系统来模拟科学专家。这些工具缺乏可以帮助学生的通用功能，例如将棒球融入化学概念的能力。McNamara 和她的同事现在计划研究亚利桑那州立大学使用的聊天机器人和大语言模型工具的有效性。

它会流行吗？

关于在教育中使用人工智能的一个重要问题是谁将能够使用人工智能，以及 Khanmigo 等付费服务是否会加剧现有的教育资源不平等。DiCerbo 表示，可汗学院现在正在寻找慈善家和赠款，以帮助支付计算能力并为资源不足的学校提供入学机会，并在试点阶段优先考虑这些学校。“我们正在努力确保数字鸿沟不会发生，”她说。

另一个挑战是如何确保大语言模型提供的信息没有偏见，并且考虑来自代表性不足群体的知识和观点。大语言模型接受培训的大部分文本中都没有此类信息。位于坦佩的亚利桑那州立大学负责研究技术的副校长肖恩·杜德利 (Sean Dudley) 表示，RAG 使亚利桑那州立大学的大语言模型平台能够为用户提供答案来源。这并不能消除偏见问题，但他希望这至少能够提供透明度，并让学生有机会批判性地考虑信息的来源。“我们的使命之一就是询问谁被排除在外。”

大语言模型对教育的承诺最终是否会超过风险仍不清楚。Lynch 承认它们是强大的工具，但也努力关注它们的缺点。“我们并不能一夜之间就学会了飞行。”

Lynch 将大语言模型所吸引的注意力与之前对大规模在线开放课程MOOC和 3D 虚拟世界（元宇宙）教育用途的大量关注进行了比较。两者都没有一些人曾经预测的变革力量，但都有各自的用途。“从某种意义上说，这将是一样的。不算太差，但它并不完美。这不是全部，但这是一个新事物。”

在联合国教科文组织从事教育工作二十多年的 Tawil 表示，了解人工智能的局限性至关重要。与此同时，大语言模型现在与人类的努力紧密相连，他表示重新思考如何教授和评估学习是至关重要的。“它正在重新定义我们人类的本质以及我们智力的独特之处。”

其他阅读

知乎2023财年Q3业绩：收入10.2亿元，增长12%；职业培训收入1.4亿元，增长86%

高途2023财年Q3业绩：营收7.9亿元，增长30%；净亏损额5766万元，同比收窄6%

抖音双11：小猿硬件跻身3C数码Top10，学而思图书教育领先，泡泡玛特位居玩具乐器榜首

Edtech创始人从融资1700万美元到关闭的7条经验教训

增强数字化课堂的 10 个教育科技工具

Edtech+AI：正在发生什么以及下一步可以做什么？

“上市即巅峰？”又一家成人学习公司股价暴跌，量子之歌一周跌去65%

识别技能差距，为企业员工提供技能提升服务，这家AI学习平台获投3800万美元