自适应学习的强化学习

贡献者

& AI for 教育 2019计划 委员会成员

泰米尔纳德邦Pandian Saraswathi Yadav工程学院助理教授

这篇研究文章可以帮助在自适应电子学习和个性化学习下进行研究的读者。通常,在开发电子学习系统时,从协助最终用户,促进学习过程和增强学习成果的角度来看,仍然存在许多挑战。本文提出了一种基于学习者活动,学习目标和教学设计策略,动态组成自适应电子学习课程的方法 强化学习 因此,这种技术试图适应学习者,学习者和指导者的要求。此外,这里在设计动态课程模块时应用了教学设计策略。

RL学习课程构成代理

强化学习(RL)技术可自动学习学习者的行为,并根据学习者的积极和/或消极反馈提供实现学习目标所需的课程材料。 在这项工作中,学习者可以浏览电子学习系统,选择课程,学习课程,练习,做作业和回答评估。电子学习系统会跟踪学生的导航日志文件。我们的在线学习系统在这里充当了智能代理的角色。它可以感知学习者的各种互动,并选择学习者的最佳反应,从而增强学习者的学习体验。如果同一学习者再次使用电子学习系统,则我们的RL代理观察到的先前学习的选项将以与上次相同的方式提供最佳的学习内容。强化学习场景(Q学习)由状态,动作和奖励(正/负)描述。

Q学习算法 (Watkins,1989):Q学习是一种无模型的强化学习形式(Watkins&达扬(1992)。问题域(在线学习)由代理商,其各种状态组成 S,每个状态的一组动作 A以及转换(代理可以通过执行某些操作从一种状态转移到另一种状态 a)。转换(下一个状态)为代理提供了奖励。代理程序的目标是通过优化每个状态的操作以最大化总回报来实现的。因此,Q函数计算每个状态-动作组合的优良性。最初,Q函数返回固定值,该固定值是在设计算法时设置的。然后,在每个过渡期间,当代理商获得奖励时,将计算新值并更新Q表。我们在这里使用的Q函数是

(1)

t – Current state

t+1 – Next state

AI Time Journal资源
您正在学习数据科学吗?

Check out what 图书 帮助20多个成功的数据科学家成长。

Q (St, 一种t)–当前状态的Q值

R (St, 一种t)–为执行动作a而获得的奖励t在S中t

α –学习率(0≤α≤1)

γ–确定未来奖励的重要性的折现因子(0≤α≤1)

 Q学习被称为“非政策”’ or 与策略无关的算法,因为它不依赖于任何策略。政策 是决策过程,用于选择给定状态的动作。 Q学习采用贪婪机制,并选择最大的 状态-动作对的Q值,可以从当前状态获得。 代理人通过探索学习经验。每次探索都是 称为情节(萨顿& Barto, 1998).

1.在Q学习中,如果折扣因子(γ)的值设置为0,则γ= 0:这意味着可以在不考虑新状态的情况下进行更新。

(2)

一种。如果将学习率(α)值设置为0,则α= 0:表示不进行学习,并且Q值保持不变。

(3)

b。如果将学习率(α)值设置为1,则α= 1:这意味着代理将仅考虑最新信息,这仅是奖励。

(4)

C。如果学习率α= 0.5,则给定奖励,新旧Q值相交。

因此,折现率γ为0。代理只会考虑当前的奖励。

2.如果折扣因子γ= 1,则α= 1,则意味着状态的更新Q值等于奖励加上该状态可能的Q值的最大值。

(5)

图1显示了“线性数据结构”主题下的单个课程的学习模块


图1.单个课程的学习模块1.1

在这个 工作中,可能的状态是学习模块,例如课程,练习, 作业和评估。动作是学习,学习额外的材料, 解决练习,执行测试,提交作业并退出 系统/课程。我们定义为“评级”的奖励’从0到10的范围。 学习者的评分为(3<= 5)中的测试表现 课程,那么他/她将获得较低水平的练习(学习 模块)。如果评分为(6<= 8),那么中等水平的练习将是 提供。如果评分为(9<= 10),那么高水平的运动将是 提供。如果学习者接受(0<= 2)评分,他/她需要额外学习 RL代理提供的学习材料。同样,我们配置 并提供低,中和高级别的作业。图2显示了 各种状态,转变及其对 单个学习中所有学习模块(节点)的上述评分 lesson.

图2.单个课程的状态-动作-奖励图

早期阶段(初始情节)结束后,系统将学习要获得最大奖励的最佳操作。在将来的所有交互中,系统都会根据奖励表的值选择最佳的学习路径,并继续执行。但是,在我们的系统中,学习者还可以通过采取一些新的行动来选择自己的道路(偏离先前的道路)。在这种情况下,奖励表将获得新值并完全更新。

状态及其相应操作的样本奖励表

动态课程的教学设计 Composition

教学设计是艺术 建立教学环境和资源。教学设计是 基于认知领域的理论和实践研究, 教育心理学和解决问题的能力。教学的重要性 策略就是最佳实践的创造’各个方面的指南 教学过程,即在线计划和管理 指导,教学技巧,学生评估和评估 技术。 ID是您必须了解的初始概念 电子学习中成功的课程计划。理论是学习产生 学习者的可测量或可证明的变化’身体思维能力 能力或态度。因此,可以构建课程以达到一个或 更具体的学习目标。然后,根据 有组织的一组特定的学习目标。

Alonso等人(2005)提出了一种基于系统的教学模型 教学和学习的发展,包括七个阶段: 分析,设计,开发,实施,执行,评估和 评论。该模型包括一系列心理教育处方, 描述学习过程。有很多不同的 教学设计模型。 ADDIE是著名的。在电子学习中 教学设计通常与ADDIE模型相关, 描述整个课程的过程。作者还说 电子学习有时被视为教学设计的一个子集,是一种 教育学与数字技术之间的伙伴关系。

在本研究中,我们在设计动态课程时遵循Dick和Carey ID模型。该模型通常遵循ADDIE概念,但是在每个阶段都提供了特定于任务的过程步骤。 Gustafson 和 Branch(2001)将模型的分类学描述为面向教室,面向产品和面向系统。面向课堂的模型通常会输出几个小时的课程指导。它假设一个教师,学生,一间教室和一条需要增强的指令。面向产品的模型具有指导性包装的输出,并专注于提高生产效率。最后,面向系统的模型具有课程或课程表的输出。它旨在提供一个完整的教学系统来管理学习需求(Prestera,2002)。

在这项工作中,我们使用面向系统的模型(Dick和Carey)。这是一个迭代过程,适用于一系列内容区域。该模型也许是系统设计模型中最著名的模型,并且是所有其他ID模型所基于的标准(Gustafson和Branch,2002)。该模型将指令视为系统的过程,其中所有组件(即老师,学生,材料和学习环境)对于成功学习至关重要。所有系统组件都相互依赖进行输入和输出。整个系统使用反馈来确定是否达到了期望的目标(Dick 和 Carey,1990)。在设计学习课程时,我们执行Dick 和 Carey模型的以下步骤:(i)定义教学目标,(ii)进行教学分析,(iii)定义入学行为和学习者特征,(iv)概述绩效目标,( v)创建测试和评估以确保学习者必要的先决条件,确定学习者的进步并评估学习过程,(vi)创建学习活动的蓝图,这些学习活动将转移,发展和加强在学习过程中阐述的技能和知识绩效目标,(vii)收集教学材料,(viii) 进行形成性评估(分析学习材料,学生的学习和成就),以及(ix)进行总结性评估(系统有效性和结果分析)。图3显示了我们在设计学习课程时遵循的教学设计步骤。


图3.动态课程构成的Dick-Carey模型

结论

这项研究 文章提出了一种针对学习者的动态学习内容选择机制 每次获得适合自己的学习内容并组成学习 使用强化学习动态地进行自适应电子学习课程 技术。此外,我们遵循教学设计政策 组成学习课程。

贡献者

& AI for 教育 2019计划 委员会成员

泰米尔纳德邦Pandian Saraswathi Yadav工程学院助理教授

贡献者表达的观点是他们自己的观点。

关于Premlatha KR

& AI for 教育 2019计划 委员会成员 泰米尔纳德邦Pandian Saraswathi Yadav工程学院助理教授

查看Premlatha KR的所有帖子→