本申请提供一种模型训练方法、航线规划方法及相关装置,涉及机器学习领域。其中,获取基于强化学习的待训练模型;通过待训练模型获得训练船舶与环境交互产生的经验集;根据经验集更新待训练模型,直至待训练模型满足训练条件后,得到航线规划模型。该经验集中的每条历史经验,包括训练船舶执行待训练模型生成的航行动作所获得的即时奖励以及新的航行状态;由于该即时奖励包括与新的航行状态的新颖性成正相关的内部即时奖励,而该新颖性表征新的航行状态与常规航行状态之间的差异,因此,在训练强化学习模型制定航行路线的过程中,能够提高对环境的探索效率。