| 成果基本信息 | ||||||
| 关键词: | 资源分配方法,强化学习 | |||||
| 成果类别: | 应用技术 | 技术成熟度: | 初期阶段 | |||
| 体现形式(基础理论类): | 其他 | 体现形式(应用技术类): | 新技术 | |||
| 成果登记号: | 资源采集日期: | |||||
| 研究情况 | |||||
| 单位名称: | 武汉理工大学 | 技术水平: | 未评价 | ||
| 评价证书号: | 评价单位: | ||||
| 评价日期: | 评价证书号: | ||||
| 转化情况 | |||||
| 转让范围: | 合作开发 | 推广形式: | 合作开发 | ||
| 已转让企业数(个): | |||||
| 联系方式 | |||||
| 联系人(平台): | 孵化基地 | 联系人(平台)电话: | 0771-3394012 | ||
| *成果单位详细联系方式请登录会员;还不是会员,马上注册! | |||||
| 成果简介 | |||||
本发明公开了一种云边协同的双利益均衡禁忌强化学习资源分配方法,包括:1)建立云边环境下的资源分配框架;2)确定用户利益优化目标函数、服务商利益优化目标函数和双边利益均衡目标函数;3)在资源分配器中构建强化学习三要素;4)选择计算节点ai;5)根据所选择的动作ai进行更新,得到新的状态st+1;6)根据新的状态st+1,模拟出动作a′i;7)计算目标值8)计算Actor‑Critic网络参数ηQ;9)更新Actor‑Critic网络参数;步骤10)重复步骤3)~9),直到Actor‑Critic网络收敛,得到了双边利益均衡目标函数的最优解。本发明将服务商的平均资源利用率作为服务商利益指标,通过禁忌强化学习方法面对实时动态的用户任务自适应地做出最优的资源分配决策 |