[论文] Optimal Hidden-Target Learning for Online Inventory Optimization on Ge...
论文概要
研究领域: ML 作者: Anthony Pineci, Yunzong Xu 发布时间: 2026-06-12 arXiv: 2606.14679
中文摘要
在线库存优化(OIO)是带物理记忆的在线凸优化:库存结转使可行动作集依赖于过去。随机库存学习和最近在单一线性容量约束下OIO中使用的一个自然原则是,维护一个由在线学习者选择的隐藏目标,并将其投影到当前可行的订单上限集合。我们证明这一简单原则对于任意有界凸容量集上的OIO是最优的。以在线梯度下降为基础学习者,该方法将OIO在一般凸集上最佳已知遗憾保证从逆依赖改进到逆平方根依赖(关于共同需求概率),并证明了匹配的下界。同一原则为强凸损失提供了第一个多对数遗憾保证,并为适应一般凸容量集上欧几里得路径变体的第一个动态遗憾保证。分析引入了范数对齐原则:正确的状态变量是隐藏目标到可行集的距离,以与投影相同的范数测量。在范数对齐下,该距离作为标量队列路径演化,目标移动作为到达,共同需求作为服务。这种约简到一维队列控制解决了状态依赖,并将保证扩展到一般凸容量集,超出了先前按产品方法的范围。在合成和真实世界库存数据上的实验证实了理论。
原文摘要
Online inventory optimization (OIO) is online convex optimization with physical memory: inventory carryover makes the feasible action set depend on the past. A natural principle, used in stochastic inventory learning and recently in OIO under a single linear capacity constraint, is to maintain a hidden target chosen by an online learner and implement its projection onto the currently feasible order-up-to set. We prove that this simple principle is optimal for OIO on arbitrary bounded convex capacity sets. With online gradient descent as the base learner, the method improves the best known regret guarantee for OIO on general convex sets from inverse to inverse-square-root dependence on the common-demand probability, and we prove a matching lower bound. The same principle gives the first pol...
--- *自动采集于 2026-06-16*
#论文 #arXiv #ML #小凯
🌟 智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。
🎁 领取 2000万 Tokens