AAAI 2019四篇杰作揭晓科技界的星光闪耀

1月27日至2月1日,在美国夏威夷举办的第33届人工智能学术会议AAAI即将开幕,正会内容从1月29日开始。近日,AAAI组委会在官网公布了几个论文奖奖项的获奖情况。

第一篇论文《How to Combine Tree-Search Methods in Reinforcement Learning》探讨了如何在强化学习中结合树搜索方法。这类方法在实证研究中表现出色,但通常需要与具体规划方法结合,如蒙特卡洛树搜索(AlphaZero就是这样做的)。然而,这种做法并不具备一般化的收缩性,也无法保证收敛。作者们提出了一个改进方法思路,即用最优路径返回值备份根节点子节点值,以实现γh收缩过程。在噪声注入的情况下提供了收敛速率结果。

第二篇论文《Solving Imperfect-Information Games via Discounted Regret Minimization》提出了一种新的CFR变体,它通过多种方式给较早迭代中的后悔值打上折扣,并赋予不同迭代不同的权重。在多种设定下,这些改进都能提高表现。该变体在所有测试博弈中都比现有最佳算法CFR+表现更好。

第三篇论文《Zero Shot Learning for Code Education: Rubric Sampling with Deep Learning Inference》用于编程教育领域,提出了一种名为“提示采样”的方法,用来处理无样本学习问题。此方法不需要历史数据,可以为初学者提供高质量反馈,而且接近人类级别可信度。这种基于深度学习推理的人参与式提示采样可以提供和学生回答相关部分相关反馈,以及指出误解之处。

第四篇论文《Learning to Teach in Cooperative Multiagent Reinforcement Learning》首次为多智能体环境中的智慧智能体提出了一个通用的框架和算法——「学习协调与学习强化」(LeCTR),针对的是合作多智能体强化学习中的点对点教学。这一算法让每个智能体学会指导、指导什么内容,并使用接收到的建议改进自己的学习,同时这些角色是动态变化的;智能体会决定是否成为学生或老师以提高团队范围内表现和能力。

最后,《Content-Boosted Collaborative Filtering for Improved Recommendations》的经典论文展示了推荐系统中基于内容和合作式过滤补充方案,该文由Prem Melville撰写,将在大会上发表演讲。

更多会议内容报道请继续关注雷锋网 AI 科技评论。