-九章云极DataCanvas-人工智能基础设施及智算云提供商

SimpleDeepSearcher Deep Information Seeking via Web-Powered Reasoning Trajectory Synthesis

论文发表

By admin

2025-10-08 15:16:37 热度 0

SimpleDeepSearcher Deep Information Seeking via Web-Powered Reasoning Trajectory Synthesis

0

阅 0

YuLan-Mini :Pushing the Limits of Open Data-efficient Language Model

论文发表

By admin

2025-08-01 15:21:36 热度 0

YuLan-Mini :Pushing the Limits of Open Data-efficient Language Model

0

阅 0

Smart-Searcher Incentivizing the Dynamic Knowledge Acquisition of LLMs via Reinforcement Learning

论文发表

By admin

2025-05-22 15:14:01 热度 0

Smart-Searcher Incentivizing the Dynamic Knowledge Acquisition of LLMs via Reinforcement Learning

0

阅 0

论文发表

By admin

2025-05-21 15:19:28 热度 6

国际顶会ACL录用九章云极DataCanvas科研论文破解语言模型类比推理难题

近日，九章云极DataCanvas公司科研团队的研究成果《Can Language Models Serve as Analogy Annotators?》被国际计算语言学顶会ACL录用为Findings论文。

0

阅 6

CAFE :Retrieval Head-based Coarse-to-Fine Information Seeking to Enhance Multi-Document QA Capability

论文发表

By admin

2025-05-15 14:54:06 热度 0

CAFE :Retrieval Head-based Coarse-to-Fine Information Seeking to Enhance Multi-Document QA Capability

0

阅 0

DyCAST Learning Dynamic Causal Structure from Time Series-《ICLR会议》2025

论文发表

By admin

2025-04-28 18:23:03 热度 0

DyCAST Learning Dynamic Causal Structure from Time Series-《ICLR会议》2025

理解因果结构的动态演变对揭示时间序列数据的潜在生成过程至关重要。现有方法依赖静态假设，即同期和时滞依赖关系被假定为具有不变的拓扑结构。然而，当潜在过程呈现动态特性时，这类模型无法捕捉变量间不断演变的因果关系。为解决这一局限性，我们提出 DyCAST—— 一种利用神经常微分方程（Neural ODEs）学习时间序列动态因果结构的新型框架。本研究的核心创新在于：受约束流形上神经 ODE 最新进展的启发，我们对同期结构的时间动态进行建模。具体而言，将每个时间步的因果结构学习任务重新定义为求解有向无环图（DAG）流形上神经 ODE 的解轨迹。为适应高维因果结构，我们通过学习同期因果结构隐藏状态的时间动态对 DyCAST 进行了扩展。在合成数据集和真实数据集上的实验表明，DyCAST 与现有因果发现模型相比，取得了更优或可比的性能表现。

0

阅 0

A Solvable Attention for Neural Scaling LaWS-《ICLR会议》2025

论文发表

By admin

2025-04-28 18:12:25 热度 0

A Solvable Attention for Neural Scaling LaWS-《ICLR会议》2025

经验证明，Transformer 等深度学习模型的性能会随着训练时间、模型规模或训练数据量的幂律增长呈现可预测的提升，这一现象被称为神经缩放定律。本文针对 Transformer 架构的理论场景，深入研究这一有趣现象。具体而言，我们提出了一个线性自注意力（即不含 softmax 的 Transformer 基础模块）的上下文学习框架，将其学习动态建模为非线性常微分方程（ODE）系统。进一步地，我们通过将 ODE 系统重构为黎卡提方程，建立了一种推导其可处理近似解的方法，从而精确刻画了线性自注意力在训练时间、模型规模、数据量及最优计算资源下的神经缩放定律。此外，研究发现：当上下文学习的序列长度固定时，线性自注意力与其他若干架构共享相似的神经缩放定律；否则将表现出不同的训练时间缩放规律。

0

阅 0

Effects of Momentum in Implicit Bias of Gradient Flow for Diagonal Linear Networks-《AAAI会议》2025

论文发表

By admin

2025-03-04 18:05:58 热度 0

Effects of Momentum in Implicit Bias of Gradient Flow for Diagonal Linear Networks-《AAAI会议》2025

本文聚焦于回归场景中基于动量的方法的正则化效应，并分析了常见的对角线性网络，以精确刻画重球法（HB）和涅斯捷罗夫加速梯度法（NAG）连续版本的隐式偏差。我们表明，对于对角线性网络，HB 和 NAG 展现出与梯度下降法（GD）不同的隐式偏差，这与经典线性回归问题的情况有所不同，在经典线性回归问题中，基于动量的方法与 GD 具有相同的隐式偏差。具体而言，动量在 GD 隐式偏差中的作用有两方面：(a) HB 和 NAG 会引发类似于随机梯度下降法（SGD）的额外初始化缓解效应，这有利于稀疏回归的泛化；(b) HB 和 NAG 的隐式正则化效应还明确取决于梯度的初始化情况，而这对泛化而言可能并非有益。因此，HB 和 NAG 是否比 GD 具有更好的泛化性能，共同取决于上述由学习率、动量因子、梯度积分等各种参数所决定的两方面效应。我们的研究结果凸显了动量潜在的有益作用，并有助于理解它在实践中的优势，例如何时能带来更优的泛化性能。

0

阅 0