Loading...
正在加载...
请稍候

📚 论坛主题

欢迎来到 智柴论坛

登录 注册
最新主题
10 个主题
Qoder 还挺好用

✨步子哥 (steper) 发布

估计其后台的模型是Claude系列,并做了自动路由,可以在简单问题的时候用qwen系列降低成本。
回复 1
浏览 22
10-01 14:17
VCP (Variable & Command Protocol) - 新一代 AI 能力增强与进化中间层

✨步子哥 (steper) 发布

<!DOCTYPE html>
<html lang="zh-CN">
<head>
<meta charset="UTF-8">
<meta name="viewport" content="width=device-width, initial-scale=1.0">
<title>VCP (Variable & Command Protocol) - 新一代 AI 能力增强与进化中间层</title>
<link href="https://fonts.googleapis.com/icon?family=Material+Icons" rel="stylesheet">
<link href="https://fonts.googleapis.com/css2?family=Noto+Sans+SC:wght@400;500;700&family=JetBrains+Mono:wght@400;500;700&display=swap" rel="stylesheet">
<style>...
回复 1
浏览 24
10-01 09:17
DeepSeek似乎有点掉链子

✨步子哥 (steper) 发布

模型性能已经持续落后了,到目前为止最新的模型还是比不上Claude Sonnet 4 以及 GPT-5.
回复 4
浏览 10
10-01 14:18
GoMLX 项目近况

✨步子哥 (steper) 发布

截至 2025 年 8 月,GoMLX 仍处于“早期可用”阶段:核心训练-推理链路已跑通,但距离“生产级”还有明显缺口。
1. 功能完成度
• 基础算子:全连接、CNN、LSTM、Multi-Head Attention、KAN、FFT 等已合入主干;ResNet-18/34 可在单 GPU 上完整训练,但 ResNet-50 尚缺 SeparableConv2D,官方放在 TODO 里 。
• 优化器:SGD / Adam / AdamW 已可用,LAMB、Shampoo 等还在 roadmap。
• 自动微分与即时编译:依托 OpenXLA/PJRT,CPU、CUDA 后端都能跑,训练 32-128 样本的小 batch 速度与 PyTorch-CPU 基本持平 。
• 预训练模型:暂无直接加载 HuggingFace 权重的能力;社区给出了 onnx-gomlx 小工具,可先把 PyTorch 模型转 ONNX,再导进 GoMLX 做推理 。
2. 近期进展(2024H2-2025H1)
• v0.3 → v0.4 主要把 CUDA kernel 调用开销降了 30 %,并修复了梯度断流问题;示例里 MNIST/CIFAR-10 收敛曲线已和 PyTorch 官方脚本对齐 。
• 作者 2025-04 的 blog 提到正在做“NaN/Inf 首次出现堆栈跟踪”,方便调试大模型;该特性已合并进主支但未发版 。...
回复 3
浏览 26
09-24 06:21
Ollama Turbo 技术详解:原理、架构与设计思想

✨步子哥 (steper) 发布

<!DOCTYPE html>
<html lang="zh-CN">
<head>
<meta charset="UTF-8">
<meta name="viewport" content="width=device-width, initial-scale=1.0">
<title>Ollama Turbo 技术详解:原理、架构与设计思想</title>
<link href="https://fonts.googleapis.com/icon?family=Material+Icons" rel="stylesheet">
<link href="https://fonts.googleapis.com/css2?family=Noto+Sans+SC:wght@400;500;700&display=swap" rel="stylesheet">
<style>...
回复 0
浏览 8
10-01 10:45
基于概率结构整合的世界建模

✨步子哥 (steper) 发布

<!DOCTYPE html>
<html lang="zh-CN">
<head>
<meta charset="UTF-8">
<meta name="viewport" content="width=device-width, initial-scale=1.0">
<title>基于概率结构整合的世界建模</title>
<link href="https://fonts.googleapis.com/css2?family=Noto+Sans+SC:wght@400;500;700&display=swap" rel="stylesheet">
<link href="https://fonts.googleapis.com/icon?family=Material+Icons" rel="stylesheet">
<style>...
回复 0
浏览 2
10-01 09:13
2025年Prompt Engineering和Context Engineering最新进展论文汇总(9月30日更新)

✨步子哥 (steper) 发布

我搜索了2025年关于Prompt Engineering(提示工程)和Context Engineering(上下文工程)的最新学术论文进展。这些结果主要来源于arXiv平台,我特别关注了9月29-30日的新发布(如2509.22xxx系列),以捕捉领域的最新动态。以下是精选的代表性论文,包括标题、发布日期、简要摘要和链接。为了突出新鲜度,我纳入了9月29-30日的最新作品,并聚焦于逆向提示、自动提示优化和去中心化治理的新进展,避免了前期重复内容。

### Prompt Engineering 最新进展论文
今年,Prompt Engineering的研究聚焦于逆向重建、自动优化和结构化框架。以下是近期论文,优先突出9月29-30日的新作:

1. **Reverse Prompt Engineering**
发布时间:2025年9月29日
摘要:我们探索了一种在严格黑箱、零样本和有限数据条件下进行语言模型反转的新问题,提出了一种无需训练的框架,仅使用有限的文本输出来重建提示。与依赖大量输出的现有方法相比,我们的方法在资源有限的情况下,始终生成连贯且语义上有意义的提示。
链接:https://arxiv.org/abs/2509.22001...
回复 0
浏览 3
10-01 08:24
Prompt Engineering与Context Engineering:从艺术到科学的演进

✨步子哥 (steper) 发布

<!DOCTYPE html>
<html lang="zh-CN">

<head>
<meta charset="utf-8" />
<meta content="width=device-width, initial-scale=1.0" name="viewport" />
<title>Prompt Engineering与Context Engineering:从艺术到科学的演进</title>
<script src="https://cdn.tailwindcss.com"></script>
<link href="https://fonts.googleapis.com/css2?family=Crimson+Text:ital,wght@0,400;0,600;1,400&amp;family=Inter:wght@300;400;500;600;700&amp;display=swap" rel="stylesheet" />...
回复 0
浏览 19
09-29 15:13
RediSearch与Go语言GIS生态系统深度整合报告

✨步子哥 (steper) 发布

<!DOCTYPE html><html lang="zh-CN"><head>
<meta charset="UTF-8"/>
<meta name="viewport" content="width=device-width, initial-scale=1.0"/>
<title>RediSearch与Go语言GIS生态系统深度整合报告</title>
<script src="https://cdn.tailwindcss.com"></script>
<script src="https://cdnjs.cloudflare.com/ajax/libs/mermaid/11.5.0/mermaid.min.js"></script>
<link href="https://fonts.googleapis.com/css2?family=Crimson+Text:ital,wght@0,400;0,600;1,400&amp;family=Inter:wght@300;400;500;600;700&amp;display=swap" rel="stylesheet"/>
<link rel="stylesheet" href="https://cdnjs.cloudflare.com/ajax/libs/font-awesome/6.0.0/css/all.min.css"/>
<script>...
回复 1
浏览 36
09-28 08:48
CVOCA 作为一种具体的模型架构或算法

✨步子哥 (steper) 发布

## 1. CVOCA 的核心定义:一种硬件加速器

在对“CVOCA”这一术语进行深入探究后,可以明确指出,它并非指代一种独立的模型架构或算法,而是代表一种专门设计的硬件加速器。其核心定义源于一篇发表于《自然·通讯》(Nature Communications)的学术论文,该论文详细介绍了这一创新技术 。该术语的全称是“Complex-Valued Optical Convolution Accelerator”,中文译为“复值光学卷积加速器” 。这一定义揭示了其三个关键属性:首先,它处理的是“复值”(Complex-Valued)数据,这意味着它能够同时处理数据的幅度和相位信息,这对于处理雷达、声呐和某些光学信号等波现象至关重要;其次,它采用“光学”(Optical)技术进行计算,利用光的物理特性(如波长、相位和强度)来执行数学运算,从而突破传统电子计算的速度和功耗瓶颈;最后,它的核心功能是“卷积加速”(Convolution Accelerator),专门为加速深度学习中最核心且计算最密集的卷积操作而设计。因此,CVOCA的本质是一个为特定类型神经网络(即复值卷积神经网络,CVCNN)提供硬件加速的物理设备,而非一个可以在软件层面独立运行的算法或模型。

### 1.1 全称与功能

#### 1.1.1 Complex-Valued Optical Convolution Accelerator (复值光学卷积加速器)

CVOCA的全称“Complex-Valued Optical Convolution Accelerator”精确地概括了其技术本质和应用领域 。这个名称中的每一个词都具有特定的技术含义。“Complex-Valued”表明该加速器的设计初衷是处理复数数据。在信号处理领域,许多重要的信号,如合成孔径雷达(SAR)图像、磁共振成像(MRI)数据以及通信信号,其本质都是复数,包含了幅度和相位双重信息。传统的实值神经网络在处理这类数据时,通常需要将复数拆分为实部和虚部,或者仅使用幅度信息,这可能导致相位信息的丢失,从而影响模型的性能。CVOCA则能够原生地处理复数,完整地保留并利用相位信息,这对于提升在相位敏感任务中的识别精度至关重要。“Optical”一词指明了其计算媒介是光。与基于电子的CMOS电路不同,光学计算利用光子进行信息传输和处理,具有极高的带宽、极低的延迟和功耗,并且能够在模拟域中并行执行大规模的矩阵-向量乘法,这是实现超高计算性能的关键。“Convolution Accelerator”则定义了其核心任务,即加速卷积运算。卷积是深度学习,特别是卷积神经网络(CNN)的基石,但也是计算量最大的部分。通过设计专门的硬件来加速这一操作,可以极大地提升整个神经网络模型的推理速度和能效比。因此,CVOCA是一个高度专业化的硬件系统,旨在通过光学手段高效地执行复数卷积,为处理复杂的波现象数据提供前所未有的计算能力。...
回复 0
浏览 4
09-29 08:07