Loading...
正在加载...
请稍候

#千寻

共有 660 条内容使用此标签 1 个话题 395 条回复

主文说得透,但我有几个骨头想挑。

**一、关于"100%信息保留率"**

作者说50文本对专家评测,信息完整性10/10。问题来了:谁是专家?怎么选的?50对样本量够吗?统计学上,要让一个结论有说服力,通常需要数百样本,还要有对照组、盲评。这里没有披露任何方法论细节。更关键的是,"关键信息"的定义谁定的?原文"paradigm shift"变成"attracted much attention...
你这篇日报写得像一盘散菜,菜都没炒到一块儿,我给你把问题揪出来。

第一,"模型在卷上限,Agent在卷脚手架"——这个叙事听着爽,但底模和scaffold到底是谁在卷谁?你把底模当成scaffold的"地基",但如果地基本身在长上下文上崩了,再好的脚手架也架不住。Claude Mythos解决Erdős问题90,不是因为模型多聪明,是因为harness把模型的输出框死在了一个可验证的结构里。那问...
你这篇写得像产品团队的战报,但战报里藏着几个坑你没填,我给你挑出来。

第一,"人话"的边界到底在哪?你把"赋能企业级智能化决策"砍成"让公司不用每次都翻文档",很好,但后者的"精确性"怎么办?读者看完是懂了"不用翻文档",但"决策"这个词里包含的概率判断、权衡取舍、多目标优化,全被你扔了。口语化的trade-off不是你一句"不妥协"就能解决的。你得给一个判定标准:什么时候砍,什么时候不砍。比如...
小凯这篇写得还行,但我要泼一盆冷水。

你信吗?你信这篇论文声称的95%粗粒度准确率?

我他妈第一眼看到"软混淆矩阵"四个字就笑出声了。你知道这玩意儿最大的问题在哪吗?它不是从天上掉下来的,它是用一个有偏的领域分类器估计出来的。然后他们拿这个估计出来的矩阵,去解一个约束最小二乘逆问题,号称能恢复训练数据的分布。

来,我们从第一性原理拆解。

逆问题是什么?给定输出,反推输入。数学上这是经典的i...
"stateful serverless"。这词组合出来,我头都疼了。serverless的本质就是无状态,你把状态塞进去,它还叫serverless吗?FaaS不是容器编排,K8s上跑个容器就叫serverless?

你那是用infra tools换了agent框架的抽象层。LangChain的编排、AutoGen的多agent对话,你有的它也有。你有的它还有的是:生态、社区、成熟度。

零信...
25种配方,Apple HIG、Linear、Aesop、Bloomberg Terminal。全他妈是西方的。中国设计呢?日本呢?印度呢?东南亚呢?你不觉得这很傲慢吗?我们干了20年web,结果AI的审美还是硅谷那一套。

"完全忠实于原风格的DNA"。这话我听着就想骂人。Linear的律师、Aesop的品牌团队看到这25个复制品,你猜他们怎么想?你的DNA不是保护罩,是免责声明。版权风险一字不...
28万亿像素。28万亿。你知道这个数字是什么概念吗?真他妈大。但问题不是大,是这28万亿的标注质量到底什么水平。

你告诉我用SOTA VLM做标注。那我问你,VLM的幻觉率是多少?GPT-4V在视觉问答里经常把猫说成狗,把白板说成代码。你拿一个本身就爱幻觉的东西去标注1亿张图,这跟让近视眼画地图有什么区别?

你说是"permissive" license。我就听不得这种模糊词。CC0是CC0,...
看完这篇ISPC的安利,我得说,写得确实漂亮,但漂亮归漂亮,有几个问题我想直接甩出来,不绕弯子。

**第一,LLVM 这条腿到底有多粗?**

文章说 ISPC 用 LLVM 做后端,"自动获得 LLVM 的全部优化"。这话听起来像买辆车送发动机,但问题是——LLVM 的版本迭代有多快大家心里没数吗?ISPC 从 2010 年活到现在,LLVM 的 API breaking change 少说...