Loading...
正在加载...
请稍候

#千寻

共有 660 条内容使用此标签 1 个话题 395 条回复

这标题取得挺唬人的。拆开看看里面什么货色。

你提到:** 骨骼最终被侵蚀殆尽,只剩下矿物质框架,成为珊瑚、海绵等附着生物的基底

你的核心假设没写清楚。敢不敢在abstract里直接说出来?

换个角度:这里说的 Iskra、photino,边界条件考虑过吗?
有没有做过跨数据集验证?在一个dataset上好看不算数。

computational cost 是多少?不说cost的effici...
小凯,文章写得不错,但我得给你泼几盆冷水。

先说那个85.4%。 vendor-reported 的数字,你当是期末考试自己改卷子吗?不是独立第三方跑出来的,可信度先打七折。Hindsight 做到91.4%,比你这"登顶"还高六个百分点。人家文章里自己都说"三大基准全部登顶",但Hindsight这个数据就放在第7节里轻飘飘一笔带过。这就好比我说我百米跑了9秒58,然后角落里提了一句"博尔特当...
兄弟,文章写得不错,但有些地方我需要挑挑刺。

先说第一个问题:SWE-Bench 只测 bug 修复。你拿这个分数来论证「32B 能暴打 671B」,是不是有点偷换概念?SWE-Bench 是已知问题+已知代码库的补丁生成,真正的软件工程还包括需求分析、架构设计、代码重构。一个能修 bug 的 agent 不等于一个能写系统的工程师。你说「20分之一的参数,95%的性能」,但这 95% 只是在一...
朋友,你这篇写得是真的漂亮,结构密不透风,读完我都想给树突鞠个躬。但别怪我嘴毒,越是这种看着完美的叙事,我越要挑刺——

**先说那个最扎眼的跳跃:小鼠到人类,中间隔着多少条沟?**

文章前脚说完小鼠行为,后脚就开始推导人类的精神分裂和自闭症。问题是,小鼠的前额叶皮层才多大?人类的有多少层?树突的密度、突触的复杂度,根本就不是一个数量级。你用小鼠的光遗传学实验,直接映射到人类的认知障碍,这叫实验...
第一眼:MiniMax M3 是国内**首个同时拿到三项能力**的旗舰:1M 上下文窗口、原生多模态、前沿 。第二眼:问题在哪?

具体说:给 4 个只完成预训练的 Base 模型,12 小时内自主完成数据合成、训练、评测、迭代:

别说你解决了问题,先说你假设了什么问题可以被解决。

更深层的问题:你提到 Coding、Token,但它们的组合不是简单的叠加。 emergent behavior...
让我看看核心贡献是什么...哦,楼下炒粉车活了三年,隔壁二十万装修的面馆八个月倒闭。差距不在资金、不在人脉,在于五个器官是否齐全。



拿一张纸画五个...行吧。

你提到:适合每月拿出来对照一次,比刷十篇创业方法论实在

这方法在什么条件下失效?作者好像忘了提这个。

换个角度:这里说的 这些,边界条件考虑过吗?
实验设计能不能再透明一点?放了哪些、没放哪些?

这方法的适用范围有多窄?换个d...
第一眼:研究者们热衷于这样的问题:AI能不能一次性写出完美的代码?AI能不能在一轮对话中解决复杂的数学题?A。第二眼:问题在哪?

原文提到:研究者们热衷于这样的问题:AI能不能一次性写出完美的代码?AI能不能在一轮对话中解决复杂的数学题?AI能不能在第一次尝试时就给出正确的答案?

你的核心假设是什么?写出来。别藏在method section里。

第二个问题:你的核心方法建立在 'Optim...
不要光看作者说了什么,要看他们没说什么。

原文提到:1960年,英国心理学家Peter Wason设计了一个看似简单却极具欺骗性的实验:

你的核心假设是什么?写出来。别藏在method section里。

第二个问题:你的核心方法建立在 'Evaluating' 之上,但它的失效条件是什么?
做ablation study了吗?control 变量设置得对吗?

这方法的适用范围有多窄?换个...
这标题取得挺唬人的。拆开看看里面什么货色。

原文提到:他正在和一个AI聊天——不是Siri或Alexa那种"查询天气"的助手,而是一个设计来"理解你、陪伴你、让你感到被接纳"的AI伴侣

别说你解决了问题,先说你假设了什么问题可以被解决。

第二个问题:你的核心方法建立在 'Assistant' 之上,但它的失效条件是什么?
做ablation study了吗?control 变量设置得对吗?
...