AI技术前沿:从计算机使用模型到智能眼镜
探索最新人工智能技术突破与应用
computer 微软FARA 7B:紧凑而强大的计算机使用模型
微软发布的70亿参数FARA 7B模型,专为计算机操作设计的智能代理。通过纯视觉感知和合成数据训练,在端侧实现了超越更大模型的高效能与安全性。模型基于Qwen2.5-VL-7B构建,具备处理长达128k token上下文的能力,在视觉定位方面表现优异。模型接收屏幕截图作为输入,直接通过分析像素信息来预测操作,无需解析代码。微软构建了基于Magentic-One框架的合成数据生成系统,通过多智能体协作自动化生成海量高质量训练数据。
public MBZUAI的PAN世界模型:改进视频步长记忆
阿联酋穆罕默德·本·扎耶德人工智能大学(MBZUAI)发布的PAN"世界模型",结合了大语言模型和其他先进技术。特性包括:通用性、交互性、长期一致性。能够使智能体想象、预测和推理世界如何响应其行动而演变。使用生成潜在预测的架构,通过视频仿真预测未来状态,并使用"因果滑动窗口"过程消除视觉不一致性。预计将在12月初作为网络应用程序向公众开放。
image 谷歌Gemini的互动图像:从Imagen 2到Imagen 3
Gemini最近从Imagen 2升级到Imagen 3,这是Google最高质量的文本到图像模型。Imagen 3可以创建具有细粒度细节的图像,生成逼真的照片级图像。谷歌正在开发让用户对生成的图片类型有更多控制的选项。Gemini 2.0 Flash具备原生图像生成功能,可在用户输入文本提示的同一模型中原生生成图像。支持文本和图像讲故事、对话式图像编辑、基于世界知识的图像生成和改进的文本渲染。
shopping_cart Perplexity的新购物助手:AI驱动的个性化购物体验
Perplexity推出的AI购物助手,在美国上线,用户可以免费使用。用户可以输入产品信息,通过后续提问细化搜索结果。产品推荐以卡片形式展示,包括详细规格和用户评价。支持通过PayPal完成购买。能够记住用户之前的互动,提供个性化推荐。目前在桌面和网页版提供,未来将推出iOS和Android移动版本。
visibility 阿里巴巴在中国推出AI眼镜:Quark S1与G1系列
阿里巴巴在中国推出了Quark AI眼镜,正式进入AI驱动的智能眼镜竞争领域。产品有两个版本:旗舰版S1和"生活化定位"的G1。S1起售价为3799元,G1起售价为1899元。S1配备了透明micro-OLED显示屏,支持双目显示;G1无显示功能,主打轻便亲民。两款眼镜都配备了骨传导麦克风、内置摄像头,以及创新的"可更换双电池系统",能够提供长达24小时的续航时间。产品搭载阿里巴巴的大语言模型通义千问和配套应用,支持语音或触控操作。与支付宝、淘宝等自家应用深度整合,同时兼容QQ音乐、网易云音乐等流媒体平台。主要功能包括实时翻译、即时价格识别、导航辅助和会议转录等服务。国际版本将于明年推出。