模型动态 分类
0

LLM 日报(04-30):Codex 平台化、Cursor SDK 发布、Mistral 与 Granite 4.1 上线

AI 编码智能体平台化迎来标志性一天。OpenAI 将 Codex 从代码工具扩展为通用工作平台并推出 Codex 专属免费席位,Cursor 发布将自身运行时与 harness 暴露给 CI/CD 与嵌入式智能体的 SDK,Mistral 与 IBM 同日发布稠密 128B 与开源 30B/8B/3B 新模型,harness 工程、推理内核优化与开放科学基础设施同步推进。

阅读全文

0

Talkie 模型:预1931文本训练 13B 参数探索 AI 泛化能力

Talkie 13B 参数语言模型采用 exclusively on pre-1931 texts 训练,基于 260B tokens 历史文本数据集构建,由 Nick Levine、David Duvenaud 和 Alec Radford 合作开发。该模型旨在研究 AI 在大模型中如何泛化知识,同时允许用户探讨历史语境下的技术推理与预测能力。

阅读全文

0

Qwen 3.6 量化对比:Q4_K_M 在速度与显存间取得平衡

开发者社区针对 Qwen 3.6 量化对比展开实测,发现 Q4_K_M 变体在推理速度与显存占用间取得最佳平衡。Qwen 3.6 27B 的 GGUF 量化版本在保持精度损失可忽略的前提下提供 1.45 倍的性能提升,同时社区反馈其本地运行稳定性显著提升。

阅读全文

0

Mistral Medium 3.5 发布 128B 稠密模型 开源许可引商用争议

Mistral Medium 3.5 是参数规模 128B、上下文窗口 256K 的稠密架构模型,支持指令跟随、推理与代码任务,采用修改版 MIT 许可证开放权重。该模型在本地量化部署测试中于 Strix Halo 平台达到 46.70 tokens/sec 的生成速度,社区对其商用许可条款与稠密模型市场定位形成讨论。以下为模型规格、硬件性能实测与许可条款的整合分析。

阅读全文