复旦&微软提出StableAnimator: 首个端到端的高质量ID一致性人类视频生成新框架!
复旦大学与微软等机构提出StableAnimator框架,实现高质量身份一致性人类视频生成。该框架通过全局内容感知面部编码器、分布感知的身份适配器和基于HJB方程的面部优化来保持人物身份信息的一致性并提升视频质量。
复旦大学与微软等机构提出StableAnimator框架,实现高质量身份一致性人类视频生成。该框架通过全局内容感知面部编码器、分布感知的身份适配器和基于HJB方程的面部优化来保持人物身份信息的一致性并提升视频质量。
PydanticAI 提供了一个强大的框架用于构建具有生成 AI 的健壮、生产级应用,通过利用 Pydantic 的数据验证功能并与 LLMs 无缝集成确保结构化、类型安全和安全的交互。
微软开源MarkItDown工具,支持PDF、Word等多种文件转换为Markdown格式,并具备调用大语言模型描述图像的功能。使用简单,代码几行即可实现转换。
一款多功能文档处理工具MarkItDown由微软开源提供,支持PDF、Office文档、图片、音频等多种格式文件转换为Markdown格式,具备OCR文字识别、语音转文字等功能。适用于文档批量处理、索引检索和数据分析等场景。
西北工业大学与微软等团队联合推出开源项目Freestyler,能根据歌词和伴奏直接生成自然流畅的说唱人声,模仿指定歌手音色。
微软发布的Phi-4大语言模型在数学推理方面表现出色,准确率达到91.8%。该模型通过高质量合成数据集、精心策划的数据以及先进的后训练技术实现了这一成就,并已在Azure AI Foundry平台发布。
微软推出小模型Phi-4,参数量仅14B,在数学和编程能力上超过了大模型。其数学成绩超过GPT-4o等,还能处理长达16K的长文本,被称作midtraining训练范式的新成果。
微软开发者社区与She Rewires她原力合作推动Code Without Barriers计划,旨在通过2025年的系列活动提升女性在科技领域的参与度和领导力。