🔥 项目亮点
-
• 全流程AI驱动:从创意到成片,只需输入一句话 -
• 六大创作场景:电影混剪、鬼畜视频、AI音乐、跨文化喜剧、小说可视化、科技新闻 -
• 百万级爆款案例:在B站创造19万点赞、100万播放的惊艳作品
🎬 六大核心功能
1. 电影级智能混剪
案例:《蜘蛛侠:纵横宇宙》高燃卡点混剪
-
• 自动识别音乐节拍(如13秒/22秒精准卡点) -
• 从2小时原片智能提取<1分钟高光片段 -
• 支持风格切换(如输入”太空浪漫”vs”人类勇气”生成不同版本) -
📌 用户提示词示例:
“聚焦格温打鼓的粉色特效与迈尔斯空中列车追逐戏,保留蛛丝摆荡和打斗特写”
2. 爆款鬼畜视频生成
案例:《马保国AI研究员》学术版鬼畜
-
• 武术术语→科研黑话智能转换(”接化发”变”实验复现”) -
• 保留原视频标志性语气(”大意了没有闪!”)
🎯 技术突破:
语音克隆误差率<3%,语句流畅度提升60%
3. AI音乐视频创作
案例:《审稿破防神曲》派大星演唱版
-
• 根据主题自动生成歌词(如学术投稿血泪史) -
• 支持指定音色克隆(海绵宝宝声线)
💡 创新点:
MIDI文件自动标注,歌词校准准确率92%
4. 跨文化喜剧改编
案例:美国脱口秀→中国相声
-
• 幽默本地化(”咖啡续杯梗”变”茶馆加水”) -
• 自动匹配捧哏/逗哏语音风格
🌍 文化适配:
笑话转化保留核心笑点,文化适配度达89%
5. 小说可视化改编
案例:《庆余年》开篇AI改编
-
• 自动提取小说关键场景 -
• 智能匹配影视素材库镜头
📖 叙事连贯性:
场景过渡自然度评分4.8/5.0
6. 科技新闻速递
案例:OpenAI GPT-4o发布会速览
-
• 自动提取关键信息点 -
• 精准对齐人物讲话与画面(如1:09生成” relativity漫画”)
⏱️ 效率提升:
10分钟长视频→1分钟精华版,信息保留率95%
🛠️ 技术架构
核心引擎:
-
• 视觉检索:ImageBind + VideoRAG -
• 语音合成:CosyVoice + Fish Speech -
• 多模态理解:MiniCPM-V + Whisper
💻 立即体验
git clone https://github.com/HKUDS/AI-Creator.git
python main.py
📌 小贴士:
-
• 仅需下载所需模型(鬼畜创作仅需fish-speech) -
• 支持中英文双语提示词输入
使用方法
克隆与安装
git clone https://github.com/HKUDS/AI-Creator.git
conda create --name aicreator python=3.10
conda activate aicreator
conda install -y -c conda-forge pynini==2.1.5 ffmpeg
pip install -r requirements.txt
模型下载
# 确保已安装 git-lfs (https://git-lfs.com)
git lfs install
# 下载 CosyVoice
cd tools/CosyVoice
huggingface-cli download PillowTa1k/CosyVoice --local-dir pretrained_models
# 下载 fish-speech
cd tools/fish-speech
huggingface-cli download fishaudio/fish-speech-1.5 --local-dir checkpoints/fish-speech-1.5
# 下载 seed-vc
cd tools/seed-vc
huggingface-cli download PillowTa1k/seed-vc --local-dir checkpoints
# 下载 DiffSinger
cd tools/DiffSinger
huggingface-cli download PillowTa1k/DiffSinger --local-dir checkpoints
# 下载 MiniCPM
cd tools
git lfs clone https://huggingface.co/openbmb/MiniCPM-V-2_6-int4
# 下载 Whisper
cd tools
git lfs clone https://huggingface.co/openai/whisper-large-v3-turbo
# 下载 all-MiniLM-L6-v2
cd tools
git lfs clone https://huggingface.co/sentence-transformers/all-MiniLM-L6-v2
# 下载 ImageBind
cd tools
mkdir .checkpoints
cd .checkpoints
wget https://dl.fbaipublicfiles.com/imagebind/imagebind_huge.pth
🌟 为方便使用,我们提供了多种模型,您可以根据项目需求选择下载。
|
|
|
---|---|---|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
大语言模型 (LLM) 配置
# AI-Creator\environment\config\config.yml
# 输入您的 LLM API 密钥
llm:
api_key:
base_url:
注意:模型名称可能因 LLM 服务商而异,请确保在 environment/config/llm.py
中正确指定。
对于仅支持单一模型的 API(如官方 GPT 系列),所有模型名称应替换为对应支持的模型(如 gpt-4o-mini
)。
输入配置
# 预先配置视频输入参数(rhythm_agent/news_agent/comm_agent/cross_talk/mad_svc/mad_tts).yml 文件
# 例如:AI-Creator\environment\config\cross_talk.yml
cross_talk:
reqs:'生成一段中文相声剧本,内容需基于客观事实,背景设定在中国,避免使用其他国家案例。剧本长度约 40-50 句。'
audio_path:'dataset/cross_talk/英文脱口秀1.wav'
dou_gen:'dataset/cross_talk/郭德纲'
peng_gen:'dataset/cross_talk/付航'
output:"dataset/user_output_video/cross_talk_video.mp4"
video_source_dir:"dataset/user_video/"
视觉检索增强:角色图片库
在 dataset\video_edit\face_db 目录下,添加需要识别的角色图片以增强视觉检索
角色图片文件夹结构应如下所示,注意文件夹名称必须与角色名一致(如 Spiderman/Batman/Superman...):
face_db
├── Spiderman ── image01.png
└── Batman ── image02.png
命令行运行
# 完成配置后,运行以下指令:
python main.py
# 控制台将提示:
请描述您想制作的视频类型:
扫码加入技术交流群,备注「开发语言-城市-昵称」
(文:GitHubStore)