🔥 项目亮点

• 全流程AI驱动：从创意到成片，只需输入一句话
• 六大创作场景：电影混剪、鬼畜视频、AI音乐、跨文化喜剧、小说可视化、科技新闻
• 百万级爆款案例：在B站创造19万点赞、100万播放的惊艳作品

🎬 六大核心功能

1. 电影级智能混剪

案例：《蜘蛛侠：纵横宇宙》高燃卡点混剪

• 自动识别音乐节拍（如13秒/22秒精准卡点）
• 从2小时原片智能提取<1分钟高光片段
• 支持风格切换（如输入”太空浪漫”vs”人类勇气”生成不同版本）

📌 用户提示词示例：

“聚焦格温打鼓的粉色特效与迈尔斯空中列车追逐戏，保留蛛丝摆荡和打斗特写”

2. 爆款鬼畜视频生成

案例：《马保国AI研究员》学术版鬼畜

• 武术术语→科研黑话智能转换（”接化发”变”实验复现”）
• 保留原视频标志性语气（”大意了没有闪！”）

🎯 技术突破：
语音克隆误差率<3%，语句流畅度提升60%

3. AI音乐视频创作

案例：《审稿破防神曲》派大星演唱版

• 根据主题自动生成歌词（如学术投稿血泪史）
• 支持指定音色克隆（海绵宝宝声线）

💡 创新点：
MIDI文件自动标注，歌词校准准确率92%

4. 跨文化喜剧改编

案例：美国脱口秀→中国相声

• 幽默本地化（”咖啡续杯梗”变”茶馆加水”）
• 自动匹配捧哏/逗哏语音风格

🌍 文化适配：
笑话转化保留核心笑点，文化适配度达89%

5. 小说可视化改编

案例：《庆余年》开篇AI改编

• 自动提取小说关键场景
• 智能匹配影视素材库镜头

📖 叙事连贯性：
场景过渡自然度评分4.8/5.0

6. 科技新闻速递

案例：OpenAI GPT-4o发布会速览

• 自动提取关键信息点
• 精准对齐人物讲话与画面（如1:09生成” relativity漫画”）

⏱️ 效率提升：
10分钟长视频→1分钟精华版，信息保留率95%

🛠️ 技术架构

核心引擎：

• 视觉检索：ImageBind + VideoRAG
• 语音合成：CosyVoice + Fish Speech
• 多模态理解：MiniCPM-V + Whisper

💻 立即体验

git clone https://github.com/HKUDS/AI-Creator.git
python main.py

📌 小贴士：

• 仅需下载所需模型（鬼畜创作仅需fish-speech）
• 支持中英文双语提示词输入

使用方法

克隆与安装

git clone https://github.com/HKUDS/AI-Creator.git  
conda create --name aicreator python=3.10  
conda activate aicreator  
conda install -y -c conda-forge pynini==2.1.5 ffmpeg  
pip install -r requirements.txt

模型下载

# 确保已安装 git-lfs (https://git-lfs.com)  
git lfs install

# 下载 CosyVoice  
cd tools/CosyVoice  
huggingface-cli download PillowTa1k/CosyVoice --local-dir pretrained_models

# 下载 fish-speech  
cd tools/fish-speech  
huggingface-cli download fishaudio/fish-speech-1.5 --local-dir checkpoints/fish-speech-1.5

# 下载 seed-vc  
cd tools/seed-vc  
huggingface-cli download PillowTa1k/seed-vc --local-dir checkpoints

# 下载 DiffSinger  
cd tools/DiffSinger  
huggingface-cli download PillowTa1k/DiffSinger --local-dir checkpoints

# 下载 MiniCPM  
cd tools  
git lfs clone https://huggingface.co/openbmb/MiniCPM-V-2_6-int4

# 下载 Whisper  
cd tools  
git lfs clone https://huggingface.co/openai/whisper-large-v3-turbo

# 下载 all-MiniLM-L6-v2  
cd tools  
git lfs clone https://huggingface.co/sentence-transformers/all-MiniLM-L6-v2

# 下载 ImageBind  
cd tools  
mkdir .checkpoints  
cd .checkpoints  
wget https://dl.fbaipublicfiles.com/imagebind/imagebind_huge.pth

🌟 为方便使用，我们提供了多种模型，您可以根据项目需求选择下载。

功能类型	视频示例	所需模型
相声改编	英文脱口秀 → 中文相声	CosyVoice, MiniCPM, Whisper, ImageBind, all-MiniLM-L6-v2
脱口秀改编	中文相声 → 英文脱口秀	CosyVoice, MiniCPM, Whisper, ImageBind, all-MiniLM-L6-v2
鬼畜 TTS	小明剑魔鬼畜视频	fish-speech
鬼畜 SVC	AI 音乐视频	DiffSinger, seed-vc, MiniCPM, Whisper, ImageBind, all-MiniLM-L6-v2
节奏剪辑	《蜘蛛侠：纵横宇宙》混剪	MiniCPM, Whisper, ImageBind, all-MiniLM-L6-v2
小说可视化	《庆余年》小说改编视频	MiniCPM, Whisper, ImageBind, all-MiniLM-L6-v2
新闻摘要	OpenAI GPT-4o 图像生成新闻	MiniCPM, Whisper, ImageBind, all-MiniLM-L6-v2

大语言模型 (LLM) 配置

# AI-Creator\environment\config\config.yml  
# 输入您的 LLM API 密钥  
llm:  
  api_key:  
  base_url:

注意：模型名称可能因 LLM 服务商而异，请确保在 environment/config/llm.py 中正确指定。
对于仅支持单一模型的 API（如官方 GPT 系列），所有模型名称应替换为对应支持的模型（如 gpt-4o-mini）。

输入配置

# 预先配置视频输入参数（rhythm_agent/news_agent/comm_agent/cross_talk/mad_svc/mad_tts）.yml 文件  
# 例如：AI-Creator\environment\config\cross_talk.yml  
cross_talk:
reqs:'生成一段中文相声剧本，内容需基于客观事实，背景设定在中国，避免使用其他国家案例。剧本长度约 40-50 句。'
audio_path:'dataset/cross_talk/英文脱口秀1.wav'
dou_gen:'dataset/cross_talk/郭德纲'
peng_gen:'dataset/cross_talk/付航'
output:"dataset/user_output_video/cross_talk_video.mp4"
video_source_dir:"dataset/user_video/"

视觉检索增强：角色图片库

在 dataset\video_edit\face_db 目录下，添加需要识别的角色图片以增强视觉检索  
角色图片文件夹结构应如下所示，注意文件夹名称必须与角色名一致（如 Spiderman/Batman/Superman...）：  

face_db  
├── Spiderman ── image01.png  
└── Batman ── image02.png

命令行运行

# 完成配置后，运行以下指令：  
python main.py  
# 控制台将提示：  
请描述您想制作的视频类型：

扫码加入技术交流群，备注「开发语言-城市-昵称」

（文：GitHubStore）

一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30	31

一句话生成大片，颠覆你的视频创作方式！

🔥 项目亮点

🎬 六大核心功能

1. 电影级智能混剪

2. 爆款鬼畜视频生成

3. AI音乐视频创作

4. 跨文化喜剧改编

5. 小说可视化改编

6. 科技新闻速递

🛠️ 技术架构

💻 立即体验

使用方法

克隆与安装

模型下载

大语言模型 (LLM) 配置

输入配置

视觉检索增强：角色图片库

命令行运行

发表评论取消回复

🔥 项目亮点

🎬 六大核心功能

1. 电影级智能混剪

2. 爆款鬼畜视频生成

3. AI音乐视频创作

4. 跨文化喜剧改编

5. 小说可视化改编

6. 科技新闻速递

🛠️ 技术架构

💻 立即体验

使用方法

克隆与安装

模型下载

大语言模型 (LLM) 配置

输入配置

视觉检索增强：角色图片库

命令行运行

发表评论 取消回复

发表评论取消回复