一句话生成大片,颠覆你的视频创作方式!


 


🔥 项目亮点

  • • 全流程AI驱动:从创意到成片,只需输入一句话
  • • 六大创作场景:电影混剪、鬼畜视频、AI音乐、跨文化喜剧、小说可视化、科技新闻
  • • 百万级爆款案例:在B站创造19万点赞、100万播放的惊艳作品

🎬 六大核心功能

1. 电影级智能混剪

案例:《蜘蛛侠:纵横宇宙》高燃卡点混剪

  • • 自动识别音乐节拍(如13秒/22秒精准卡点)
  • • 从2小时原片智能提取<1分钟高光片段
  • • 支持风格切换(如输入”太空浪漫”vs”人类勇气”生成不同版本)

📌 用户提示词示例

“聚焦格温打鼓的粉色特效与迈尔斯空中列车追逐戏,保留蛛丝摆荡和打斗特写”


2. 爆款鬼畜视频生成

案例:《马保国AI研究员》学术版鬼畜

  • • 武术术语→科研黑话智能转换(”接化发”变”实验复现”)
  • • 保留原视频标志性语气(”大意了没有闪!”)

🎯 技术突破
语音克隆误差率<3%,语句流畅度提升60%


3. AI音乐视频创作

案例:《审稿破防神曲》派大星演唱版

  • • 根据主题自动生成歌词(如学术投稿血泪史)
  • • 支持指定音色克隆(海绵宝宝声线)

💡 创新点
MIDI文件自动标注,歌词校准准确率92%


4. 跨文化喜剧改编

案例:美国脱口秀→中国相声

  • • 幽默本地化(”咖啡续杯梗”变”茶馆加水”)
  • • 自动匹配捧哏/逗哏语音风格

🌍 文化适配
笑话转化保留核心笑点,文化适配度达89%


5. 小说可视化改编

案例:《庆余年》开篇AI改编

  • • 自动提取小说关键场景
  • • 智能匹配影视素材库镜头

📖 叙事连贯性
场景过渡自然度评分4.8/5.0


6. 科技新闻速递

案例:OpenAI GPT-4o发布会速览

  • • 自动提取关键信息点
  • • 精准对齐人物讲话与画面(如1:09生成” relativity漫画”)

⏱️ 效率提升
10分钟长视频→1分钟精华版,信息保留率95%


🛠️ 技术架构

核心引擎

  • • 视觉检索:ImageBind + VideoRAG
  • • 语音合成:CosyVoice + Fish Speech
  • • 多模态理解:MiniCPM-V + Whisper

💻 立即体验

git clone https://github.com/HKUDS/AI-Creator.git
python main.py

📌 小贴士

  • • 仅需下载所需模型(鬼畜创作仅需fish-speech)
  • • 支持中英文双语提示词输入

使用方法

克隆与安装

git clone https://github.com/HKUDS/AI-Creator.git  
conda create --name aicreator python=3.10  
conda activate aicreator  
conda install -y -c conda-forge pynini==2.1.5 ffmpeg  
pip install -r requirements.txt  

模型下载

# 确保已安装 git-lfs (https://git-lfs.com)  
git lfs install  
# 下载 CosyVoice  
cd tools/CosyVoice  
huggingface-cli download PillowTa1k/CosyVoice --local-dir pretrained_models  
# 下载 fish-speech  
cd tools/fish-speech  
huggingface-cli download fishaudio/fish-speech-1.5 --local-dir checkpoints/fish-speech-1.5  
# 下载 seed-vc  
cd tools/seed-vc  
huggingface-cli download PillowTa1k/seed-vc --local-dir checkpoints  
# 下载 DiffSinger  
cd tools/DiffSinger  
huggingface-cli download PillowTa1k/DiffSinger --local-dir checkpoints  
# 下载 MiniCPM  
cd tools  
git lfs clone https://huggingface.co/openbmb/MiniCPM-V-2_6-int4  
# 下载 Whisper  
cd tools  
git lfs clone https://huggingface.co/openai/whisper-large-v3-turbo  
# 下载 all-MiniLM-L6-v2  
cd tools  
git lfs clone https://huggingface.co/sentence-transformers/all-MiniLM-L6-v2  
# 下载 ImageBind  
cd tools  
mkdir .checkpoints  
cd .checkpoints  
wget https://dl.fbaipublicfiles.com/imagebind/imagebind_huge.pth  
🌟 为方便使用,我们提供了多种模型,您可以根据项目需求选择下载。  
功能类型
视频示例
所需模型
相声改编
英文脱口秀 → 中文相声
CosyVoice, MiniCPM, Whisper, ImageBind, all-MiniLM-L6-v2
脱口秀改编
中文相声 → 英文脱口秀
CosyVoice, MiniCPM, Whisper, ImageBind, all-MiniLM-L6-v2
鬼畜 TTS
小明剑魔鬼畜视频
fish-speech
鬼畜 SVC
AI 音乐视频
DiffSinger, seed-vc, MiniCPM, Whisper, ImageBind, all-MiniLM-L6-v2
节奏剪辑
《蜘蛛侠:纵横宇宙》混剪
MiniCPM, Whisper, ImageBind, all-MiniLM-L6-v2
小说可视化
《庆余年》小说改编视频
MiniCPM, Whisper, ImageBind, all-MiniLM-L6-v2
新闻摘要
OpenAI GPT-4o 图像生成新闻
MiniCPM, Whisper, ImageBind, all-MiniLM-L6-v2

大语言模型 (LLM) 配置

# AI-Creator\environment\config\config.yml  
# 输入您的 LLM API 密钥  
llm:  
  api_key:  
  base_url:   

注意:模型名称可能因 LLM 服务商而异,请确保在 environment/config/llm.py 中正确指定。
对于仅支持单一模型的 API(如官方 GPT 系列),所有模型名称应替换为对应支持的模型(如 gpt-4o-mini)。

输入配置

# 预先配置视频输入参数(rhythm_agent/news_agent/comm_agent/cross_talk/mad_svc/mad_tts).yml 文件  
# 例如:AI-Creator\environment\config\cross_talk.yml  
cross_talk:
reqs:'生成一段中文相声剧本,内容需基于客观事实,背景设定在中国,避免使用其他国家案例。剧本长度约 40-50 句。'
audio_path:'dataset/cross_talk/英文脱口秀1.wav'
dou_gen:'dataset/cross_talk/郭德纲'
peng_gen:'dataset/cross_talk/付航'
output:"dataset/user_output_video/cross_talk_video.mp4"
video_source_dir:"dataset/user_video/"  

视觉检索增强:角色图片库

在 dataset\video_edit\face_db 目录下,添加需要识别的角色图片以增强视觉检索  
角色图片文件夹结构应如下所示,注意文件夹名称必须与角色名一致(如 Spiderman/Batman/Superman...):  

face_db  
├── Spiderman ── image01.png  
└── Batman ── image02.png  

命令行运行

# 完成配置后,运行以下指令:  
python main.py  
# 控制台将提示:  
请描述您想制作的视频类型:  


 





扫码加入技术交流群,备注「开发语言-城市-昵称

(文:GitHubStore)

发表评论

×

下载每时AI手机APP

 

和大家一起交流AI最新资讯!

立即前往