原创大约 2 分钟
数字人最开始是用于代替主播实现全天候无人值守,2023年的时候就有了腾讯智影,它应该是国内在这方面做的比较早的的应用之一。
其实只要会用剪辑软件,生成一个数字人就是分分钟的事。
从图上可以看出,这完全就是在线版的剪辑软件。所有的内容,从文本、视频、背景、语音、字幕,再到素材、工具,几乎和剪辑软件没有区别。
原创大约 2 分钟
软件变声
要说到音视频方面的应用,不得不提起老牌的ffmpeg——这绝对是多媒体领域泰山北斗一般的存在,几乎所有和音视频处理相关的软件都离不开它的支持。
大多数的音视频播放、处理软件其实都是对它的功能的封装。
# 抽取音频命令
ffmpeg -i test.mp4 -vn -y -acodec copy result.aac
ffmpeg -i test.mp4 -vn -y -acodec copy result.m4a
# 提取视频 (Extract Video)
ffmpeg -i test.mkv -vcodec copy –an test.mp4
# 音视频合成命令
ffmpeg -i video.avi -i audio.mp3 -vcodec copy -acodec copy output.avi
# ffmpeg分离出PCM数据
ffmpeg -i test.mp4 -ar 44100 -ac 2 -f s16le output.pcm
# ffmpeg去除视频水印
# -vf delogo 表示使用ffmpeg中去水印的滤镜
# x=?:y=?:w=?:h=?:show=? 表示delogo滤镜的参数
# x,y 表示去除水印范围在视频中的起始坐标,w,h表示所选的区域的宽高,show表示是否显示矩形框,0表示不显示,1表示显示
ffmpeg -i test.mp4 -vf delogo=x=?:y=?:w=?:h=?:show=? out.mp4
原创大约 3 分钟
在AI应用领域,如果说除了ChatGPT和Midjourney应用之外,还有什么应用可以用极为火爆
来形容的话,那么非换脸
莫属!
原创大约 5 分钟
原创大约 4 分钟
相对于文生文、文生图这两类,视频领域的AI类应用就少多了。
目前在文生视频领域,领跑的是Sora和Stable Video,以及曾经默默无闻的Runway,不知道为什么Midjourney反而没声响了。
原创大约 11 分钟
虽然有一些图像生成应用很早就出现了,例如2015年谷歌发布DeepDream,同年出现的Neural Style Transfer,2016年出现的DCGAN,以及加州大学伯克利分校在2017年发布的Pix2Pix和CycleGAN等。
原创大约 4 分钟
如果没有鼠标键盘,人们就无法输入需要计算机处理的数据,也就与计算机进行快速有效地交互。对于AI来说,Prompt(提示词)就是它的鼠标和键盘,是一种用于和人工智能进行有效交互的指导性文本。通过Prompt,可以让那些绘画的大模型按照我们的想法生成图像。
原创大约 16 分钟