照亮星星的人们 » 日志
【动画AI技术研究】日志更新(379)

2024-7-25 18:23 /

Date: Jul 23, 2024 - Jul 30, 2024

前两天生病、挂机了两天、活是一点没干

1. 接受动画工作室制片offer。

24号得到面试反馈，接到了一家动画工作室的制片offer，月底去北京入职。

回想自己为何要投递制片岗：了解动画的制作流程，还有各个环节中的各个标准，分镜是哪样的、L.O.是哪样的、一原是哪样的、二原是哪样的、动画是哪样的、上色又是哪样的、后期是哪样的，多少人来负责、需要画多久、工作量有多大、难点具体有哪些、开会有哪些内容... 我太想知道这一切的细节，这一切实在太有趣了。三维和二维动画的制作流程中有重合的地方，我不知道纸飞机会为自己提供什么样的学习机遇，但是我唯一能够确认的，就是我什么都不能确认。这是一场带有未知色彩的冒险，我也许能从中学习到很多东西——管理的要义、前后期的制作规范、宝贵的项目参与经验——这些东西同样重要，这是当下的最优解。

2. 了解、学习三维动画制作流程。

实际上、三维动画有别于二维动画制作的点、不仅仅在于工具、同样体现在制作思路和先后顺序。

注:自己做的图、仅供参考。未注明合成和美术、音响等环节。

注:三维动画软件by动画专业：必须知道的三维动画制作流程！

举个例子，首先是分镜的制作。三维动画允许在资产的基础上完成CG分镜，比如根据设定制作好场景模型、人物模型，并按照文字分镜(也有工作流是参考二维分镜)大概摆放后，可以自由地挪动相机寻找合适的机位和场景，这部分的结果既可以拿来作动态分镜，也可以作为LO，而相比之下二维手绘则需要依靠一原的想象细化分镜、调整机位完成最终LO的绘制。

出处: 【サンジゲン】BanG Dream! It’s MyGO!!!!!セッション　3DCGアニメーターが演出家になるには【あにつく2023】

另一个就是成本特征差异。由于其物理一致性，三维动画人物模型易于复用，随着人物模型的不断重复使用、项目后期的边际成本是逐渐递减的。而二维动画的制作成本则是一个相对平稳的线性过程，这也赋予了两者不同的经济、时间成本规律(Anitama)。

关于如何表达特定情绪、渲染场景氛围，三维的考量范围也与二维有所不同。比如是否需要进行卡渲、是否需要边缘线条或者抽帧以增强其cel look的观感、以及是否需要借用二维动画对画面中的注意力点(比如人物表情)做出修正或者cel风格化，这些都是三维独有的问题。

此外、我有一种感觉：三维动画像是对二维手绘的分解。二维动画是一种“集成”，人脑把人物场景的形变透视、空间关系、光照、材质、布料运动、运动模糊等，一口气同时处理了，是一种端到端的渲染。不可能说固定哪个变量然后调整另一个、人脑做不到。而计算机可以：三维动画中这种模拟得以被物理引擎具象化，每一个维度都可以供创作人员单独调整，创作人员可以反复调试直到得到满意的效果，而二维动画则做不到如此精细的操作。

二维动画可以服务于三维，三维动画同样反哺二维。除开背景美术、特殊镜头表演的设计、比如EVA终明日香投喂碇真嗣、戴眼镜中的长镜头、兵长凯尼巷战这些名场面、不管是场景背动还是人物动作，良好的3D技术和思路总能赋予画面观感质的飞跃。此外，3D同样可以让马戏(崩坏三-天使重构)和手绘背动(芙莉莲-肥伦机关枪)这些高难度作画的压力减小，也是辅助作画的不二之选。

附上两篇关于制片管理事务的文章分享: link1 link2

3. 阅读论文。

(1)MotionClone: Training-Free Motion Cloning for Controllable Video Generation
这篇文章与Prompt2Prompt做的工作类似，都是通过对attention层进行infer-time的操作，进而实现generation的引导或者编辑。具体而言，①运动规律相似的两个视频、temporal attention layers的weights应该接近、因此可以用top-k mask来引导generation以让两个视频相似. ②在text-img cross-attn layers上选中ROI区域、提供空间信息，可以保证两个视频在spacial details上的相似。

Infer-time的guidance是通过cfg实现的，具体公式可以参考文章。

文章的pipeline如下，感觉这个图可以优化得更清晰易懂一些。

(2)SV4D: Dynamic 3D Content Generation with Multi-Frame and Multi-View Consistency
Stability最近前两天上新的一篇文章。SV4D，顾名思义就是在三维模型上添加了一个时间轴。大概的思路是，给定两个输入：①单一视角视频(提供时间维度)②多视角视频(提供视角维度)。然后这两个视频去condition并合成不同视角下的视频、最后再通过NeRF渲染。

具体实现是在UNet中加入沿着frame和view两个维度分别引入的attn以解决一致性问题，然后把ref video与z_n concat(?)，小细节的操作很多。此外，还从Objectverse构建了一个新的数据集。

文章总体非常优雅，体现了Stability一贯的高写作水平风格。

(3)SAM 2: Segment Anything in Images and Videos
大名鼎鼎的SAM的第二集。SAM2相较于SAM、主要的新卖点是视频模态，可以通过memory机制针对视频进行segment. 同时提高了处理速度。文章还在读，写到下一期的日志里了。

Tags: 动画AI技术研究系列

照亮星星的人们 » 日志【动画AI技术研究】日志更新(379)

照亮星星的人们 » 日志
【动画AI技术研究】日志更新(379)