2024-7-25 18:23 /
Date: Jul 23, 2024 - Jul 30, 2024

前两天生病、挂机了两天、活是一点没干

1. 接受动画工作室制片offer。

24号得到面试反馈,接到了一家动画工作室的制片offer,月底去北京入职。

回想自己为何要投递制片岗:了解动画的制作流程,还有各个环节中的各个标准,分镜是哪样的、L.O.是哪样的、一原是哪样的、二原是哪样的、动画是哪样的、上色又是哪样的、后期是哪样的,多少人来负责、需要画多久、工作量有多大、难点具体有哪些、开会有哪些内容... 我太想知道这一切的细节,这一切实在太有趣了。三维和二维动画的制作流程中有重合的地方,我不知道纸飞机会为自己提供什么样的学习机遇,但是我唯一能够确认的,就是我什么都不能确认。这是一场带有未知色彩的冒险,我也许能从中学习到很多东西——管理的要义、前后期的制作规范、宝贵的项目参与经验——这些东西同样重要,这是当下的最优解。

2. 了解、学习三维动画制作流程。

实际上、三维动画有别于二维动画制作的点、不仅仅在于工具、同样体现在制作思路和先后顺序。


注:自己做的图、仅供参考。未注明合成和美术、音响等环节。

注:三维动画软件by动画专业:必须知道的三维动画制作流程!


举个例子,首先是分镜的制作。三维动画允许在资产的基础上完成CG分镜,比如根据设定制作好场景模型、人物模型,并按照文字分镜(也有工作流是参考二维分镜)大概摆放后,可以自由地挪动相机寻找合适的机位和场景,这部分的结果既可以拿来作动态分镜,也可以作为LO,而相比之下二维手绘则需要依靠一原的想象细化分镜、调整机位完成最终LO的绘制。


出处: 【サンジゲン】BanG Dream! It’s MyGO!!!!!セッション 3DCGアニメーターが演出家になるには【あにつく2023】

另一个就是成本特征差异。由于其物理一致性,三维动画人物模型易于复用,随着人物模型的不断重复使用、项目后期的边际成本是逐渐递减的。而二维动画的制作成本则是一个相对平稳的线性过程,这也赋予了两者不同的经济、时间成本规律(Anitama)。

关于如何表达特定情绪、渲染场景氛围,三维的考量范围也与二维有所不同。比如是否需要进行卡渲、是否需要边缘线条或者抽帧以增强其cel look的观感、以及是否需要借用二维动画对画面中的注意力点(比如人物表情)做出修正或者cel风格化,这些都是三维独有的问题。

此外、我有一种感觉:三维动画像是对二维手绘的分解。二维动画是一种“集成”,人脑把人物场景的形变透视、空间关系、光照、材质、布料运动、运动模糊等,一口气同时处理了,是一种端到端的渲染。不可能说固定哪个变量然后调整另一个、人脑做不到。而计算机可以:三维动画中这种模拟得以被物理引擎具象化,每一个维度都可以供创作人员单独调整,创作人员可以反复调试直到得到满意的效果,而二维动画则做不到如此精细的操作。

二维动画可以服务于三维,三维动画同样反哺二维。除开背景美术、特殊镜头表演的设计、比如EVA终明日香投喂碇真嗣、戴眼镜中的长镜头兵长凯尼巷战这些名场面、不管是场景背动还是人物动作,良好的3D技术和思路总能赋予画面观感质的飞跃。此外,3D同样可以让马戏(崩坏三-天使重构)和手绘背动(芙莉莲-肥伦机关枪)这些高难度作画的压力减小,也是辅助作画的不二之选。



附上两篇关于制片管理事务的文章分享: link1 link2

3. 阅读论文。

(1)MotionClone: Training-Free Motion Cloning for Controllable Video Generation
这篇文章与Prompt2Prompt做的工作类似,都是通过对attention层进行infer-time的操作,进而实现generation的引导或者编辑。具体而言,①运动规律相似的两个视频、temporal attention layers的weights应该接近、因此可以用top-k mask来引导generation以让两个视频相似. ②在text-img cross-attn layers上选中ROI区域、提供空间信息,可以保证两个视频在spacial details上的相似。

Infer-time的guidance是通过cfg实现的,具体公式可以参考文章。

文章的pipeline如下,感觉这个图可以优化得更清晰易懂一些。


(2)SV4D: Dynamic 3D Content Generation with Multi-Frame and Multi-View Consistency
Stability最近前两天上新的一篇文章。SV4D,顾名思义就是在三维模型上添加了一个时间轴。大概的思路是,给定两个输入:①单一视角视频(提供时间维度)②多视角视频(提供视角维度)。然后这两个视频去condition并合成不同视角下的视频、最后再通过NeRF渲染。



具体实现是在UNet中加入沿着frame和view两个维度分别引入的attn以解决一致性问题,然后把ref video与z_n concat(?),小细节的操作很多。此外,还从Objectverse构建了一个新的数据集。

文章总体非常优雅,体现了Stability一贯的高写作水平风格。

(3)SAM 2: Segment Anything in Images and Videos
大名鼎鼎的SAM的第二集。SAM2相较于SAM、主要的新卖点是视频模态,可以通过memory机制针对视频进行segment. 同时提高了处理速度。文章还在读,写到下一期的日志里了。