为了提升孩子的英语听说能力并配合教材内容,我尝试将课本内容转化为3D皮克斯风格的动画影片。令人惊叹的是,从文本、语音到动画的整个制作过程完全由人工智能(AI)完成,且成本几乎为零。这一切得益于近期AI图像生成模型的重大技术突破。本文将分享我创作这些动画的动机、具体操作步骤以及使用的AI工具,这些工具对普通用户完全免费且操作简单。
为什么要将教材转化为动画?
将教材内容转化为动画的灵感源于现有英语学习材料的局限性。市面上虽然有许多高质量的英语教材,例如我为孩子购买的《DK英语》,它们将词汇和对话融入实际场景,并配有图片以帮助学习者通过图像识词。然而,这些教材的在线语音质量往往很差,读音生硬、语速不自然,仿佛停留在几十年前的磁带录音水平。这不仅是《DK英语》的问题,也是大多数英语教材的通病。
这种现状违背了语言学习的自然规律:听、说、读、写是学习任何语言的正确顺序。尤其对于非英语母语环境的孩子来说,只有先听懂清晰、自然的发音,才能通过模仿说出正确的语音,否则即使记住大量单词,也可能形成“聾病英语”。因此,我萌生了将教材文本语音化的想法,并进一步想到,结合视觉和听觉输入可能是最有效的学习方式。在短视频时代,通过制作有趣的动画影片,让孩子反复观看和模仿,再配合教材练习口语表达,对于非英语母语环境的孩子来说,这可能是成本最低、效果最好的方法。
这一方法不仅适用于儿童,成人朋友也可以从中获得启发,用于其他领域的学习或教学。
制作AI动画的步骤
以下是我使用免费或低成本AI工具将教材内容转化为3D动画的详细步骤。
第一步:提取教材文本
第一步是将教材中的文本提取出来。许多现代AI模型,如ChatGPT或谷歌的Gemini,都具备强大的图像识别功能。如果没有教材的电子版,可以直接用手机拍照上传。我选择了谷歌的Gemini,因为它是功能最全面且完全免费的工具。Gemini成功提取了教材图片中的所有对话和单词,为后续创作奠定了基础。
第二步:分析和翻译文本
提取文本后,我让AI对单词和短语进行翻译和解析,以确保在创作前充分理解内容。例如,Gemini解释了“It’s been ages”和“Long time no see”的区别。这一过程对于不熟悉某些词汇的创作者尤为重要,有助于确保后续内容的准确性。
第三步:创作动画脚本
为了生成动画脚本,我采用了“AI员工模板”来指导AI。这个模板将AI视为员工,而我作为老板提供清晰的指令。模板包含四个部分:
- 为什么:说明目的和动机(例如,由于教材语音质量差,需将文本转化为动画以辅助孩子学习英语)。
- 做什么:指定任务(例如,将教材文本转化为带旁白的动画影片,并解释所有词汇和对话)。
- 如何做:提供操作指导(例如,制作生动有趣、适合儿童的动画,包含现实生活对话场景便于模仿)。
- 示例:如有现成案例,可提供给AI模仿。
例如,我对AI的指令是:“以上内容来自《DK英语》教材,由于配套语音效果不佳,为了帮助孩子更好地学习英语,我想将文本转化为带语音的动画影片。影片需生动有趣,吸引孩子观看,解释所有单词和对话,并生成现实生活对话场景便于模仿。请以英语老师的角度进行讲解。”尽管指令简单,AI仍生成了包含角色设定、场景分类、对话内容、动画建议和旁白的详细脚本。如果提供更详细的信息,效果会更好,但这个过程需要不断补充和完善。
第四步:生成自然语音
接下来是将脚本转化为自然语音。虽然许多工具能生成逼真的英语语音,但处理中文或中英混合语音的工具较少。两个出色的免费工具是ElevenLabs和MiniMax,均支持语音克隆。我选择了MiniMax,因为它的界面简单易用,适合普通用户。MiniMax支持40多种语言,内置多种预设语音,可无缝切换语言。例如,我通过文字描述为虚拟英语老师Sophia创建了专属语音:“大家好,我的名字是Sophia,我是你们的新英语老师。”MiniMax的英文版还支持语音克隆,我曾用它克隆了一个川普风格的声音,制作了“川普教英语”等趣味内容。
对于多角色对话,谷歌Studio的AI工具支持通过指定格式粘贴对话内容并选择不同发音人,一键生成双人对话语音,适合对话密集的场景。
第五步:生成动画画面
AI视频技术的最新进展使其对普通用户更加友好,主要包括:
- 主体一致性:AI图像生成模型可根据参考图在多个场景中保持角色一致,确保故事连贯性。
- 视频时长延长:AI可生成近1分钟的视频,降低了后期编辑难度。
- 首尾帧功能:支持场景无缝转换,实现年龄或服装变化等效果。
- 成本降低:生成5秒视频的成本低至几毛钱。
虽然谷歌的Veo3模型功能强大但价格高昂,我推荐中国的可灵AI、海螺AI和字节跳动的即梦AI,其中即梦AI性价比最高。其搭载的Seedream 4.0模型支持首尾帧、多帧视频、数字人、对口型、AI音效等功能,且价格低廉(70元订阅可生成数千张图片和数百个视频)。
在即梦AI中,我选择“视频生成”模式,输入描述如“生成一个年轻活泼的美国英语老师,3D卡通风格”。为更精准控制,我避免使用“代理模式”,而是在图片或视频生成选项中指定宽高比(如16:9),生成多张场景图片。例如,我用一张乐高参考图生成城市白领一天的四张场景,之后转化为视频,加入“站在窗前喝咖啡”等动作描述,并添加AI音效和运镜效果。即梦AI的首尾帧功能可连接不同场景形成长镜头,最长20秒;多帧功能支持10张图片生成近1分钟的视频。
第六步:视频剪辑
最后一步是用免费剪辑软件剪映整合素材。只需将生成的视频片段、音频和配乐拖入时间轴即可完成剪辑,操作简单,无需专业技能。
AI创作的无限可能
使用的工具——ChatGPT和Gemini用于文本提取,MiniMax和谷歌语音用于音频,即梦AI用于视频——要么免费,要么成本极低,任何人都能轻松上手。正如AItalk创始人汗青所说,AI影像的意义不在于模仿传统内容(如用AI重制四大名著),而在于创造传统影像无法实现的内容,如《关公战秦琼》或《孙悟空职场升职记》。在AI时代,创意成为最核心的要素,因为工具和技术已不再是门槛。
通过这些AI工具,任何人都能将静态教材内容转化为引人入胜的皮克斯风格动画,让学习变得有趣高效。这一方法不仅适用于儿童,也为成人提供了教育和创作的新思路。