Srivastava, Nitish, Elman Mansimov, 和 Ruslan Salakhudinov. "使用LSTMs进行视频表示的无监督学习." 国际机器学习会议. PMLR, 2015. Chiappa, Silvia, 等. "循环环境模拟器." arXiv预印本 arXiv:1704.02254 (2017). Ha, David, 和 Jürgen Schmidhuber. "世界模型." arXiv预印本 arXiv:1803.10122 (2018).
Vondrick, Carl, Hamed Pirsiavash, 和 Antonio Torralba. "生成具有场景动态的视频." 神经信息处理系统进展 29 (2016). Tulyakov, Sergey, 等. "MoCoGAN: 分解运动和内容以生成视频." IEEE计算机视觉和模式识别会议论文集. 2018. Clark, Aidan, Jeff Donahue, 和 Karen Simonyan. "在复杂数据集上生成对抗视频." arXiv预印本 arXiv:1907.06571 (2019). Brooks, Tim, 等. "生成动态场景的长视频." 神经信息处理系统会议进展 35 (2022): 31769-31781.
Yan, Wilson, 等. "VideoGPT: 使用VQ-VAE和transformers生成视频." arXiv预印本 arXiv:2104.10157 (2021). Wu, Chenfei, 等. "Nüwa: 为创造神经视觉世界进行视觉合成预训练." 欧洲计算机视觉会议. 瑞士: 施普林格自然, 2022.
Ho, Jonathan, 等. "Imagen视频: 使用扩散模型生成高清视频." arXiv预印本 arXiv:2210.02303 (2022). Blattmann, Andreas, 等. "对齐你的潜码: 使用潜在扩散模型合成高分辨率视频." IEEE/CVF计算机视觉和模式识别会议论文集. 2023. Gupta, Agrim, 等. "使用扩散模型生成逼真视频." arXiv预印本 arXiv:2312.06662 (2023).
Vaswani, Ashish, 等. "注意力就是你所需要的一切." 神经信息处理系统进展 30 (2017). Brown, Tom, 等. "语言模型是小样本学习者." 神经信息处理系统会议进展 33 (2020): 1877-1901.
Dosovitskiy, Alexey, 等. "一幅图像值16x16个词: 大规模图像识别的transformers." arXiv预印本 arXiv:2010.11929 (2020). Arnab, Anurag, 等. "Vivit: 视频视觉transformer." IEEE/CVF国际计算机视觉会议论文集. 2021. He, Kaiming, 等. "掩码自动编码器是可扩展的视觉学习者." IEEE/CVF计算机视觉和模式识别会议论文集. 2022. Dehghani, Mostafa, 等. "Patch n'Pack: NaViT, 适用于任何宽高比和分辨率的视觉transformer." arXiv预印本 arXiv:2307.06304 (2023).
(注:15-18,Transformer已经被证明在在计算机视觉中显示出非凡的扩展特征,能训练出适用于任何宽高比和分辨率的视频)
Rombach, Robin, 等. "使用潜在扩散模型合成高分辨率图像." IEEE/CVF计算机视觉和模式识别会议论文集. 2022.
把视觉数据变成时空块
Kingma, Diederik P., 和 Max Welling. "自编码变分贝叶斯." arXiv预印本 arXiv:1312.6114 (2013).
Sohl-Dickstein, Jascha, 等. "使用非平衡热力学的深度无监督学习." 国际机器学习会议. PMLR, 2015. Ho, Jonathan, Ajay Jain, 和 Pieter Abbeel. "去噪扩散概率模型." 神经信息处理系统进展 33 (2020): 6840-6851. Nichol, Alexander Quinn, 和 Prafulla Dhariwal. "改进的去噪扩散概率模型." 国际机器学习会议. PMLR, 2021. Dhariwal, Prafulla, 和 Alexander Quinn Nichol. "扩散模型在图像合成上胜过GANs." 神经信息处理系统会议进展. 2021. Karras, Tero, 等. "阐明基于扩散的生成模型的设计空间." 神经信息处理系统进展 35 (2022): 26565-26577.
Peebles, William, 和 Saining Xie. "用transformers扩展扩散模型." IEEE/CVF国际计算机视觉会议论文集. 2023.
Transformer跨越不同的模态,其扩展功能依然有效
Chen, Mark, 等. "像素的生成预训练." 国际机器学习会议. PMLR, 2020. Ramesh, Aditya, 等. "零样本文本到图像生成." 国际机器学习会议. PMLR, 2021.
Yu, Jiahui, 等. "扩展自回归模型以生成内容丰富的文生图." arXiv预印本 arXiv:2206.10789 2.3 (2022): 5. Betker, James, 等. "用更好的图说改善图像生成." 计算机科学. https://cdn.openai.com/papers/dall-e-3.pdf 2.3 (2023): 8
Ramesh, Aditya, 等. "使用CLIP潜码的分层文本条件图像生成." arXiv预印本 arXiv:2204.06125 1.2 (2022): 3.
Meng, Chenlin, 等. "Sdedit: 使用随机微分方程的引导图像合成和编辑." arXiv预印本 arXiv:2108.01073 (2021).
网友评论