2021年是人工智能领域快速发展的又一年。最近,Github 上整理了38篇关于AI和机器学习的杰出论文,值得大家关注和收藏。
1、ZeRo-Shot Text-to-image generation
传统的文本到图像生成方法通常专注于为特定数据集找到更好的建模假设。本文介绍了一种基于TRansfoRMeR的简易方法,将文本和图像标记自回归建模为单一数据流。在数据量和规模足够的情况下,我们的零样本评估方法在性能上与以往的特定领域模型具有竞争力。
2、VOGUE: try-On by styleGAN InteRpolation OptiMization
通过给定目标人物的图像及穿着的其他人物的图像,我们可以自动生成目标人物穿着选定服装的图像。我们的方法核心是姿势条件下的 styleGAN2 潜在空间插值,能够无缝地结合每个图像的关键区域,包括目标人物的体型、头发和肤色,以及服装图像的褶皱、材料属性和形状。
3、TaMing TRansfoRMeRs foR High-Resolution image Synthesis
本文结合了GAN和卷积方法的高效率与TRansfoRMeR的强大表达能力,提供了一种语义引导的高质量图像合成方法,既强大又省时。
4、THinking FAst And Slow in AI
受到人类能力的启发,本文提出了10个问题,以推动通用和可信赖的人工智能(AGI)及其研究的发展。
5、AutoMatic detection and quantification of floating MaRine MacRo-lITteR in aeRial images
巴塞罗那大学的研究团队开发了一种基于深度学习的算法,可以从航拍图像中检测和量化漂浮的垃圾,并创建了一个网络应用程序,允许用户识别海面图像中的这些垃圾。
6、ShaRF: Shape-condITioned Radiance Fields fRoM a Single View
想象一下,只需拍摄对象的照片,就能将其以3D格式插入到电影或视频游戏中,或者应用于3D场景中进行插图,真是令人兴奋。
7、GeneRative AdveRsaRial TRansfoRMeRs
本文运用强大的 styleGAN2 架构中的TRansfoRMeR注意力机制,进一步增强了其功能。
8、We Asked ARtificial Intelligence to CReate Dating Profiles. Would You SwIPe Right?
在AI生成的个人资料页面上,您能否分辨出真人与机器的区别?这项研究探讨了在约会应用中使用AI所产生的影响。
9、Swin TRansfoRMeR: HieRaRcHical Vision TRansfoRMeR USing SHifted Windows
TRansfoRMeRs是否会取代计算机视觉中的CNN?通过这篇关于Swin TRansfoRMeR的新论文,您可以在短时间内了解如何将TRansfoRMeR架构应用于计算机视觉任务。
10、image GANS MEET DIFFERENTIABLE RENDERING FOR INVERSE GRAPHiCS AND INTERPRETABLE 3D NEURAL RENDERING
本文提出了一种名为GANveRse3D的模型,它能够根据单张图像创建可自定义和动画的3D图像。
11、Deep nets: What have they eveR done foR vision?
本文将分享关于深度网络在视觉应用中的使用,探讨其成功之处以及亟待解决的局限性。
12、InfinITe NatuRe: PeRpetual View generation of NatuRal Scenes fRoM a Single image
视图合成的未来在于永久视图生成,目标是创造出一幅可供深入探索的图像。
13、PoRtable, Self-ContAIned NeuRoProsthetic Hand wITh Deep learning-Based FingeR ContRol
本文介绍了一种由AI驱动的神经接口,允许截肢患者灵活且直观地控制神经假肢。
14、TOTAl Relighting: learning to Relight PoRtRAits foR background ReplACEMent
如果您想改变图片背景而又保持真实感,这并不容易。本文提出的方法有望完美解决这一难题。
15、LASR: learning ARticulated Shape ReconstRUCtion fRoM a MonoculaR Video
本文提出了一种方法,可以仅使用短视频生成移动的人类或动物的3D模型,并确保生成的模型与原视频保持一致。
16、Enhancing PhoTorealiSM EnhanceMent
英特尔研究人员提出了一种AI模型,可实时应用于视频游戏,使每一帧图像看起来更自然,极大地提升了游戏画面的质量。
17、DeFAkeHop: A Light-Weight High-performance DeepFAke DetecTor
如何在2021年准确识别DeepFAke假视频?这篇论文可能会为您提供答案,或许是“再次使用人工智能”。
18、High-Resolution PhoTorealistic image TRanslation in Real-TiMe: A Laplacian PyRaMid TRanslation NetwoRk
本文提出了一种新方法,能够实时将任何风格的图像转换为指定风格的4K图像。
19、BaRbeRshop: GAN-based image CoMposITINg USing SegMentation Masks
这篇文章介绍了GAN的新应用,展示了AI如何帮助你改变发型并查看前后的对比效果。
20、TextstyleBRUSh: TRansfeR of text aesthetics fRoM a single exaMple
在异国旅行时,面对不懂的菜单,您无需使用翻译软件,只需通过FACEbook AI的新模型即可翻译菜单图像中的每个文字。
21、AniMating PictuRes wITh EuleRian Motion Fields
本文中的AI模型通过分析粒子的运动,将静态图像转换为无限循环的动画,同时保持图像的完整性。
22、CVPR 2021最佳论文奖: GIRAFFE – ContRollable image generation
本文使用改进的GAN架构,能够在不影响背景或其他目标的情况下移动图像中的目标。
23、GitHub Copilot &aMp; codex: Evaluating LaRge Language Models TRAIned on code
OpenAI推出的新模型,能够从自然语言生成代码。
24、apple: Recognizing People in Photos ThRough PRivate On-Device MacHine learning
苹果利用多种机器学习算法,帮助用户在iOS 15上准确管理和组织图像和视频。
25、image Synthesis and EdITINg wITh Stochastic DiFFeRential Equations
来自斯坦福和卡内基梅隆大学的研究人员展示了一种新方法,能够根据用户输入生成新图像,甚至可以从草图生成精美图像。
26、Sketch YouR Own GAN
通过草图生成图像,简化了GAN训练过程,使每个人都能参与其中。
27、Tesla””s Autopilot ExplAIned
特斯拉的人工智能总监安德烈·卡帕西等人展示了特斯拉自动驾驶系统如何通过八个摄像头采集图像,实现道路导航。
28、styleclIP: Text-dRiven ManIPulation of styleGAN imageRy
AI能够生成图像,研究人员通过新模型,只需文本便可控制生成结果的特定样式。
29、TiMe Lens: Event-based Video FRaMe InteRpolation
TimeLens模型能够理解视频帧之间的粒子运动,以人眼无法捕捉的速度重建视频,效果远超当前智能手机的性能。
30、DiveRse generation fRoM a Single Video Made PoSSible
想过编辑视频吗?本文中的研究可以帮助你在单个视频中进行高清格式的多种编辑,而无需压缩或拉伸原视频。
31、Skillful PRecIPITation Nowcasting USing Deep GeneRative Models of RadaR
DeepMind发布的生成模型在89%的情况下超越了现有的临近预报方法,其准确性得到了50多位气象学家的认可。
32、The CocktAIl FoRk PRobleM: ThRee-SteM Audio SepaRation foR Real-WoRld SoundtRacks
新模型和数据集的发布可以有效解决视频配乐声音与演员声音混杂的问题。
33、ADOP: ApProxiMate DiFFeRentiable One-Pixel Point RendeRing
想象一下,从一组照片中生成3D模型或流畅视频,现在这个目标已经可以实现。
34、(style)CLIPDRaw: Coupling Content and style in Text-to-DRawing Synthesis
只需一张您想要复制样式的图片和一段文字,本文中的算法就能自动生成新的图像。
35、SwinIR: image ResToration USing swin tRansfoRMeR
如果您曾经拍摄过一张特别喜欢的图像,但现在只有小图,本文中的方法可以提升其分辨率达4倍,几乎适用于任何图像。
36、EdITGAN: High-PRecision SEMantic image EdITINg
本文中的图像编辑工具允许从草图中控制特定特征,仅编辑您想要的部分,保持其余部分不变。
37、CITyNeRF: Building NeRF at CITy Scale
CITyNeRF是从NeRF发展而来的模型,它能够同时处理卫星和地面图像,为各种视点生成3D模型。
38、CliPCap: CLIP PRefix foR image Captioning
CLIP模型将图像与文本链接,图像字幕生成任务虽简单却相当复杂,体现了机器生成图像说明的挑战。
