在机器学习领域,教AI系统以尽可能完整的方式了解视频中发生的事情是最艰巨的挑战之一,也是最大的潜在突破。今天,Facebook宣布了一项新计划,希望借此在这项后续工作中占优势:在Facebook用户的公共视频上训练其AI。
访问培训数据是AI的最大竞争优势之一,通过从数以百万计的用户那里收集该资源,Facebook,Google和Amazon等技术巨头已经能够在各个领域取得进步。尽管Facebook已经对从Instagram收集的数十亿张图像进行了机器视觉模型的训练,但它先前尚未宣布具有类似雄心的视频理解项目。
“通过学习覆盖几乎每个国家和数百种语言的全球公开视频流,我们的AI系统不仅可以提高准确性,还可以适应我们快速发展的世界,并认识到不同文化和地区之间的细微差别和视觉提示,”他说。公司在博客中。这个名为“从视频中学习”的项目也是Facebook“为构建像人类一样学习的机器而做出的更大努力”的一部分。
Facebook说,由此产生的机器学习模型将用于创建新的内容推荐系统和审核工具,但将来可能会做得更多。能够理解视频内容的AI可以使Facebook对用户的生活有空前的洞察力,使他们能够分析自己的爱好和兴趣,品牌和服装的偏好以及无数其他个人详细信息。当然,Facebook已经可以通过其当前的广告定位操作来访问此类信息,但是能够通过AI解析视频将为其商店添加难以置信的丰富(且具有侵入性)数据源。
Facebook对其在用户视频上训练的AI模型的未来计划含糊其词。该公司告诉The Verge,这些模型可以用于多种用途,从字幕视频到创建高级搜索功能,但没有回答有关是否将其用于收集广告定位信息的问题。同样,当被问及用户是否必须同意将其视频用于训练Facebook的AI或是否可以退出时,该公司仅通过指出其数据政策指出用户上传的内容可用于“产品研发”来做出回应。 ” Facebook也没有回答这样的问题:询问将收集多少视频以训练其AI系统,或者将如何监督公司研究人员对这些数据的访问。
不过,在宣布该项目的博客文章中,该社交网络确实指出了一种未来的投机用途:使用AI检索智能眼镜捕获的“数字记忆”。
Facebook计划在今年的某个时候发布一副消费者智能眼镜。有关设备的详细信息含糊不清,但这些眼镜或将来的眼镜很可能会包含集成的摄像头,以捕捉佩戴者的观点。如果可以训练AI系统理解视频的内容,那么它将允许用户搜索过去的记录,就像许多照片应用程序允许人们搜索特定的位置,对象或人一样。(顺便说一下,这是经常由经过用户数据训练的AI系统索引的信息。)
facebook表示,随着用智能眼镜录制视频“已经成为常态”,“人们应该可以像拍摄视频一样轻松地从庞大的数字存储中回忆起特定的瞬间。”这本书展示了一个用户搜索的例子,他们在被提供相关视频之前,使用一句话“每次当他们奶奶过生日的时候告诉我”。该公司指出,这类搜索需要 AI系统在数据类型之间建立联系,并教他们“把“生日快乐”这个词和蛋糕、蜡烛、唱各种生日歌的人等词搭配起来。”人工智能和人类一样,需要理解由各种感觉输入组成的丰富概念。
从长远来看,智能眼镜和机器学习的结合将实现所谓的“世界捕捉”——通过将智能眼镜佩戴者转变为闭路电视摄像机,捕捉细粒度的世界数据。《卫报》在去年的一份报告中这样描述:“每当有人浏览超市,他们的智能眼镜就会记录实时价格数据、库存水平和浏览习惯;每当他们翻开报纸,他们的眼镜就会知道读过哪些故事、看过哪些广告、看到哪些名人照片。
那是一个极端的结果, Facebook并没有说要探索研究的道路。但是,它也表明了高级 AI视频分析和智能眼镜配对的潜在意义——社交网络显然渴望这么做。
相比较而言, Facebook目前公布的新 AI视频分析工具的唯一用途还不算太多。在今日发布学习视频的消息时, Facebook说已经在 TikTok的复制卷轴上部署了基于视频工作的新内容推荐系统。facebook表示:“受欢迎的视频通常包含相同的音乐和舞步,但是制作和表演的人不同。Facebook的 AI可以通过分析视频内容向用户推荐相似的片段。
然而,这种内容推荐算法并非没有潜在的问题。最近一份关于 MIT技术的报告强调,社交网络的发展和用户参与的焦点问题,使得 AI团队不再能够充分处理算法如何传播错误信息,而是鼓励政治极化。《技术评论》上有一篇文章指出:“最大限度地利用(机器学习)模型也会带来争议、错误信息和极端主义。”这种情况使得 Facebook的 AI伦理研究者的责任和公司最大化发展的信条产生了冲突。
进行高级 AI视频分析的大型科技公司不只 Facebook一家,利用用户数据进行 AI视频分析的也不只 Facebook一家。举例来说, Google保持着一个开放的研究数据集,其中有800万个精选的 YouTube视频和部分标签,目的是“帮助加速对大规模视频的理解研究”。即便最后结果只是在 YouTube上投放了更多相关的广告,这个搜索巨头的广告业务也能从 AI中获益。
不过,Facebook认为它比竞争对手更具优势。它不仅具有足够的训练数据,而且还将越来越多的资源投入到称为自我监督学习的AI方法中。
通常,当对AI模型进行数据训练时,这些输入必须由人工标记:例如,标记图片中的对象或转录录音。如果您曾经解决过识别消防栓或行人过路处的验证码,那么您可能已经标记了有助于训练AI的数据。但是自我监督式学习消除了标签,加快了培训过程,并且,一些研究人员认为,随着AI系统自学成才,将导致更深入,更有意义的分析。Facebook对自我监督式学习如此乐观,被称为“智慧的暗物质”。
该公司表示,其未来在AI视频分析方面的工作将集中在半监督和自我监督的学习方法上,并且这种技术“已经改善了我们的计算机视觉和语音识别系统。” Facebook的28亿用户拥有如此丰富的视频内容,因此跳过AI培训的标签部分当然是有道理的。而且,如果社交网络可以教授其机器学习模型来无缝地理解视频,那么谁知道他们可能会学到什么呢?