基于类别深度典型相关分析的多模态数据下的细粒度场发现-EDN 电子技术设计

 通过研究照片和场所在多模式内容上的富文本描述之间的跨模式相关性，研究了细粒度的场所发现。与以往的研究不同，这项工作共同优化了成对相关性和基于类别的相关性，同时实现了精确的场所搜索和团体场所搜索。

通过研究照片和场所在多模式内容上的富文本描述之间的跨模式相关性，研究了细粒度的场所发现。与以往的研究不同，这项工作共同优化了成对相关性和基于类别的相关性，同时实现了精确的场所搜索和团体场所搜索。s66ednc

1、实验

大量实验证实：第一，与最新方法相比，提出的 C-DCCA 方法大大提高了分组场所发现的性能。第二，使用粗略的位置信息有助于缩小 C-DCCA 和 DCCA 在精确场地搜索中的差距。第三，使用额外的图像资源来表示场地的视觉效果有助于进一步提高细粒度场地发现的性能。s66ednc

在这项工作中，将旅行目的地和商务地点作为场所。通过照片发现场地对于视觉上下文感知应用程序非常重要。不幸的是，很少有工作去关注复杂的真实图像，例如用户生成的场地照片。我们的目标是从异构的社交多模式数据中去发现细粒度的场地。为此，我们提出了一种新颖的深度学习模型，即基于类别的深度典型相关分析（D-CCA）。给定照片作为输入，此模型执行：1）通过进行精确的场地搜索（查找照片所在的场地）和 2）通过对输入的照片与场地文字描述进行跨模式相关分组场地搜索（查找与照片具有相同类别的相关场地）。在此模型中，通过深度网络将不同形式的数据映射到同一空间，并联合优化了用于精确场所搜索的成对相关性（来自同一场所的不同形态数据之间）和用于组场所搜索的基于类别的关联性（来自具有相同类别的不同场所的不同形态数据之间）。由于照片无法完全反映场所的富文本描述，因此在训练阶段每个场所的照片数量会增加以捕获场所的更多特征。通过整合 Wikipedia 和 Foursquare 场地照片，我们构建了一个新的场地感知多模式数据集。在该数据集上的实验结果证实了该方法的可行性。此外，对另一个公共可用数据集的评估证实，我们所提出的方法优于最先进的图像和文本之间的跨模式检索的方法。1、背景s66ednc

上下文感知应用程序非常有前途，因为它们可以提供适合用户上下文的合适服务。假设用户是第一次参观某个经典，他不知道确切在哪里，而是在那儿照相。场所发现有助于找到拍摄照片的确切地点以及一组文本/视觉特征也与照片匹配的相关地点。前者捕获用户上下文，而后者对于场所推荐很重要。s66ednc

由于我们缺乏可靠的场所数据源，因此从照片中进行细粒度的场地发现几乎是不可能的。在多媒体技术创新和移动用户参与的推动下，与业务相关的社交多媒体数据和信息已大量出现在互联网上，例如，Wikipedia 中用于商务场所的专题文章，Foursquare 和 Yelp 上的商务场所照片以及视频在 YouTube 上投放广告。另一方面，包含视觉业务内容的场所照片的增长使各种业务服务对于 Internet 上的搜索者而言更加明显，从而导致了现实世界中的访问或购买。用户与场所之间的交互会在 Internet 上聚集各种多媒体数据和信息，这为我们提供了利用社交多模式数据的力量进行细粒度场所发现的新机会。在这里，多模式表示每个场所在文本和视觉（图像）等不同模式下具有多种表示形式。s66ednc

一些文献已经研究了场地发现，例如，照片中地理类别的预测或照片的视觉概念，或照片位置的粗略预测。但是，很少有工作致力于通过用户生成的更为复杂的真实图像（例如包含对象，地理类别和更有意义的语义描述的场所照片）进行细粒度的场所发现。s66ednc

在这项工作中，我们调查了来自 Wikipedia 和 Foursquare 的与场所相关的多模式数据，并研究了（i）精确的场所搜索（查找拍摄照片的场地），以及（ii）在用于细粒度场地发现的联合框架中对场所进行搜索并分类（查找具有相同类别的相关场地）。据我们所知，这是第一项研究着重于通过与综合场所相关的多模式数据对场所进行视觉和文字多样性的联合优化。为此，我们提出了一种基于类别的深度 CCA（C-DCCA）方法，其中通过深度网络将不同模式中的数据非线性映射到同一空间，以便来自同一地点或不同地点的不同模式的数据具有相同类别的人在该空间中高度相关。s66ednc

2、方案

图 1 显示了整个框架。虚线（i）部分说明了所提出的网络体系结构。从图像和文本中，分别提取视觉特征和文本特征。然而，这些功能属于不同的模式，无法直接进行比较。因此，通过使用 DNN 模型将它们映射到同一空间。为了增强此公共空间中的相关性，将 CCA 用作目标函数，DNN 模型均由三个完全连接的层组成。为了捕捉相似场所的共同特征，我们使用 Foursquare 中定义的地理类别作为概念将场所划分为组。CCA 目标函数中考虑了同一场所的照片和文本之间的成对相关性，以及具有相同类别的不同场所的照片和文本之间的基于类别的相关性，该函数用于调整 DNN 模型。s66ednc

1）视觉特征提取：CNN 在图像识别任务中表现出出色的性能，尤其是，CNN 在学习表示视觉内容的复杂功能方面具有强大的能力，例如 HOG 和 SIFT 。因此，在图像处理中，我们以 ImageNet 上预先训练的 VGG16 模型为例，为所有图像提取视觉特征。每个场所图像首先被转换为 224×224 的固定大小，然后输入到网络中。VGG16 模型包含 13 个卷积层（conv1-conv13）和三个完全连接的层（fc14-fc16）。除 fc16 出于图像处理目的使用 softmax 激活外，所有层均使用 ReLU（整流线性单元）激活。除最后一层外，每个完全连接的层后面都有一个辍学层，以避免过度拟合。每层依次处理图像，最后提取 fc15 的 4096 维特征作为每个场所图像的视觉特征。s66ednc

2）文本特征提取：很多研究者已经提出了用于表示文本特征的方法，例如 TF-IDF（词频-文档频率），主题模型（LDA 模型）以及通过空间中的矢量表示每个单词的单词嵌入方法（Word2Vec），其中含义相似的单词在空间中彼此接近。Doc2Vec 通过将整个文档转换为固定长度的矢量来扩展 Word2Vec 模型，同时考虑了上下文中单词的顺序。在文本处理中，我们以 Doc2Vec 模型为例来提取文本特征。从 Wikipedia 抓取的每个场所的文本描述都包含许多不相关的信息。首先，通过调用 Wikipedia API 仅提取主要文本和类别信息。然后，使用 coreNLP 对其进行标记，并传递给 Doc2Vec 模型，从而为每个场所关联生成固定的 300 维特征。s66ednc

3）C-DCCA:通过使用不同的 DNN，可以将视觉特征和文本特征进一步转换为公共空间中的低维特征，DNN 的详细信息显示在表 1 中。这两个 DNN 各自具有 3 个完全连接的层。在输入之前，需要进行批量归一化。在第一层和第二层中，有一个 drop-put 子层，用于避免过度拟合。每一层都采用其前一层的输出来计算其输出。s66ednc

基于类别深度典型相关分析的多模态数据下的细粒度场发现 s66ednc

s66ednc

表 1 DNN 配置参数s66ednc

基于类别深度典型相关分析的多模态数据下的细粒度场发现 s66ednc

s66ednc

图 1 基于 D-DCCA 的细粒度场景发现框架图s66ednc

3、实验评估

在 Wikipedia 和 Foursquare 上，我们通过与 CCA，KCCA，DCCA，C-CCA（基于类别的 CCA）和 C-KCCA 进行比较来评估了所提出的 C-DCCA 方法的性能。s66ednc

1）不同参数的影响评估：在训练中，使用了 Adam 优化器，并且将学习率设置为 0.0001，批次大小设置为 100。我们尝试使用不同的正则化参数 r（0.01、0.001、0.0001、0.00001），但未发现显着差异。在其余实验中，r 设置为 0.0001。参数 β 极大地影响系统性能。在不同的 β 值下，MRR1 和 MAP 的结果如图 3 所示。随着 β 的增加，MRR1 增加而 MAP 降低。这是因为较大的 β 将导致协方差的权重较大，而交叉协方差的权重较小。当 β 在（0.3，0.7）范围内变化时，性能没有明显变化。在下文中，β 设置为 0.3。s66ednc

基于类别深度典型相关分析的多模态数据下的细粒度场发现 s66ednc

s66ednc

2）分组场所搜索的评估：我们在训练中调整 Foursquare 照片的比例，以查看所有方法从每个场所的照片增加中受益的情况。图 4 展示了使用洛杉矶照片作为查询的回忆精度曲线，其中训练中使用的 Foursquare 照片的比例等于 20％。从图中可以看出，C-DCCA 改善了基于类别的相关性，而 DCCA 仅强调成对相关性。s66ednc

基于类别深度典型相关分析的多模态数据下的细粒度场发现 s66ednc

s66ednc

3）精确场所搜索的评估：我们通过 MRR1 指标评估查找照片确切地点的性能，用 Foursquare 中的洛杉矶照片作为查询的 MRR1 结果如图 8 所示。尽管在所有方法中，MRR1 的性能都随训练中使用的 Foursquare 图像比例的增加而提高，但 C-DCCA 和 DCCA 之间仍然存在明显的差距。但是与 C-DCCA 中 MRR1 的减少相比，C-DCCA 中 MAP 的增加要大得多。s66ednc

基于类别深度典型相关分析的多模态数据下的细粒度场发现 s66ednc

s66ednc

4）在 UCSD 数据集上的评估：为了证明其在其他任务中的适用性和有效性，我们将方法扩展到由 UCSD 组提供的公共数据集上的图像和文本之间的交叉模式检索和分类。这个多模式图像文本数据集是完全根据 Wikipedia 的文章生成的，而无需依赖其他图像资源，该资源包含 10 个最受欢迎类别中的 2866 个文档（每个文档包含一对文本和图像）。它分为 2173 个文档的训练集和 693 个文档的测试集。类别的定义取决于 Wikipedia 标签，并且与具有特定于地点的语义标签的 Foursquare 不同。分组场所搜索的 MAP 结果见表 II。这些结果反映了三个事实。（i）就相关性分析而言，C-DCCA 优于中提出的跨模式检索方法。与 CM / SCM 相比，当使用相同的手工制作的 SIFThist + LDA 功能时，C-DCCA 可获得更好的性能。（ii）功能也起着重要作用。因为 VGG16 远远超过了 SIFThist，而 Doc2Vec 也比 LDA 好一点，所以当 C–DCCA 将其功能从 SIFThist + LDA 更改为 VGG16 + Doc2Vec 时，我们可以看到很大的改进。（iii）完善预训练模型也很有帮助。预训练模型的重新训练具有明显的效果（尤其是在使用 VGG16 + Doc2Vec 时），因为 UCSD 数据集的统计特性与用于预训练这些模型的大型数据集的统计特性并不完全相同。s66ednc

基于类别深度典型相关分析的多模态数据下的细粒度场发现 s66ednc

阅读全文，请先

人工智能产业前沿通信

上一篇： 一次学会稳压二极管工作原理、重要参数意义和典型电路参数计算 下一篇： 苹果全新耳机AirPods Studio新专利曝光,收纳更简单，售价更高

微信扫一扫
一键转发
最前沿的电子设计资讯
请关注“电子技术设计微信公众号”

芯耀辉：从传统IP到IP2.0，AI时代国产IP机遇与挑战齐飞 2024年，集成电路行业在变革与机遇中持续发展。面对全球经济的新常态、技术创新的加速以及市场需求的不断变化，集成电路企业如何在新的一年里保持竞争力并实现可持续发展？
英伟达50系列显卡发布，RTX 5090D近乎“零提升”？ 1月6日的CES展会上，英伟达正式发布了备受期待的RTX 50系列显卡···
全自动手术机器人出现，缝合速度比医生还快30%？美国约翰霍普金斯大学和斯坦福大学的联合团队创造了一项前所未有的突破，他们首次对机器人进行了训练，使其能够像人类医生一样熟练地执行相同的手术程序···
2024是AI MCU元年？ 2024年开启了MCU领域的AI时代，2025年可望见证更多轻量化AI模型在MCU上的进一步突破...
以极致能效破解人工智能背后的“能源危机” 电力正在成为威胁人工智能（AI）进步的最新瓶颈，而人工智能迅猛增长的算力背后，攀升的能源占用也正在大量挤占正常的社会用能需求···
莱迪思聚焦低功耗中小型FPGA创新，并计划发展大规模FPGA 在最新的开发者大会上，莱迪思展示了其FPGA产品在广泛市场中的应用及未来发展的宏伟蓝图。据莱迪思亚太地区应用工程高级总监谢征帆介绍，随着莱迪思FPGA技术的广泛应用和产品差异化的推进，全球已有超过1万客户选择使用莱迪思的FPGA产品，部署的许可证数量也已超过3.5万。
协同创新，助汽车行业迈向电气化、自动化和互联化的未来汽车行业正处在电动化和智能化的转型过程中，而半导体企业站在这一变革的最前沿。这一转型带来了重大发展机遇，也带来了诸多挑战，需要颠覆性的技术以及更短的开发周期。加强半导体制造商、一级供应商和汽车制造商之间的合作，对于应对这些复杂情况及推动行业迈向电气化、自动化和互联化的未来至关重要···
打造下一代家用机器人：精心构建智能化、集成化和电源优今天的家用机器人不仅仅是工具，它们已经成为人们的生活伙伴，为日常生活增添了便利性和互动性。设计这些结构紧凑、功能强大的机器需要克服连接性、电源和外形尺寸等方面的严峻挑战，每一次突破都使我们更接近全面集成的智能家居体验···
新一代MCU向着边缘AI和实时控制发展在工业和汽车领域，电机驱动和数字电源转换是典型的实时控制系统，要求处理器具有高实时性和强大的数学计算与处理能力。这些应用需要优质的ADC和PWM功能，并通过联动机制，形成高效、有机的实时控制系统。
帕特·基辛格退休：工程师CEO的回归也救不回英特尔？在执掌英特尔三年多之后，魅力十足、雄心勃勃的英特尔首席执行官Pat Gelsinger下台了，这家摇摇欲坠的美国半导体巨头开始寻找继任者···
英伟达或推中国特供RTX 5090 D，硬件与5090完全相同？据外媒曝光的消息，英伟达即将推出的50系显卡也会推出专门的中国特供版本，名称为GeForce RTX 5090 D···
Arm Tech Symposia 年度技术大会顺利收官，继续构建作为当今时代最重大的技术变革之一，AI 极有潜力成为人类毕生最重要的技术。Arm 不仅提供了应用广泛的通用计算平台，还通过将 IP 与开源软件和工具乃至广泛的行业领先生态系统相结合，让全球 2,000 万开发者都能够使用 Arm 计算平台作为 AI 创新基础···

机器人所需要的传感器有哪些？随着机器人技术的迭代升级，传感器的重要性将持续提升，其功能性、精度和适配性也将得到显著改进，作为机器人不可
2024年墨西哥市场分析，中国品牌崛起 2024年，墨西哥汽车市场以近10%的增长率展现了强劲的复苏势头，中国品牌的崛起为市场注入了新活力，当然现在的政
2025，大众汽车集团在中国如何转型？ 2024 年，大众汽车集团（中国）在复杂多变的市场环境中成功达成销量目标，向客户交付超过 290 万辆汽车，新能源汽车领
国产射频芯片公司汇总对于射频芯片这项卡脖子技术，国内很多公司在这方面努力，而且也做出了不错的成绩。一些射频芯片公司无论从研发
拆解报告：松下电器1200W电吹风松下EH-NW90电吹风内置10万转高速无刷电机，并具备三档风速和四档风温可选。电吹风内置纳诺怡技术，为秀发提供
拆解报告：白牌电动工具电池多功能放电转换器这款白牌多功能放电转换器适配得伟电动工具电池使用，将电动工具电池和放电转换器组装起来，即可组成移动电源和
拆解报告：MOMA猛玛LARK M2无线麦克风 MOMA猛玛LARK M2无线麦克风在外观方面，采用了极富创新的设计，提供了轻盈舒适的佩戴使用体验。发射器采用了夹
阿根廷2024年：销量下滑，北汽增长240.1%。 2024年阿根廷汽车市场在整体销量下滑的背景下，依然展现出多元化的发展趋势···
2025年第3周：全球最快四足机器人发布 2025年将成为机器人产业的关键时间点，业内预期27年人形机器人出货量可达50~100万台。从技术进步到供应链成熟
欧洲2024年汽车市场：微弱复苏和电动化加速并存 2024年，欧盟新车注册量小幅增长0.8%，达到约1060万辆，欧盟+英国+北欧国家的销量为1296.4万台，同比增长0.9%，整个欧
射频微波领域有哪些高质量期刊？今天我们结合网络上的资料一起整理一份射频微波领域的期刊列表，以便同学们投稿时可以选择···
拆解报告：Portal智能屏幕24W电源适配器 Portal智能屏幕电源适配器采用黑色直板机身，外观整洁，配有2米长黑色输出线。适配器采用美规固定插脚，支持100-2

性能飞跃！升级电流传感器NSM201x-P系列赋能汽车三电和光伏逆变器纳芯微推出全新车规级集成电流路径霍尔传感器NSM201x-P系列。该系列产品是对纳芯微已量产的NSM201x系列的完
意法半导体推出STSPIN32G0新列电机驱动器，满足工业自动化和家电市意法半导体STSPIN32系列集成化电机驱动器新增八款产品，满足电动工具、家用电器、工业自动化等应用的低成本、
Melexis推出性能先进的温度传感器，以红外技术创新实现电磁炉智能全球微电子工程公司Melexis宣布，推出专为电磁炉设计的非接触式红外温度传感器芯片MLX90617···
康佳特SMARC模块更新: 全新英特尔酷睿3处理器低功耗 SMARC 模块AI 加速和图形处理性能再次提升···
康佳特针对要求苛刻的实时应用推出新型高性能COM-HPC模块基于英特尔酷睿 Bartlett Lake S处理器的模块性能全面提升···
为汽车安全保驾护航，纳芯微推出基于AMR技术的ABS轮速传感器纳芯微宣布推出全新基于AMR（各向异性磁阻技术）的轮速传感器NSM41xx系列。该系列产品通过集成先进的磁性传感敏
Microchip推出全新Switchtec™ PCIe® 4.0 16通道交换机系列 PCI100x系列器件可为任何需要加速或专用计算的应用提供高性能和成本效益···
RK3576有多强？实测三屏八摄像头轻松搞定-米尔米尔基于他们推出的MYD-LR3576开发板开发了一个3屏异显，8路摄像头输入的DEMO，实测下来，RK3576轻松搞定了该任
SynQor®推荐先进的军用级三相输入UPS（UPS-1500-S-1U-T） SynQor的三相输入UPS电源能使单相负载在电源端呈现出符合MIL-STD-1399-300B标准的清洁、表现良好且几乎零反
村田开发超小尺寸、超低功耗的Type 2GQ GNSS模块，以匠心品质助在几年前，定位系统充斥于生活方方面面的情节还仅见于各式的科幻影片，而今具备这一功能的产品已经以各种形态步
瑞萨推出性能卓越的新型MOSFET 瑞萨全新晶圆技术可以帮助MOSFET实现导通电阻降低30%、栅漏电荷减少40%、封装尺寸缩小50%的目标···
加特兰集成 Cadence Tensilica ConnX 220 DSP 全面升级汽 ConnX 220 DSP 集成至基于下一代 Andes SoC 的加特兰雷达解决方案后，将带来显著优势，包括提高灵活性、

热门评论
最新评论

换一换

杂志声明

基于类别深度典型相关分析的多模态数据下的细粒度场发现

1、实验

2、方案

3、实验评估