查看原文
其他

【金猿技术展】专利智能语义检索——基于预训练的语义排序

智慧芽 数据猿 2021-12-21





智慧芽技术

本项目由智慧芽投递并参与“数据猿年度金猿策划活动——2021大数据产业创新技术突破榜榜单及奖项”评选。

数据智能产业创新服务媒体

——聚焦数智 · 改变商业



通过深度学习、自然语言处理以及预训练语言模型等前沿人工智能技术的运用,实现在海量全球多语言专利文本中进行自动化、智能化的数据分析与文本挖掘,进一步实现深层次语义分析,为用户提供更加精准地语义检索服务。

从不同的数据源入手,智慧芽进行了细粒度地文本实体抽取、实体关联、问题关联、领域关联、特征选择等方面的数据治理,通过领域语义图谱、文本/图片训练样本和预训练模型等,通过自研机器翻译引擎系统,智慧芽打通了不同专利文本之间的语言壁垒,使得面向全球TB级专利文本的分析、检索以及语义挖掘成为可能。

专利智能语义检索系统,主要在专利预训练语言模型的基础上,基于DSSM架构采用BERT孪生网络来获取文本的浅层语义信息,在检索层面,采用传统关键词检索以及向量检索相结合的方式,既保证了检索结果的覆盖率,也保证了检索结果的相关性。通过基于预训练语言模型的智能语义排序方法的应用,智慧芽专利智能语义检索系统取得了巨大的技术突破以及商业价值。

同时,相关技术已经获得了专利授权:CN112800779B。

技术说明


智慧芽智能语义检索系统,包含了三个主要的技术环节:(1)搭建面向专利领域的多语言翻译系统;(2)搭建面向专利文本的实体知识库;(3)搭建面向专利领域的语义排序系统。通过深度学习、自然语言处理等AI技术的综合应用,实现了智能语义检索系统各个环节的有序结合、相互依赖,同时又互为补充。

(1)搭建面向专利领域的多语言翻译系统

首先,在专利平行语料构建阶段,智慧芽深入挖掘了专利领域的可比语料,进一步利用自研的句对齐算法构建了千万级专利领域平行句对,同时,基于Transformer架构,我们通过引入专利词典以及采用回译等数据增强技术,构建了专利领域的多语言翻译系统,打通了不同语言专利文本的挖掘障碍。在实际翻译系统上线阶段,为了进一步提升翻译速度,同时减少显卡的利用,我们进一步优化了Transformer的模型架构,从而保证了翻译质量的专业与速度。

(2)搭建面向专利文本的实体知识库

专利文本是一种非常专业的文本,但是其表述也有一定的专业性与隐晦性,通过综合采用自研分词系统、TextRank、依存句法分析、词性标注以及TransE等主流自然语言处理算法与模型,我们实现了对专利文本的智能化、自动化解析,从而基于专利文本构建了包含同义词关系、上下位关系以及相似关系等专利实体关系的知识库。更进一步,依据专利文本的特点,智慧芽基于BERT模型,自研了专利IPC/CPC分类系统,同时扩展了原始专利文本的IPC/CPC类别,针对用户输入的纯文本信息,自动预测其IPC/CPC分类号。通过以上技术的综合应用,我们保证了尽可能多的召回潜在专利候选集合。

(3)搭建面向专利领域的语义排序系统

为了进一步保证智慧芽智能语义检索系统搜索结果的准确性,智慧芽利用海量专利数据重新训练了面向专利领域的预训练语言模型,同时,为了更加深入地挖掘专利文本之间的语义关系,在专利领域预训练语言模型的基础上,我们利用图神经网络进一步扩展了专利文本的语义内涵。最后,在数据采样方面,我们基于DSSM架构采用多LOSS融合的方式,使得排序模型的泛化能力更强,从而保证了篇章语义关系挖掘的准确性。在检索工程优化方面,为了保证搜索的实时性,智慧芽自研了向量检索平台,同时对原有语义生成模型进行了多模型融合与蒸馏。

在语义检索的最终RANK部分,智慧芽采用实体检索分数与向量检索分数向融合的方式,同时嵌入LTR,保证了语义检索结果的快、准、全。

智慧芽一直行走在专利领域AI技术应用与研究的最前沿,通过对专利智能语义检索的深耕、打磨与上线,智慧芽获得多项国家级资质荣誉,包括:世界知识产权组织第四批技术与创新支持中心(TISC)筹建机构、第三批“全国知识产权服务品牌机构”、“国家高新技术企业”、承担科技部的“国家重点研发计划”子课题任务等。

开发团队


·带队负责人:屠昶旸

屠昶旸,智慧芽技术副总裁拥有20多年高科技、互联网行业从业经验,曾在思科、网迅等公司任职。

长期从事为企业级用户提供协作开放云平台的技术运营服务,负责云平台的技术运营和相关云管理软件的开发。

·团队其他重要成员王为磊、王超超、夏宇彬

·隶属机构:智慧芽

智慧芽(PatSnap)是科技创新情报SaaS服务商,聚焦科技创新情报和知识产权信息化服务两大板块。通过机器学习、计算机视觉、自然语言处理(NLP)等人工智能技术,智慧芽为遍布全球科技公司、高校和科研机构、金融机构等提供大数据情报服务。智慧芽围绕科技创新与知识产权已经构建产品矩阵,旗下产品包括PatSnap全球专利数据库、Innosnap知识产权管理系统、Insights英策专利分析系统、Discovery创新情报系统等。

智慧芽已经服务全球50多个国家超1万家客户,涵盖了高校和科研院所、生物医药、化学、汽车、新能源、通信、电子等50多个高科技行业。国内客户包括清华大学、北京大学、中科院、中国石化、海尔、美的、小米、宁德时代、小鹏汽车、大疆、药明康德、商汤科技、华大等;国际客户包括麻省理工学院、牛津大学、陶氏化学、戴森、Spotify等。

相关评价


相信科技的力量能改变世界,我们看到智慧芽在大数据和人工智能上拥有全球领先的技术实力,这无疑是非常令人激动的。创新和知识产权情报服务正在帮助全球创新能力迈上新台阶,能帮助全球更多企业创新发展,我们坚信这一点。

管理合伙人 陈恂
——软银愿景基金(SoftBank Investment Advisers)

中国企业对创新和知识产权服务的需求正在迅速增长。智慧芽作为这一领域的头部厂商,深耕十多年,拥有对创新和知识产权领域前瞻性的洞察,积累了大数据和人工智能丰富的能力。

董事总经理 姚磊文
——腾讯投资


《2021企业数智化转型升级服务全景图/产业图谱1.0版》

《2021中国数据智能产业图谱3.0升级版》

《2021中国企业数智化转型升级发展研究报告》

《2021中国数据智能产业发展研究报告》

❷ 创新服务企业榜 

❸ 创新服务产品榜

❸ 最具投资价值榜 

❺ 创新技术突破榜

条漫:《看过大佬们发的朋友圈之后,我相信:明天会更好!》


联系数据猿

北京区负责人:Summer

电话:18500447861(微信)

邮箱:summer@datayuan.cn

全国区负责人:Yaphet

电话:18600591561(微信)

邮箱:yaphet@datayuan.cn

: . Video Mini Program Like ,轻点两下取消赞 Wow ,轻点两下取消在看

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存