黑客24小时在线接单网站

黑客在线接单,网站入侵,渗透测试,渗透网站,入侵网站

知识图谱的应用领域(知识图谱可用于)

本文目录一览:

知识图谱基础(一)-什么是知识图谱

笔者是一只已经离职的AI产品经理,主要擅长的方向是知识图谱与自然语言处理,写这些文章是为了总结归纳目前已经搭建的知识体系,也在于科普。如有不对,请指正。

知识图谱在国内属于一个比较新兴的概念,国内目前paper都比较少,应用方主要集中在BAT这类手握海量数据的企业,这个概念是google在2012年提出的,当时主要是为了将传统的keyword-base搜索模型向基于语义的搜索升级。知识图谱可以用来更好的查询复杂的关联信息,从语义层面理解用户意图,改进搜索质量。

个人认为,知识图谱更大的优势是在于对数据的描述能力非常强大,各种机器学习算法虽然在预测能力上很不错,但是在描述能力上非常弱,知识图谱刚好填补了这部分空缺。

知识图谱的定义非常多,我这里提供一部分我自己的理解:

1.知识图谱主要目标是用来描述真实世界中存在的各种实体和概念,以及他们之间的强关系,我们用关系去描述两个实体之间的关联,例如姚明和火箭队之间的关系,他们的属性,我们就用“属性--值对“来刻画它的内在特性,比如说我们的人物,他有年龄、身高、体重属性。

2.知识图谱可以通过人为构建与定义,去描述各种概念之间的弱关系,例如:“忘了订单号”和“找回订单号”之间的关系

知识库目前可以分为两种类型:Curated KBs 和 Extracted KBs

Curated KBs :以yago2和freebase为代表,他们从 *** 和WordNet等知识库抽取了大量的实体及实体关系,可以把它理解城一种结构化的 *** 。

Extracted KBs :主要是以Open Information Extraction (Open IE),  Never-Ending Language Learning (NELL)为代表,他们直接从上亿个网页中抽取实体关系三元组。与freebase相比,这样得到的实体知识更具有多样性,而它们的实体关系和实体更多的则是自然语言的形式,如“姚明出生于上海。” 可以被表示为(“Yao Ming”, “was also born in”, “Shanghai”)。直接从网页中抽取出来的知识,也会存在一定的噪声,其精确度低于Curated KBs。

a)“姚明出生于上海”

b)“姚明是篮球运动员”

c)“姚明是现任中国篮协主席”

以上就是一条条知识,把大量的知识汇聚起来就成为了知识库(Knowledge Base)。我们可以从 *** ,百度百科等百科全书获取到大量的知识。但是,这些百科全书的知识是由非结构化的自然语言组建而成的,这样的组织方式很适合人们阅读但并不适合计算机处理。

为了方便计算机的处理和理解,我们需要更加形式化、简洁化的方式去表示知识,那就是三元组(triple)。

“姚明出生于中国上海” 可以用三元组表示为(Yao Ming, PlaceOfBirth, Shanghai)[1]。这里我们可以简单的把三元组理解为(实体entity,实体关系relation,实体entity)。如果我们把实体看作是结点,把实体关系(包括属性,类别等等)看作是一条边,那么包含了大量三元组的知识库就成为了一个庞大的知识图。

有些时候会将实体称为topic,如Justin Bieber。实体关系也可分为两种,一种是属性property,一种是关系relation。如下图所示,属性和关系的更大区别在于,属性所在的三元组对应的两个实体,常常是一个topic和一个字符串,如属性Type/Gender,对应的三元组(Justin Bieber, Type, Person),而关系所在的三元组所对应的两个实体,常常是两个topic。如关系PlaceOfBrith,对应的三元组(Justin Bieber, PlaceOfBrith, London)。

(图中蓝色方块表示topic,橙色椭圆包括属性值,它们都属于知识库的实体;蓝色直线表示关系,橙色直线表示属性,它们都统称为知识库的实体关系,都可以用三元组刻画实体和实体关系)

这里只是简单介绍一下数据结构,知识表达这一块会在《知识图谱基础(二)-知识图谱的知识表达系统》中详细讲解。

读者只要记住,freebase的基础知识表达形式:(实体)-[关系]-(实体),(实体)-[关系]-(值)即可,参考图3,姚明和叶莉的关系。

通过知识图谱,不仅可以将互联网的信息表达成更接近人类认知世界的形式,而且提供了一种更好的组织、管理和利用海量信息的方式。下图是笔者整理的知识图谱有关的应用,接下来的一些文章笔者会对下面的应用进行剖析。

从图4上看,知识图谱的应用主要集中在搜索与推荐领域,robot( *** 机器人,私人助理)是问答系统,本质上也是搜索与推荐的延伸。可能是因为知识图谱这项技术(特指freebase)诞生之初就是为了解决搜索问题的。知识存储这一块可能是企查查和启信宝这些企业发现使用图结构的数据比较好清洗加工。

在语义搜索这一块,知识图谱的搜索不同于常规的搜索,常规的搜索是根据keyword找到对应的网页 *** ,然后通过page rank等算法去给网页 *** 内的网页进行排名,然后展示给用户;基于知识图谱的搜索是在已有的图谱知识库中遍历知识,然后将查询到的知识返回给用户,通常如果路径正确,查询出来的知识只有1个或几个,相当精准。

问答系统这一块,系统同样会首先在知识图谱的帮助下对用户使用自然语言提出的问题进行语义分析和语法分析,进而将其转化成结构化形式的查询语句,然后在知识图谱中查询答案。

什么是知识图谱?有哪些模型?指标?规则?

“图谱”的时代

知识图谱自从2012年开始发酵,愈演愈烈,行业顶端的佼佼者纷纷发布企业知识图谱应用,知识图谱能为企业实现数据价值。只能说,图技术快速发展,业务需求不论变化与否,知识图谱是不可阻挡的趋势。2020年4月20日,国家发改委明确人工智能 “新基建” 的内涵,体现“重创新、补短板”的特征:助力传统基础设施智能化改造,提高传统基础设计的运行效率。

图1 中国知识图谱效益增长规模——艾瑞咨询

当前的人工智能其实可以简单划分为感知智能(主要集中在对于图片、视频以及语音的能力的探究)和认知智能( 涉及知识推理、因果分析等)。

人工智能是新基建的重点领域,而知识图谱是认知智能的底层支撑。 知识图谱具有解释数据、推理和规划一系列人类的思考认知能力,基于大规模,关联度高的背景知识。

                                                                              ————《面向人工智能“新基建”的知识图谱行业白皮书》 

我们每天都在用知识图谱

知识图谱应用于各个领域,例如:电商(产品推荐)、医疗(智能诊断)、金融(风控)、证券(投研)。知名企业包括:Google Knowledge Graph、美团大脑、阿里巴巴·藏经阁计划、腾讯云·知识图谱 TKG等。

知识图谱在人工智能多个领域发挥重要作用:语义搜索、智能问答、辅助语言理解、辅助大数据分析、增强机器学习的可解释性、结合图卷积辅助图像分类等。同时,这也意味着技术难度大幅度增加。

知识图谱的价值

您可能会以为知识图就是捕获和管理知识的最终目的。其实,知识图擅长以自上而下的 关系连接方式显式捕获知识 。通过关系节点联系上下游关系,清楚的梳理关系 *** 。如下图:

图2 普适智能知识中台

高效直观地刻画目标主体(如企业、事件等)之间地关联 *** ,从而全维度地对企业进行画像,立体复现主体的真实情况和错综复杂的关系。其强大的互联组织能力和可视化决策推理支持,为企业资产提供底层基础。普适智能一站式“图智能”应用, 拥有打开“百窍”的能力, 具体有以下几方面的思考:

深度链接分析 有机可寻

拿我们最熟悉的金融领域举例,知识图谱常见的实体包括公司、产品、人员、相关事件等,常见的关系包括股权关系、任职关系、供应商关系、上下游关系、竞争关系等等。

这样做的好处就是,通过知识图谱的整合,让原本复杂的数据形成直观易懂的可视化图谱, 在全球经济一体化的趋势下,分析师以及投资机构很可能先人一步观察到竞争格局的改变,为寻找 新客户、新投资机会提供线索。

图3 企业上下游关系 ***

多维度属性  顺藤摸瓜

知识图谱的另一个价值是“可以简单地处理多维度数据”。 目前在普适智能帮客户分析超百亿的实体(或节点)和关系(或边缘)。

图4 某股份制商业银行基金产品关系 *** 截图

“对于实益拥有权,我们经常会看到拥有六,七层或更多层的拥有权阶层,尤其是在像中国这样拥有大型企业的地方。” “人们必须意识到一个拥有可以处理并查询至少六到七层(如果没有更多层)的拿手工具是解决问题的真正核心。”

每个公司、个人、新闻事件都可以是一个“点”,人工智能引擎可将这些点进行聚集,对其中的相关性、相似度以及聚集程度进行多维度分析, 还原真实场景 ,才能 “顺藤摸瓜”。

图5 反欺诈图应用

例如知识图谱在传统的风险管理流程中,多通过对目标主体简单维度的特征进行严格审核,无法判断真实的关联风险。

挑战与机会

普适智能深耕于金融领域,其细分业务场景包含但不限于:反欺诈、反洗钱、盗刷排查、失联催收、外汇异常监控、信用审核等,举个具体项目中的例子:因图构建本身流程较长,再加上每个场景的图构建相对的独立,给数据反复开发,数据不连通创造了必要条件, 绕不过去的是大量企业资产成本浪费问题。

图6 传统关系 *** 应用的构建模式

在工程落地方面,还存在图谱建设周期长,应用构建专业程度高,跨行业迁移成本高等难题。由此带来的挑战会体现在—— 产品是否可以开箱即用 。

普适智能中台化思路

为了解决以上问题,普适智能自主研发将知识图谱构建与应用平台升级为一站式的“图智能”中台。

图7 传统关系 *** 应用的构建模式

一套中台和工厂模式平台的孕育而生,确保各式的场景对图不同形态的需求和保证联合查询需求。“一窍通,百窍通”,一站式“图智能”中台就是“那一窍”,以下:

打通业务场景独立图谱构建 ,减少反复开发周期成本,为传统应用形态赋能,提升服务质量和效率,简单的图应用可以在 1~2天 内实现,复杂的图应用可以在传统做法上缩短到 三分之一 ,加速企业资产的累积;

配合着打通部门数据 ,解决跨部门合作沟通周期长、配合难的问题;

图谱交互友好程度高,可视化决策辅助业务场景,更易发现 隐藏的信息 ;

赋能专家行业专家,将领域专家的行业经验的程序化,留存在平台, 企业知识资产沉淀。

实时可扩充 ,弹性十足

知识图谱中台的价值还在于灵活可扩充,建立实时敏捷、灵活可扩展、具有弹性的数据基础。 金融知识图谱直接反馈金融行业的刚性需求,由于实际中,企业数据和业务变化灵活,数据源、数据结构、数据内容随时会发生变动,对业务的理解以及对数据的解读也随之发生变化。

图8 多维数据扩展查询

如何有效的使用这些数据,需要员工具备专业的金融知识,深刻理解某个数据变动可能引发的关联、传导,知识图谱将是最得心应手的工具。

图技术是 知识图谱应用的最强弹药

企业需要能够快速支持业务中迭代式的新模式。普适智能的“图智能”中台具有计算引擎: 图计算模型、图匹配业务数据模型等, 助力企业完成这一目标。

图规则计算: (例如:与黑名单客户共用一个 *** 的客户是可疑欺诈客户)

图指标计算: (例如:客户两度关系内黑名单客户的比例)

图机器学习 (以图作为先验知识让特征工程更有效)

社群识别 :标签预测(黑名单预测/潜在VIP客户预测)

图9 社区分析

最短路径 :优化加工路径,节约数据加工成本。

图10 路径查询

“工欲善其事,必先利其器” 。普适智能一站式“图智能”应用,为描绘物理世界生产生活行为提供 有效的 *** 和工具 。Gartner:“图时代已经到来”,让我们一起“图”起来!

知识图谱 在日常生活中的应用

"知识图谱"是一个大数据行业里的词,是一种数据结构,或者说运用数据的 *** 。说得学术的话,可以这麽解:

知识图谱本质上是语义 *** ,是一种基于图的数据结构,由节点(Point)和边(Edge)组成。在知识图谱里,每个节点表示现实世界中存在的“实体”,每条边为实体与实体之间的“关系”。知识图谱是关系的最有效的表示方式。通俗地讲,知识图谱就是把所有不同种类的信息(Heterogeneous Information)连接在一起而得到的一个关系 *** 。知识图谱提供了从“关系”的角度去分析问题的能力。

像看刑侦片时,警察会把犯人和受害者等一堆人物关系列出来一样,知识图谱就是把不同资讯串联起来,形成关系网,从而在关系网中找到所需要的。

查百度,会说百度Google等都在用知识图谱技术,比如你搜"人民的名义",百度就会在右边给你推荐剧中的人物,点进去就有人物介绍,这个就是"人民的名义"扩展开去的资讯关系网。

对这技术,有一家叫Palantir的美国公司玩得特别出彩,帮美国抓住了本拉登。Palantir的故事可以看这里,里面就说明了标题里说的大数据破案背后的原理。

一个哲学家,帮中情局找到了本·拉登 by 40秒

刚刚说了,知识图谱就是把不同种类的信息连接在一起而得到的关系网。提供了给我们从“关系”的角度去分析问题的能力。

那麽,对于个人知识的整理,和工作任务,能不能套用这样的 *** 呢?这正正就是"思维导图"的作用。

思维导图是一个很流行的 *** ,现在很多童鞋看完一本书,都会用思维导图的把书中内容,按章节重点层层列出,弄得很有条理。

然而用这种 *** 来做导图,既然是把内容层层列出,其实做出来后,更像是一个目录,而不是一个思维流程或结果。纵使在做图过程中有思考厘清书中原理,也较难做到新旧知识联系。

其实对这种常规的导图做法,"精英日课"的作者 万维纲,和"5分钟商学院"的作者 刘润,都持反对的观点。认为这是把导图用错了。

万 的观点是,这种层级分明的归纳方式,完全可用Bullet Point取代。万认为思维导图的用法应是就一个中心思想,自由展开,向外散发,展现其中关系。导图是协助自己思考的一个工具,而不是把资料分门别类放好的书架。很多时候,发挥作用的导图都是像战场一样乱的,因为知识的关系本来就如此错纵复杂。

刘 的观点也类似,刘看重不同工具对思维方式的影响,如一开始做计划时,用word,excel,ppt,白板,什至白板的大小,都会有不同的影响。刘在做项目计划时,最常用的是一块大白板。

万维纲和刘润介绍思维导图的这个文章,能在得到APP找到,各自在他们之一季专栏里。

*彩蛋

再分享一个简单的玩法,一个畅销书作家的小绝招,看实体书的时候,想到什么就直接写在书上(批注),不明显相关的也可。久而久之,就会而且容易串联起不同资讯间的脉络,产生属于自己的图谱来。这个 *** 也很能帮忙产生创意或顿悟。

电子版的笔记也可以这样玩,像印象笔记,会自动找出你不同笔记间的联系,推荐你可以跳去另一个笔记看看,什或推荐一些和你笔记有关的新闻。

笔者WeChat:Enzo945109

欢迎一起交流心得

文章列表:

痛点,爽点,痒点 有什麽不一样

梁宁产品 *** 论:规划一个产品,要问自己的7个问题

YY李学宁 做社区用的 - 用户画像

香港物流界Uber- "GoGoVan"的产品 *** 论

用Raspberry Pi3 +Google Voice 自行建造智能助理(待续)

知识图谱与思维导图 - 大数据技术原理在生活中的应用

痛点,爽点,痒点 有什麽不一样

扩展阅读:

对知识图谱学术化的解释可以看:

普惠大数据李文哲:知识图谱的应用

;mid=404872190idx=1sn=734fe72a1c3f57109ec5ecc8bce1591ascene=21#wechat_redirect

一文读懂知识图谱的商业应用进程及技术背景 by 林锦周

解读大数据如何破案,从Palantir看公安大数据应用

即使是AI界“网红” 知识图谱也曾经历40年的生不逢时 by机器之心

金融知识图谱概述

【知识图谱】项目前期产品经理需要做哪些准备?by  Ja *** ine  hanniman

;mid=2650005805idx=1sn=83f0b7847447940fd44bc16d77b71b3dchk *** =bed865ba89afecac57fcb86111e5b863b3085be430bcd6c8a7945be93054d008f30c9dcd0327mpshare=1scene=1srcid=091456iAgf6Iw8UQV8rjluykkey=154a3d8b14f6c0a9bfbaafef16ba06cf3bd88d53ad148d3b8ae9f1c0945f5536d5a29c83b14ee95091061562a901df64d6e58d28a3efe2ec410de6cbdc0eca8a0fd9009dd474f3548effad31071d5241ascene=0uin=MzkyNDYwOTIwdevicetype=iMac+MacBookPro12%2C1+OSX+OSX+10.10.5+build(14F1912)version=12020810nettype=WIFIfontScale=100pass_ticket=Fb8kfLtKI%2BFTk1FG5Aj54xPJZ7fHt%2BLektqAtdL9tiIItgncDlrDf%2FP6hwXPgmb1

百分点公司的动态知识图谱主要应用在什么场景下?

动态知识图谱主要应用在信息检索,推荐系统,互联网金融行业等场景,很多应用场景和想法都可以延伸到其他的各行各业。

知识图谱是什么?有哪些应用价值

知识图谱 (Knowledge Graph) 是当前的研究热点。自从2012年Google推出自己之一版知识图谱以来,它在学术界和工业界掀起了一股热潮。各大互联网企业在之后的短短一年内纷纷推出了自己的知识图谱产品以作为回应。比如在国内,互联网巨头百度和搜狗分别推出”知心“和”知立方”来改进其搜索质量。那么与这些传统的互联网公司相比,对处于当今风口浪尖上的行业 - 互联网金融, 知识图谱可以有哪方面的应用呢?

目录

1. 什么是知识图谱?

2. 知识图谱的表示

3. 知识图谱的存储

4. 应用

5. 挑战

6. 结语

1. 什么是知识图谱?

知识图谱本质上是语义 *** ,是一种基于图的数据结构,由节点(Point)和边(Edge)组成。在知识图谱里,每个节点表示现实世界中存在的“实体”,每条边为实体与实体之间的“关系”。知识图谱是关系的最有效的表示方式。通俗地讲,知识图谱就是把所有不同种类的信息(Heterogeneous Information)连接在一起而得到的一个关系 *** 。知识图谱提供了从“关系”的角度去分析问题的能力。

知识图谱这个概念最早由Google提出,主要是用来优化现有的搜索引擎。不同于基于关键词搜索的传统搜索引擎,知识图谱可用来更好地查询复杂的关联信息,从语义层面理解用户意图,改进搜索质量。比如在Google的搜索框里输入Bill Gates的时候,搜索结果页面的右侧还会出现Bill Gates相关的信息比如出生年月,家庭情况等等。

另外,对于稍微复杂的搜索语句比如 ”Who is the wife of Bill Gates“,Google能准确返回他的妻子Melinda Gates。这就说明搜索引擎通过知识图谱真正理解了用户的意图。

上面提到的知识图谱都是属于比较宽泛的范畴,在通用领域里解决搜索引擎优化和问答系统(Question-Answering)等方面的问题。接下来我们看一下特定领域里的 (Domain-Specific) 知识图谱表示方式和应用,这也是工业界比较关心的话题。

2. 知识图谱的表示

假设我们用知识图谱来描述一个事实(Fact) - “张三是李四的父亲”。这里的实体是张三和李四,关系是“父亲”(is_father_of)。当然,张三和李四也可能会跟其他人存在着某种类型的关系(暂时不考虑)。当我们把 *** 号码也作为节点加入到知识图谱以后( *** 号码也是实体),人和 *** 之间也可以定义一种关系叫 has_phone,就是说某个 *** 号码是属于某个人。下面的图就展示了这两种不同的关系。

另外,我们可以把时间作为属性(Property)添加到 has_phone 关系里来表示开通 *** 号码的时间。这种属性不仅可以加到关系里,还可以加到实体当中,当我们把所有这些信息作为关系或者实体的属性添加后,所得到的图谱称之为属性图 (Property Graph)。属性图和传统的RDF格式都可以作为知识图谱的表示和存储方式,但二者还是有区别的,这将在后面章节做简单说明。

3. 知识图谱的存储

知识图谱是基于图的数据结构,它的存储方式主要有两种形式:RDF存储格式和图数据库(Graph Database)。至于它们有哪些区别,请参考【1】。下面的曲线表示各种数据存储类型在最近几年的发展情况。从这里我们可以明显地看到基于图的存储方式在整个数据库存储领域的飞速发展。这幅曲线图来源于 Graph DBMS increased their popularity by 500% within the last 2 years

下面的列表表示的是目前比较流行的基于图存储的数据库排名。从这个排名中可以看出neo4j在整个图存储领域里占据着NO.1的地位,而且在RDF领域里Jena还是目前为止最为流行的存储框架。这部分数据来源于 DB-Engines Ranking

当然,如果需要设计的知识图谱非常简单,而且查询也不会涉及到1度以上的关联查询,我们也可以选择用关系型数据存储格式来保存知识图谱。但对那些稍微复杂的关系 *** (现实生活中的实体和关系普遍都比较复杂),知识图谱的优点还是非常明显的。首先,在关联查询的效率上会比传统的存储方式有显著的提高。当我们涉及到2,3度的关联查询,基于知识图谱的查询效率会高出几千倍甚至几百万倍。其次,基于图的存储在设计上会非常灵活,一般只需要局部的改动即可。比如我们有一个新的数据源,我们只需要在已有的图谱上插入就可以。于此相反,关系型存储方式灵活性方面比较差,它所有的Schema都是提前定义好的,如果后续要改变,它的代价是非常高的。最后,把实体和关系存储在图数据结构是一种符合整个故事逻辑的更好的方式。

4. 应用

在本文中,我们主要讨论知识图谱在互联网金融行业中的应用。当然,很多应用场景和想法都可以延伸到其他的各行各业。这里提到的应用场景只是冰山一角, 在很多其他的应用上,知识图谱仍然可以发挥它潜在的价值, 我们在后续的文章中会继续讨论。

反欺诈

反欺诈是风控中非常重要的一道环节。基于大数据的反欺诈的难点在于如何把不同来源的数据(结构化,非结构)整合在一起,并构建反欺诈引擎,从而有效地识别出欺诈案件(比如身份造假,团体欺诈,代办包装等)。而且不少欺诈案件会涉及到复杂的关系 *** ,这也给欺诈审核带来了新的挑战。 知识图谱,作为关系的直接表示方式,可以很好地解决这两个问题。 首先,知识图谱提供非常便捷的方式来添加新的数据源,这一点在前面提到过。其次,知识图谱本身就是用来表示关系的,这种直观的表示 *** 可以帮助我们更有效地分析复杂关系中存在的特定的潜在风险。

反欺诈的核心是人,首先需要把与借款人相关的所有的数据源打通,并构建包含多数据源的知识图谱,从而整合成为一台机器可以理解的结构化的知识。在这里,我们不仅可以整合借款人的基本信息(比如申请时填写的信息),还可以把借款人的消费记录、行为记录、网上的浏览记录等整合到整个知识图谱里,从而进行分析和预测。这里的一个难点是很多的数据都是从 *** 上获取的非结构化数据,需要利用机器学习、自然语言处理技术把这些数据变成结构化的数据。

不一致性验证

不一致性验证可以用来判断一个借款人的欺诈风险,这个跟交叉验证类似。比如借款人张三和借款人李四填写的是同一个公司 *** ,但张三填写的公司和李四填写的公司完全不一样,这就成了一个风险点,需要审核人员格外的注意。

再比如,借款人说跟张三是朋友关系,跟李四是父子关系。当我们试图把借款人的信息添加到知识图谱里的时候,“一致性验证”引擎会触发。引擎首先会去读取张三和李四的关系,从而去验证这个“三角关系”是否正确。很显然,朋友的朋友不是父子关系,所以存在着明显的不一致性。

不一致性验证涉及到知识的推理。通俗地讲,知识的推理可以理解成“链接预测”,也就是从已有的关系图谱里推导出新的关系或链接。 比如在上面的例子,假设张三和李四是朋友关系,而且张三和借款人也是朋友关系,那我们可以推理出借款人和李四也是朋友关系。

组团欺诈

相比虚假身份的识别,组团欺诈的挖掘难度更大。这种组织在非常复杂的关系 *** 里隐藏着,不容易被发现。当我们只有把其中隐含的关系 *** 梳理清楚,才有可能去分析并发现其中潜在的风险。知识图谱,作为天然的关系 *** 的分析工具,可以帮助我们更容易地去识别这种潜在的风险。举一个简单的例子,有些组团欺诈的成员会用虚假的身份去申请贷款,但部分信息是共享的。下面的图大概说明了这种情形。从图中可以看出张三、李四和王五之间没有直接的关系,但通过关系 *** 我们很容易看出这三者之间都共享着某一部分信息,这就让我们马上联想到欺诈风险。虽然组团欺诈的形式众多,但有一点值得肯定的是知识图谱一定会比其他任何的工具提供更佳便捷的分析手段。

异常分析(Anomaly Detection)

异常分析是数据挖掘研究领域里比较重要的课题。我们可以把它简单理解成从给定的数据中找出“异常”点。在我们的应用中,这些”异常“点可能会关联到欺诈。既然知识图谱可以看做是一个图 (Graph),知识图谱的异常分析也大都是基于图的结构。由于知识图谱里的实体类型、关系类型不同,异常分析也需要把这些额外的信息考虑进去。大多数基于图的异常分析的计算量比较大,可以选择做离线计算。在我们的应用框架中,可以把异常分析分为两大类: 静态分析和动态分析,后面会逐一讲到。

- 静态分析

所谓的静态分析指的是,给定一个图形结构和某个时间点,从中去发现一些异常点(比如有异常的子图)。下图中我们可以很清楚地看到其中五个点的相互紧密度非常强,可能是一个欺诈组织。所以针对这些异常的结构,我们可以做出进一步的分析。

- 动态分析

所谓的动态分析指的是分析其结构随时间变化的趋势。我们的假设是,在短时间内知识图谱结构的变化不会太大,如果它的变化很大,就说明可能存在异常,需要进一步的关注。分析结构随时间的变化会涉及到时序分析技术和图相似性计算技术。有兴趣的读者可以去参考这方面的资料【2】。

失联客户管理

除了贷前的风险控制,知识图谱也可以在贷后发挥其强大的作用。比如在贷后失联客户管理的问题上,知识图谱可以帮助我们挖掘出更多潜在的新的联系人,从而提高催收的成功率。

现实中,不少借款人在借款成功后出现不还款现象,而且玩“捉迷藏”,联系不上本人。即便试图去联系借款人曾经提供过的其他联系人,但还是没有办法联系到本人。这就进入了所谓的“失联”状态,使得催收人员也无从下手。那接下来的问题是,在失联的情况下,我们有没有办法去挖掘跟借款人有关系的新的联系人? 而且这部分人群并没有以关联联系人的身份出现在我们的知识图谱里。如果我们能够挖掘出更多潜在的新的联系人,就会大大地提高催收成功率。举个例子,在下面的关系图中,借款人跟李四有直接的关系,但我们却联系不上李四。那有没有可能通过2度关系的分析,预测并判断哪些李四的联系人可能会认识借款人。这就涉及到图谱结构的分析。

智能搜索及可视化展示

基于知识图谱,我们也可以提供智能搜索和数据可视化的服务。智能搜索的功能类似于知识图谱在Google, Baidu上的应用。也就是说,对于每一个搜索的关键词,我们可以通过知识图谱来返回更丰富,更全面的信息。比如搜索一个人的身份证号,我们的智能搜索引擎可以返回与这个人相关的所有历史借款记录、联系人信息、行为特征和每一个实体的标签(比如黑名单,同业等)。另外,可视化的好处不言而喻,通过可视化把复杂的信息以非常直观的方式呈现出来, 使得我们对隐藏信息的来龙去脉一目了然。

精准营销

“A knowledge graph allows you to take core information about your customer—their name, where they reside, how to contact them—and relate it to who else they know, how they interact on the web, and more”-- Michele Goetz, a Principal Analyst at Forrester Research

一个聪明的企业可以比它的竞争对手以更为有效的方式去挖掘其潜在的客户。在互联网时代,营销手段多种多样,但不管有多少种方式,都离不开一个核心 - 分析用户和理解用户。知识图谱可以结合多种数据源去分析实体之间的关系,从而对用户的行为有更好的理解。比如一个公司的市场经理用知识图谱来分析用户之间的关系,去发现一个组织的共同喜好,从而可以有针对性的对某一类人群制定营销策略。只有我们能更好的、更深入的(Deep understanding)理解用户的需求,我们才能更好地去做营销。

5. 挑战

知识图谱在工业界还没有形成大规模的应用。即便有部分企业试图往这个方向发展,但很多仍处于调研阶段。主要的原因是很多企业对知识图谱并不了解,或者理解不深。但有一点可以肯定的是,知识图谱在未来几年内必将成为工业界的热门工具,这也是从目前的趋势中很容易预测到的。当然,知识图谱毕竟是一个比较新的工具,所以在实际应用中一定会涉及到或多或少的挑战。

数据的噪声

首先,数据中存在着很多的噪声。即便是已经存在库里的数据,我们也不能保证它有100%的准确性。在这里主要从两个方面说起。之一,目前积累的数据本身有错误,所以这部分错误数据需要纠正。 最简单的纠正办法就是做离线的不一致性验证,这点在前面提过。第二, 数据的冗余。比如借款人张三填写公司名字为”普惠“,借款人李四填写的名字为”普惠金融“,借款人王五则填写成”普惠金融信息服务有限公司“。虽然这三个人都隶属于一家公司,但由于他们填写的名字不同,计算机则会认为他们三个是来自不同的公司。那接下来的问题是,怎么从海量的数据中找出这些存在歧义的名字并将它们合并成一个名字? 这就涉及到自然语言处理中的”消歧分析”技术。

非结构化数据处理能力

在大数据时代,很多数据都是未经处理过的非结构化数据,比如文本、图片、音频、视频等。特别在互联网金融行业里,我们往往会面对大量的文本数据。怎么从这些非结构化数据里提取出有价值的信息是一件非常有挑战性的任务,这对掌握的机器学习,数据挖掘,自然语言处理能力提出了更高的门槛。

知识推理

推理能力是人类智能的重要特征,使得我们可以从已有的知识中发现隐含的知识, 一般的推理往往需要一些规则的支持【3】。例如“朋友”的“朋友”,可以推理出“朋友”关系,“父亲”的“父亲”可以推理出“祖父”的关系。再比如张三的朋友很多也是李四的朋友,那我们可以推测张三和李四也很有可能是朋友关系。当然,这里会涉及到概率的问题。当信息量特别多的时候,怎么把这些信息(side information)有效地与推理算法结合在一起才是最关键的。常用的推理算法包括基于逻辑(Logic) 的推理和基于分布式表示 *** (Distributed Representation)的推理。随着深度学习在人工智能领域的地位变得越来越重要,基于分布式表示 *** 的推理也成为目前研究的热点。如果有兴趣可以参考一下这方面目前的工作进展【4,5,6,7】。

大数据、小样本、构建有效的生态闭环是关键

虽然现在能获取的数据量非常庞大,我们仍然面临着小样本问题,也就是样本数量少。假设我们需要搭建一个基于机器学习的反欺诈评分系统,我们首先需要一些欺诈样本。但实际上,我们能拿到的欺诈样本数量不多,即便有几百万个贷款申请,最后被我们标记为欺诈的样本很可能也就几万个而已。这对机器学习的建模提出了更高的挑战。每一个欺诈样本我们都是以很高昂的“代价”得到的。随着时间的推移,我们必然会收集到更多的样本,但样本的增长空间还是有局限的。这有区别于传统的机器学习系统,比如图像识别,不难拿到好几十万甚至几百万的样本。

在这种小样本条件下,构建有效的生态闭环尤其的重要。所谓的生态闭环,指的是构建有效的自反馈系统使其能够实时地反馈给我们的模型,并使得模型不断地自优化从而提升准确率。为了搭建这种自学习系统,我们不仅要完善已有的数据流系统,而且要深入到各个业务线,并对相应的流程进行优化。这也是整个反欺诈环节必要的过程,我们要知道整个过程都充满着博弈。所以我们需要不断地通过反馈信号来调整我们的策略。

6. 结语

知识图谱在学术界和工业界受到越来越多的关注。除了本文中所提到的应用,知识图谱还可以应用在权限管理,人力资源管理等不同的领域。在后续的文章中会详细地讲到这方面的应用。

参考文献

【1】De Abreu, D., Flores, A., Palma, G., Pestana, V., Pinero, J., Queipo, J., ... Vidal, M. E. (2013). Choosing Between Graph Databases and RDF Engines for Consuming and Mining Linked Data. In COLD.

【2】User Behavior Tutorial

【3】刘知远 知识图谱——机器大脑中的知识库 第二章 知识图谱——机器大脑中的知识库

【4】Nickel, M., Murphy, K., Tresp, V., Gabrilovich, E. A Review of Relational Machine Learning for Knowledge Graphs.

【5】Socher, R., Chen, D., Manning, C. D., Ng, A. (2013). Reasoning with neural tensor networks for knowledge base completion. In Advances in Neural Information Processing Systems (pp. 926-934).

【6】Bordes, A., Usunier, N., Garcia-Duran, A., Weston, J., Yakhnenko, O. (2013). Translating embeddings for modeling multi-relational data. In Advances in Neural Information Processing Systems (pp. 2787-2795).

【7】Jenatton, R., Roux, N. L., Bordes, A., Obozinski, G. R. (2012). A latent factor model for highly multi-relational data. In Advances in Neural Information Processing Systems(pp. 3167-3175).

知识图谱在公安领域的应用有哪些呢?

从上述表格中我们发现,“换汤不换药”,我国公安知识图谱目前正以平台或者解决方案的形式出现,而单一的工具类型已成为平台建设的某一关键环节。随着技术的创新和发展,公安知识图谱平台将更好的赋能智慧公安乃至社会公共安全建设。

公安知识图谱技术的出现,很好的打破了公安行业的数据孤岛难题,并在将数据进行连接之后,挖掘出数据背后更多有价值的信息,科技挖掘公安数据背后的故事。当下,基于知识图谱技术为基础的各类公安平台已经出现,并逐步进入了落地应用阶段。

多维数据融合、数据中台已经成为各行业的发展趋势之一,公安行业也不例外。而不管是多维数据融合还是数据中台,对数据对极高的要,公安知识图谱作为多维数据融合和数据中台最核心的技术,通过“图”的方式,可整理多源异构数据之间的关系,并且加快中台数据的响应速度。

目前公安部门将 “知识图谱技术” 纳入公安机关发展规划,已开始尝试引入 “知识图谱” 解决业务系统预测预警的问题。

  • 评论列表:
  •  冬马痛言
     发布于 2023-02-07 08:38:40  回复该评论
  • kPro12%2C1+OSX+OSX+10.10.5+build(14F1912)version=12020810nettype=WIFIfontScale=100pass_ticket=Fb8kfLtKI
  •  南殷不矜
     发布于 2023-02-07 08:56:59  回复该评论
  • ,能在得到APP找到,各自在他们第一季专栏里。*彩蛋 再分享一个简单的玩法,一个畅销书作家的小绝招,看实体书的时候,想到什么就直接写在书上(批注),不明显相关的也可。久而久之,
  •  痛言里予
     发布于 2023-02-07 08:40:19  回复该评论
  • owledge base completion. In Advances in Neural Information Processing Systems (pp. 926-934).【6】Bordes, A., Usunier, N.
  •  莣萳绾痞
     发布于 2023-02-07 16:40:18  回复该评论
  • ogle在2012年提出的,当时主要是为了将传统的keyword-base搜索模型向基于语义的搜索升级。知识图谱可以用来更好的查询复杂的关联信息,从语义层面理解用户意图,改进搜索质量。 个
  •  鸠骨二囍
     发布于 2023-02-07 20:20:02  回复该评论
  • 图谱?知识图谱本质上是语义网络,是一种基于图的数据结构,由节点(Point)和边(Edge)组成。在知识图谱里,每个节点表示现实世界中存在的“实体”,每条边为实体与实体

发表评论:

Powered By

Copyright Your WebSite.Some Rights Reserved.