人類學家羅賓·鄧巴認為:一個人維持緊密人際關系的人數最多為150人。
網絡社交平臺出現后,很多人認為虛擬世界將突破鄧巴這一理論,但實際情況卻是:如果要和更多人互動,那么勢必需要削弱在其它人身上花的精力。
但是,人際關系將隨著時間而產生親疏遠近等不同的變化,如果能夠識別出人與人的關系定義,則能為諸多行業領域帶來更多方向的探索,如:詐騙團伙識別,通過詐騙分子的通話關系網去識別可能存在的團伙關系,將壞人一網打盡。
本期課堂,聯通大數據技術專家閆龍將從“本體論”說起,為大家介紹聯通大數據關系圖譜的構建與應用。
一、本體論
萬維網之父Tim Berners-Lee教授在1998年將語義網絡(Semantic web)帶入人類的視線。目的是賦予網絡理解詞語、概念以及它們之間邏輯關系的能力,使人機交互變得更有效率。本體論(Ontology)做為語義網的核心,是研究實體存在及其本質的通用理論。1993年Thomas Gruber教授提出了本體論最廣為認同的定義:共享概念模型的明確的形式化規范說明。這里面實際說了四個概念,即:“概念模型”(Conceptualization)指通過客觀世界中一些現象的相關概念而得到的模型;“明確”(Explicit)指所使用的概念及其約束都有明確的定義;“形式化”(Formal)指Ontology是計算機可讀的;“共享(Share)”指本體論中體現的是共同認可的知識,反映的是相關領域中公認的概念集。
本體論最初是形而上學的一個分支。對于形而上學的理解這里給出一個例子(如:圖1)
(圖1)
圖中中文的“貓”與“貓咪”,英文的“cat”,“貓的圖片”都可以用來描述“貓”這個實物。那么在哲學層面,“貓”這樣一個實物就是亞里士多德口中的“實體”,巴門尼德口中的“存在”,以及本體論中所說的“本體”。而上圖這些描述均指的是“貓”這個“本體”的符號。
從這里,我們能看出“本體”這個概念在哲學層面上是形而上的,是只可意會不可言傳的。因此,對于一個實體,所有的描述都是這個“本體”的外在符號,我們感受到的,聽到的,看到的,都成為符號到本體的某種映射。
解釋完本體哲學層面的意思,我們是否對語義層面的本體有更好的理解呢?其實,其主要目的就是要建立這樣一種映射,例如:{“貓”,“貓咪”,“喵咪”,“cat”}這個符號集都映射到“貓”這個“本體”上來。當我們建立了本體的集合,本體間的邏輯關系就是存在的(如:IF A⊆B and B⊆C,THEN A⊆C)。本體的邏輯層提供了公理和推理規則,進而實現相應的邏輯推理,有可能是“屬性-本體”的關系,有可能是“子類-本體”的關系,也有可能是“本體-本體”的對立或者是近似關系。本體論最終的目的是去實現知識表達,構建知識庫,實現知識推理,即借由本體論中的基本元素:實體與實體間的關聯,作為描述真實世界的知識模型。
二、知識圖譜
這種知識模型究竟有什么用呢?Google在2012年提出Knowledge Graph,就是為了將傳統的keyword-based搜索向基于語義的搜索升級。知識圖譜可以用來更好的查詢復雜的關聯信息,從語義層面理解用戶意圖,改進搜索質量。這里借用本體的概念給出我個人對知識圖譜的理解:知識圖譜就是用來描述真實世界中存在的各種實體,以及他們之間的關系,而實體本身會有多樣實例,屬性。就像之前“貓的例子”(如下圖2),當我們查詢“喵喵喵喵喵”時,返回的不會是抖音上很紅的《學貓叫》,而是“貓”這個實體。同時,在其他知識的補充下我們可以知道“貓”有一個實例是“茄子”,而“茄子”的主人是我,我和小胡都就職于聯通大數據,并且通話關系很密切。當我們知識庫中的實體、關系、屬性、實例等的量級非常大時就能繪制成一個巨型的網絡關系拓撲圖。有了這樣的知識庫,搜索引擎就能洞察用戶查詢背后的語義信息,返回更為精準的信息。換言之,知識圖譜引入了更多的含義,對事物進行搜索,像人類一樣去思考、聯想、關聯。這也印證了Google knowledge graph的初衷:“The world is not made of strings , but is made of things.”
(圖2)