|
|
|||||||||||||||||
隨著信息數(shù)量的驟然增加,消費者要想找出有用信息需要消耗大量精力.因此對這些散落在Html網(wǎng)頁中無結構的信息進行提取、分析,不僅能夠幫助消費者從海量的文本中快速獲得有效的信息,節(jié)省人力成本,也可以幫助企業(yè)改進產品、提高質量,從而為產品推薦提供一種新的營銷模式.為有效的抽取互聯(lián)網(wǎng)上的信息,網(wǎng)絡文本信息非結構化數(shù)據(jù)抽取技術、網(wǎng)絡文本信息采集技術和細粒度數(shù)據(jù)挖掘技術應用而生.信息抽取技術是通過對網(wǎng)頁進行處理,從半結構化或者非結構化的Web頁面中抽取出用戶感興趣的信息和內容,并將其轉化成清晰的結構形式.
為了適應信息應用的需求,越來越多的使用信息抽取技術,目標是從海量、冗余、異構、不規(guī)范、含有大量噪聲的網(wǎng)頁中大規(guī)模地抽取開放類別的實體、關系、事件等多層次語義單元信息,并形成結構化數(shù)據(jù)格式輸出。其特點在于:① 文本領域開放:處理的文本領域不再限定于規(guī)范的新聞文本或者某一領域文本,而是不限定領域的網(wǎng)絡文本;② 語義單元類型開放:所抽取的語義單元不限定類型,而是自動地從網(wǎng)絡中挖掘語義單元的類型,例如實體類型、關系類型和事件類型等;③ 以“抽取”替代“識別”:相對于傳統(tǒng)信息抽取,開放式文本信息抽取不再拘泥于從文本中識別目標信息的每次出現(xiàn),而是充分利用網(wǎng)絡數(shù)據(jù)海量、冗余的特性,以抽取的方式構建面向實際應用的多層次語義單元集合。
北京理工大學大數(shù)據(jù)搜索與挖掘實驗室張華平主任研發(fā)的NLPIR語義智能平臺KGB知識圖譜引擎是基于漢語詞法分析,采用KGB語法從結構化數(shù)據(jù)與非結構化文檔中抽取各類知識,大數(shù)據(jù)語義智能分析與知識推理,深度挖掘知識關聯(lián),實時高效構建知識圖譜。KGB知識圖譜引擎核心技術與特色:
1、 KGB知識抽取
KGB(Knowledge Graph Builder)知識圖譜引擎是我們自主研發(fā)的知識圖譜構建與推理引擎,基于漢語詞法分析的基礎上,采用KGB語法實現(xiàn)了實時高效的知識生成,可以從非結構化文本中抽取各類知識,并實現(xiàn)了從表格中抽取的內容等。
KGB知識圖譜引擎可以定義不同的動作,增加、刪除、修改、抽取等等。每一類動作還能自定義各類后處理程序。
2 、語義智能分析
NLPIR大數(shù)據(jù)語義智能分析針對大數(shù)據(jù)內容采編挖搜的綜合需求,融合了網(wǎng)絡精準采集、自然語言理解、文本挖掘和語義搜索的**研究成果,先后歷時十八年,服務了全球四十萬家機構用戶,是大數(shù)據(jù)時代語義智能分析的一大利器。
NLPIR大數(shù)據(jù)語義智能分析十三大功能:精準采集、文檔抽取、新詞發(fā)現(xiàn)、批量分詞、語言統(tǒng)計、文本聚類、文本分類、摘要實體、智能過濾、情感分析、文檔去重、全文檢索與編碼轉換。
3 、語義精準搜索
JZSearch大數(shù)據(jù)語義精準搜索引擎:是靈玖軟件聯(lián)合中科院與北理工的信息檢索專家,針對大數(shù)據(jù)垂直搜索需求的全文智能檢索引擎,融合了自然語言理解、網(wǎng)絡搜索和文本挖掘的技術,通過人機互動、深度機器學習后具有一定的語義推理能力,是結合了人工智能技術的新一代搜索引擎,具有專業(yè)精準、高擴展性和高通用性的特點。
隨著信息技術在我國社會生活各個領域應用的深入,中文信息處理正在成為人們工作和生活中不可或缺的手段,中文信息處理將具有更加廣闊的市場。這將促使中文信息處理方面的高效中文搜索引擎、實時機器翻譯、大規(guī)模中文文本處理、跨平臺中西文自動識別轉換、泛中文語義理解、中文電子商務等技術實現(xiàn)重大突破。中文信息處理已成為我國信息技術研究、發(fā)展、應用和產業(yè)的基礎,在互聯(lián)網(wǎng)日益成長的今天,中文信息處理技術將會更加成熟并創(chuàng)新。
|