|
|
數(shù)據(jù)采集標(biāo)注的**要步驟就是進(jìn)行數(shù)據(jù)采集,數(shù)據(jù)采集又稱為數(shù)據(jù)獲取,指的是利用某種裝置,從系統(tǒng)外部采集數(shù)據(jù)并輸入到系統(tǒng)內(nèi)部接口的一個(gè)過程。隨著科技的飛速發(fā)展,數(shù)據(jù)采集已經(jīng)廣泛的應(yīng)用到各個(gè)領(lǐng)域,人工智能在的普及使得數(shù)據(jù)采集標(biāo)注在我們的工作生活更為普遍。數(shù)據(jù)采集標(biāo)注的數(shù)據(jù)采集可分為“硬感知”和“軟感知”,面向不同場(chǎng)景,即數(shù)據(jù)采集技術(shù)可以分為這兩個(gè)方面的技術(shù)。
“硬感知”主要利用設(shè)備或裝置進(jìn)行數(shù)據(jù)的收集,收集對(duì)象為物理世界中的物理實(shí)體,或者是以物理實(shí)體為載體的信息、事件、流程等。而“軟感知”使用軟件或者各種技術(shù)進(jìn)行數(shù)據(jù)收集,收集的對(duì)象存在于數(shù)字世界,通常不依賴物理設(shè)備進(jìn)行收集。基于物理世界的“硬感知”依靠的就是數(shù)據(jù)采集,是將物理對(duì)象鏡像到數(shù)字世界中的主要通道,是構(gòu)建數(shù)據(jù)感知的關(guān)鍵,是實(shí)現(xiàn)人工智能的基礎(chǔ)?;诋?dāng)前的技術(shù)水平和應(yīng)用場(chǎng)景,我們將“硬感知”分為9類,每一類感知方式都有自身的特點(diǎn)和應(yīng)用場(chǎng)景。
一、磁卡
磁卡是一種卡片狀的磁性記錄介質(zhì),利用磁性載體記錄字符與數(shù)字信息,用來保存身份信息。視使用基材的不同,可分為PET卡、PVC卡和紙卡三種;視磁層構(gòu)造的不同,又可分為磁條卡和全涂磁卡兩種。
磁卡的優(yōu)點(diǎn)是成本低,這是它容易推廣的原因,但缺點(diǎn)也比較明顯,例如卡的保密性和安全性較差,使用磁卡的應(yīng)用系統(tǒng)需要有可靠的計(jì)算機(jī)系統(tǒng)和中央數(shù)據(jù)庫(kù)的支持。
二、無線射頻識(shí)別
無線射頻識(shí)別是一種非接觸式的自動(dòng)識(shí)別技術(shù),通過無線射頻方式進(jìn)行非接觸雙向數(shù)據(jù)通信,利用無線射頻方式對(duì)記錄媒體(電子標(biāo)簽或射頻卡)進(jìn)行讀寫,從而達(dá)到識(shí)別目標(biāo)和數(shù)據(jù)交換的目的。
基于特別業(yè)務(wù)場(chǎng)景的需求,在無線射頻識(shí)別的基礎(chǔ)上發(fā)展出了近場(chǎng)通信。近場(chǎng)通信本質(zhì)上與無線射頻識(shí)別沒有太大區(qū)別,在應(yīng)用上的區(qū)別如下。
近場(chǎng)通信的距離小于10cm,所以具有很高的安全性,而無線射頻識(shí)別距離從幾米到幾十米都有。
三、條形碼與二維碼
條形碼或者條碼是將寬度不等的多個(gè)黑條和空白,按一定的編碼規(guī)則排列,用以表達(dá)一組信息的圖形標(biāo)識(shí)符,通常一維條形碼所能表示的字符集不過10個(gè)數(shù)字、26個(gè)英文字母及一些特殊字符,條碼字符集所能表示的字符個(gè)數(shù)**多為128個(gè)ASCII字符,信息量非常有限。
二維碼是用某種特定的幾何圖形按一定規(guī)律在平面上分布的黑白相間的圖形,用來記錄數(shù)據(jù)符號(hào)信息。二維碼擁有龐大的信息攜帶量,能夠把使用一維條碼時(shí)存儲(chǔ)于后臺(tái)數(shù)據(jù)庫(kù)中的信息包含在條碼中,可以直接閱讀條碼得到相應(yīng)的信息,并且二維碼還有錯(cuò)誤修正及防偽功能,增加了數(shù)據(jù)的安全性。
四、光學(xué)字符識(shí)別和智能字符識(shí)別
光學(xué)字符識(shí)別是指電子設(shè)備(例如掃描儀或者數(shù)碼相機(jī))檢查紙上打印的字符,通過邊檢測(cè)暗、亮的模式確定其形狀,將其形狀翻譯成計(jì)算機(jī)文字的過程。如何除錯(cuò)或利用輔助信息提高識(shí)別正確率,是光學(xué)字符識(shí)別的重要課題。
智能字符識(shí)別是一種更**的光學(xué)字符識(shí)別。它植入了計(jì)算機(jī)深度學(xué)習(xí)的人工智能技術(shù),采用語(yǔ)義推理和語(yǔ)義分析,根據(jù)字符上下文語(yǔ)句信息并結(jié)合語(yǔ)義知識(shí)庫(kù),對(duì)未識(shí)別部分的字符進(jìn)行信息補(bǔ)全,解決了光學(xué)字符識(shí)別的技術(shù)缺陷。
五、視頻數(shù)據(jù)采集
視頻是動(dòng)態(tài)的數(shù)據(jù),內(nèi)容隨時(shí)間而變化,聲音與運(yùn)動(dòng)圖像同步。通常視頻信息體積較大,集成了影像、聲音、文本等多種信息。
視頻的獲取方式包括網(wǎng)絡(luò)下載、從VCD或DVD中捕獲、從錄像帶中采集、利用攝像機(jī)拍攝等,以及購(gòu)買視頻素材、屏幕錄制等。
六、圖像數(shù)據(jù)采集
圖像數(shù)據(jù)采集是指利用計(jì)算機(jī)對(duì)圖像進(jìn)行采集、處理、分析和理解,以識(shí)別不同模式的目標(biāo)和對(duì)象的技術(shù),是深度學(xué)習(xí)算法的一種實(shí)踐應(yīng)用。
七、工業(yè)設(shè)備數(shù)據(jù)采集
工業(yè)設(shè)備數(shù)據(jù)是對(duì)工業(yè)機(jī)器設(shè)備產(chǎn)生數(shù)據(jù)的統(tǒng)稱。在機(jī)器中有很多特定功能的元器件(閥門、開關(guān)、壓力計(jì)、攝像頭等),這些元器件接受工業(yè)設(shè)備和系統(tǒng)的命令開、關(guān)或上報(bào)數(shù)據(jù)。工業(yè)設(shè)備和系統(tǒng)能夠采集、存儲(chǔ)、加工、傳輸數(shù)據(jù)。工業(yè)設(shè)備目前應(yīng)用在很多行業(yè),有聯(lián)網(wǎng)設(shè)備,也有未聯(lián)網(wǎng)設(shè)備。
八、傳感器數(shù)據(jù)采集
傳感器是一種檢測(cè)裝置,能感受到被檢測(cè)的信息,并能將檢測(cè)到的信息按一定規(guī)律變換成信號(hào)或其他所需形式的信息輸出,以滿足信息的采集、傳輸、處理、存儲(chǔ)、顯示、記錄等要求。信號(hào)類型包括IEPE信號(hào)、電流信號(hào)、電壓信號(hào)、脈沖信號(hào)、I/O信號(hào)、電阻變化信號(hào)等。
傳感器數(shù)據(jù)的主要特點(diǎn)是多源、實(shí)時(shí)、時(shí)序化、海量、高噪聲、異構(gòu)、價(jià)值密度低等,數(shù)據(jù)通信和處理難度都較大。
九、音頻數(shù)據(jù)采集
語(yǔ)音識(shí)別技術(shù)也被稱為自動(dòng)語(yǔ)音識(shí)別,可將人類的語(yǔ)音中的詞匯內(nèi)容轉(zhuǎn)換為計(jì)算機(jī)可讀的輸入,例如二進(jìn)制編碼、字符序列或者文本文件。
目前音頻數(shù)據(jù)采集技術(shù)在業(yè)界也有較為成熟的解決方案供應(yīng)商,可以很便捷地通過解決方案供應(yīng)商的技術(shù),完成技術(shù)的部署和數(shù)據(jù)的采集。
|