您的位置: 旅游網 > 明星 >> 港臺明星

    以下為觀點提煉

    發布時間:2019-03-18 10:58:34

    2017年5月21日,由中國人工智能學會、中文信息學會主辦、億歐承辦的2017·全球人工智能技術大會在北京·國家會議中心拉開帷幕。作為中國人工智能技術和產業領域規模最大、影響力最強的專業會議之一,本次大會匯聚了全球人工智能學術界和產業界著名學者、頂級專家和業界精英,在48小時的議程中,立體剖析了技術大牛與產業明星眼中的人工智能,碩果累累。

    華南理工大學電子與信息學院信息工程系主任、教授金連文以“文字識別:技術現狀、挑戰及機遇”為題做了演講。分析文字識別的技術現狀、目前存在的問題及挑戰、學術研究和商業應用機遇,以及未來技術發展趨勢的報告。

    以下為觀點提煉:

    1、文字識別包括文檔分析和文字識別兩個部分

    2、手寫文字識別,這個技術現在在、平板電腦的為輸入法相當普及,基本上是標準的配置功能之一

    3、手寫識別另外一個有用的方向就是在簽名識別,或者筆跡鑒定領域

    首先簡要談一下人工智能。

    去年3月份,美國紐約時報采訪了硅谷一些IT的大神們,請他們談一下未來IT領域當中什么方向是潛在的爆發點,當時很多專家都不約而同談到一個觀點,就是人工智能很可能是未來IT領域的大事件。其實不僅僅是在工業界,在計算機學術界乃至整個科學界,人工智能過去幾年都是非常熱門的研究話題,舉例來說,在過去兩年,與深度學習和機器學習相關的文章已經有5次上了Nature或Science的封面文章。難怪科普期刊《Scientific American》去年撰文說人工智能的春天來到了。在國內,我們發現人工智能的春天似乎也正在悄悄來臨,從中國工程院、科技部以及政府,都在積極推動人工智能學術研究及其在產業中的應用發展。

    視覺感知是人工智能當中特別重要的問題之一,為什么這么說呢,我們人類對世界的感知大約80%是通過眼睛獲取的。計算機視覺使得人工智能看懂世界,典型的技術包括圖像識別,人臉識別,視頻監控等等,這里還想強調一點,文字識別也是非常重要的計算機視覺技術。因為文字是我們感知這個世界最重要的手段,無論是從小學習知識到長大進行交流,衣食住行都離不開文字。

    在生活當中,文字也無處不在,離開了文字有時候我們很難理解整個社會和世界。文字的重要性還表現在很多方面,它是人類文明的標志,是信息交流的途徑,學習知識的重要渠道,是記錄歷史、思想、文化的載體,文字和文明、文化還有很大的關系,現在很多人用慣了拼音輸入法,很可能造成提筆忘字等現象,這是挺遺憾的一件事情。

    有一句話這樣說,一圖勝千言,但是有時候如果圖片當中沒有文字,我們很難理解這個圖片的含義。這里有兩幅圖,左邊圖是我在法國一家酒店里拍的照片,右邊是一個漫畫,大家能夠猜到它們表達什么意思嗎?特別是左邊這個圖,當時坑了我很久。右邊圖中配文是“心中的天氣是晴是雨全在自己”。沒有圖片我們可能表達起來不是那么生動,但是沒有文字,有時可能無法理解其含義。

    所以,我這里想表達一個觀點就是,文字的重要性是非常大的,某種意義上來講,如果給你一張圖,若圖上有文字,80%以上的情況下,圖上的文字信息是最重要最有信息量的。所以文字識別這個問題是一個重要的人工智能問題,從這個角度看,文字識別的問題如果沒有解決好,人工智能就不能稱得上真正的、完整的人工智能。

    下面我講講文字識別的一些技術的現狀。文字識別包括文檔分析和文字識別兩個部分。從文字獲取的途徑可以把文字識別分成OCR和文字識別兩大類。OCR是處理及識別通過光學設備如數碼相機、掃描儀獲取的文檔圖像,文字識別是處理通過數字筆、觸摸屏捕捉的文字數據。兩類問題都有很多不同的研究子問題及應用場景,今天由于時間關系,我重點給大家介紹一些領域的現狀、和它面臨的挑戰和機遇。

    文字識別的研究發展歷史已經有很多年的歷史,最早可以追溯到上世紀20年代,上世紀80年代90年代是文字識別的重要發展時期,那時候在圖書報刊數字化、郵政編碼及自動分揀、表單名片識別等都產生了非常廣泛的應用,2000年以后,隨著智能和移動互聯的興起,基于拍照和OCR以及手寫識別及Ink理解受到了更多的關注。

    我先講一下手寫文字識別,這個技術現在在、平板電腦的為輸入法相當普及,基本上是標準的配置功能之一,另外一方面就是OCR的手寫文字識別,如快遞單識別理解等等這樣的問題,也是有很多的應用場景。傳統的手寫文字識別的一般框架包括預處理、特征提取、分類器設計等三個主要模塊,每個模塊技術都需要仔細設計,比如圖像歸一化做的不好就會明顯影響識別性能。

    自從有了深度學習技術之后,文字識別這個事情變得簡單多了,我們現在利用相關的深度學習技術如CNN、DNN、RNN,可以把這個問題解決的很好。當然我后面也會講,只是簡單直接應用CNN等技術或許可以達到還不錯的結果,但是你要達到State-of-t爭的是理he-art的結果,還是需要一定的領域知識來輔助你做解決這個問題。

    我這里還想說一下,其實在文字識別一直是深度學習一個主要的應用方向,深度學習如CNN/LSTM等模型在文字識別的應用有很長的歷史,上世紀90年代,深度學習的先驅者如Y. Lecun,很早就用神經絡來解決文字識別,1998年,Lecun和Bengio合作設計了LeNet5解決了手寫數字識別問題,這是他們在貝爾實驗室做的Demo。后來包括微軟劍橋研究院的學者在2003年就用CNN將MNIST的錯誤率做到了很低的程度(0.4%)。

    剛才說了,簡單利用深度學習解決手寫漢字這些比較難的問題,效果并不是很理想,所以過去兩年國內有很多研究團隊,針對手寫寫文字的識別做了大量的工作,包括我們團隊做的一些針對漢字識別的DropSample訓練新方法,還有一些領域知識與CNN的結合,如英國華威大學的Graham教授、我們團隊在CNN中引入了路徑積分特征圖這樣的領域知識層,可以進一步提升文字識別的準確率。

    大家知道,在2012年CVPR的文章,直接用CNN絡來解決手寫漢字識別還干不過傳統的Bayes方法,但是現在我們可以把CNN/RNN等用的更好,遠超過傳統的方法。這是中科院自動化所做的最新的工作,他們也發現加上一些領域知識,結合CNN的方法,可以更好把文字識別這個問題解決的更好。這個是中科院自動化所基于循環神經絡,針對文字識別提出的一種Sequential Dropout 方法,使得模型的魯棒性做的更好,這個結果是目前文字識別中識別率最高的。

    有了深度學習的技術和我們的領域知識相結合以后,單字符的文字識別技術現在基本上解決的差不多了,這是聯機漢字識別在公開評測集的技術指標現狀,深度學習的結果基本上都超過了人眼識別的水平。

    手寫識別另外一個有用的方向就是在簽名識別,或者筆跡鑒定領域,今天國內外特別是國外大超市購物刷卡的時候,收銀系統已經在開始使用數字化的簽名,但目前這個簽名目前還沒有辦法做自動的識別和鑒別,實際上本來簽名是一種有效的身份認證技術。傳統的方法需要做很多特征的分析及提取,相似度的判斷等等。

    過去幾年我們發現,利用深度學習也可以有效的解決筆跡識別的問題。筆跡識別比較大的挑戰就是訓練樣本很少、很難獲取。我們針對這個問題提了一些數據增廣方法,并結合領域知識,目前基本上可以把這個問題解決的很好。這是中科院自動化所做的另外一種方法,是利用RNN做的,結果做的特別好。在書寫者識別的一個數據集上,識別率已經做的很高了,但是值得指出的是,這個數據還是很小,只有不到200人的規模,實際應用能否經受得起考驗,這可能還有很長的路要走。

    簽名的數據很難獲取,因為涉及到個人的隱私,這兩年也有一些學者開始用深度學習的方法解決,而且解決的還不錯,這是一種基于深度學習的度量學習方法。另外我們團隊做了一種基于RNN深度絡的方法,看一下在SVC數據庫,基于深度學習的方法也可以做到很高的準確度。這里還想給大家一個信息就是,一般而言深度學習需要大數據才能進行有效訓練,但在簽名識別這個小數據問題上,我們發現通過數據增廣等方法,深度學習也大有用武之地。

    文本行識別是但死時的留戀是痛苦的文字識別中另外一個傳統的問題,包括有基于分割和無分割的方法。這個是傳統的基于過切分的中文脫機無手寫文本行識別的一些典型方法,后面的兩種用了CNN分類器;這是基于HMM無切分的識別。這是法國的學者在2015年用多方向LSTM的方法來解決中文脫機手寫文本行識別,但是當時的性能還干不過傳統的方法。當然現在富士通及中科院的團隊把傳統方法結合CNN以后,現在的性能有了明顯的提升。

    在聯機文本行識別方面思路和脫機識別一樣,這兩年也有很多關于深度學習方面的文章應用,這里舉個例子,比如哈爾濱工業大學的研究團隊提出的多層LSTM識別模型,模型雖然很簡單,但是效果非常好。這是我們團隊做的工作,基于全卷積回歸神經絡中文聯機手寫文本行識別,可能是目前公開文獻報道中最好的結果,我們也把這個系統實現到云端了。和三年的技術相比,目前手寫文本行這個技術有了顯著進步。但在篇幅級的識別,比如給你一段文檔,特別是圖文混排版面復雜情況,這個問題還比較難。

    雖然已經有很多學者在關注這個問題,這個問題還沒有得到徹底的解決,其中一個一方面的原因是目前學術界還缺乏足夠多的真實數據。這是一種利用attention機制和MDLSTM來解決篇幅級的文字識別的方法,可以進行整行的檢測,然后再做識別。不過這個法文數據集的挑戰還不是特別大,就算這樣的數據集目前也沒有做的特別好,針對手寫中文的篇幅級研究報道還不多見,所以還有很多研究的機會。

    對于手寫識別研究還有另外一個重要的問題,就是要解決移動端實時應用問題,因為的輸入法必須實時處理,這方面我們做了一些相關的工作,我們利用了矩陣分解和自動裁剪絡鏈接的方法,在3755類漢字識別的問題上,可以把模型大小壓縮到2M左右,速度在CPU上可以做到9.7毫秒每個字,可以達到實用化的程度。在聯機漢字識別方面我們采用相關的技術也可以把CNN模型大小壓到很低,一般的文字識別CNN絡模型大小有幾十MB甚至上百MB,但是我們可以壓到0.6M左右而精度損失不到1%。

    基于這樣的技術,我們實現了面向移動端和絡端的識別引擎,左邊是端的SCUT gPen手寫輸入法的Demo,右邊是絡端(),識別精度還不錯,只要你寫得基本上像一個漢字,一般都可以識別出來。我們移動端的識別引擎目前已經授權給搜狗公司使用,搜狗Android端及iOS端的手寫輸入法目前采用了我們提供的識別引擎。

    雖然手寫輸入法已經廣泛普及,其實無約束手寫識別尚未完成解決,例如國家標準GB/T18790—2010聯機手寫漢字識別系統技術要求與測試規程,要求手寫輸入軟件及設備需支持識別正負45度的手寫樣本。這個問題消費者可能沒有覺得很重要,所以目前的許多產品都還沒有解決好。在整個文本行識別當中,我們測了五種主流的輸入法,(在iPad裝了相關的手寫輸入法軟件),這里是五種軟件識別的情況,有個別的輸入法根本不讓你進行整行無約束的書寫,有一些能夠識別一些字,但整體而言識別率還不高,所以這個問題離真正的解決,還有一定的距離。最下面識別得最好的是我們實驗室做的絡版的Demo。另外,有一些輸入法對生僻字以及常見的符號的識別支持也并不太好,最常用的一些符號如“√”的識別都不支持。

    第二個方面給大家介紹一下場景文字的檢測與識別,這是一個典型的OCR問題,在計算機視覺里近年來廣泛受關注的一個研究問題,包括場景圖像中文字的檢測,文字識別,端到端的解決技術等。場景文字檢測面臨的挑戰,包括有不同的語種、任意的長度、形狀、顏色,復雜背景、復雜字體、光照、噪聲干擾等等。

    傳統的文字檢測方法主要包括基于滑窗的方法和基于連通域分析的方法。其優點是速度快,無需大量的數據來進行模型訓練,但缺點是識別性能不夠高。近年來基于深度學習的物體檢測方法如Faster R-CNN/YOLO/SSD/R-FCN等為解決此問題提供了全新的解決思路。雖然文字檢測可以看成是物體檢測的特殊例子,但是簡單的把深度學習中的物體檢測的框架做檢測是達不到理想的效果的,這是四篇最新的文章給出的對比實驗結果,可以看到如果直接用Faster R-CNN、SSD甚至干不過傳統的方法,但是如果針對文本檢測的問題做一些特殊的設計,檢測效果就會得到明顯提升。

    文字和檢測識別另外一個問題就是端到端的解決方案,牛津大學VGG實驗室第一次提出了結合傳統方法和CNN做端到端的可學習的解決方案。針對場景文字當中的識別,華中科技大學研究團隊提出一個很好的框架叫CRNN,提出了一個端到端的解決框架,他們的站可以下載到相關的實現代碼。

    場景文字還有很多有趣的應用,比如可以輔助我們進行圖像的搜索和圖像的分類,這篇華中科技大學研究人員的論文,通過文本檢測識別輸出的編碼Word Vector以及圖像識別絡GoogleNet的輸出編碼Vision Vector,兩者拼在一起再進行最后做圖像的細粒度分類。舉個例子,這里是一大堆的瓶子,這里面有可口可樂、有飲料瓶,還有啤酒瓶等等,上面有文字信息可以輔助來進行圖像的細粒度分類,極大的提升它的分類準確度。

    第三個方面我講一下文字識別的市場機遇,這方面包括圖像搜索引擎、自動駕駛、金融保險、AR、智能機器人、教育醫療等等很多領域都有很多應用。比如OCR技術,在移動辦公、遠程開戶,智慧物流都有應用。像名片識別這種比較成熟的技術,我們一般聯系人信息輸入名字和號碼就完了,利用這個技術就可以把聯系人的各種信息包括單位、職務、email地址等完整保留起來。場景文字檢測還可以用來做輔助圖像搜索,包括以詞搜圖,更好的提升圖像搜索的用戶體驗;另外一個典型應用是AR眼鏡實現實時場景包括街景的文字翻譯,這里還可以產生很多創新應用,例如可以讓盲人看懂世界、盲人看大片等等。

    另外,筆計算與數字墨水也是一個有很大潛在應用的市場,今天的觸摸屏及數字筆的書寫體驗和傳統紙張書寫體驗還有很大差距,如果這方面的硬件技術做好的話,Ink識別理解及搜索都會有很大的各種不同應用場景。另外,還需說一下其實國內從事文字識別及應用的企業也有不少,同學們如果從事這個領域的研究,將來找工作完全不用擔心,這里我列舉了一些,比如國際國內專門做文字識別及應用的公司,還有很多大公司像微軟、Google、三星、BAT等也有文字識別的部門或小組。用“早稻”這個企業搜索站以關鍵詞OCR進行搜索,可以找到100多家相關的企業。

    下面舉一些成功應用的例子,比如車牌識別這個比較成熟的技術,據搜狐上面的一其心胸像天空一樣寬闊、透明篇文章報道,2014年國內車牌識別收費系統的市場容量大于37億,隨著車輛的普及以及智慧小區、智能停車場的大量普及,而且未來5年以年均17.4%的復合增長率在發展,早稻中輸入“車牌識別”,也可以找到好幾百家公司,所以我們看到OCR相關技術已經逐漸走入了市場。

    某些特定的垂直領域的OCR技術解決差不多了,但是對于更通用的場景文字OCR解決怎么樣了呢?我們測試了百度、微軟、谷歌幾個主流的OCR云端識別情況,在背景比較簡單、字體比較規范情況下,即使字有傾斜,這幾個引擎識別的還不錯,雖然偶爾有一點小錯誤,其中這個是做的最好的,我就不說是哪家公司了。但如果字體不是很常見,例如這是一個茶館的標牌,我們看到不少文字都識別錯了。圖像分辨率不太高情況下,幾個引擎識別率都不高。所以我們看到場景文字OCR這個問題目前還遠遠沒有得到解決。

    文字識別還有很多困難和挑戰,比如金融票據的識別、簽名識別(主要是我們缺乏足夠的數據)、混合手寫印刷體的郵政快遞表單識別、書法古跡文獻識別、教育文檔例如中小學生的手寫作業及試卷(特別是數理化文檔)的OCR,這些問題都有很大挑戰性,就更不要說醫療行業中醫生寫的處方病歷等手寫體字符了。另外還有來自絡的一些奇特或者藝術化的文字圖像,人雖然能輕松辨識,但這樣的圖像文字識別,未來5年都不一定能得到解決。

    最后我談一點個人對此領域未來技術發展的趨勢和展望,要解決我剛才講的OCR和文字識別的技術,

    第一方面就是要有更好的技術理論和方法,除了目前的深度學習之外,我們也期待別的新理論方法的出現,還有無監督學習、弱標注學習、One-shot Learning方法等等。

    第二個方面是自主學習、長效學習或終身學習這些新方法,都可能會為我們解決大數據無標注或弱標注情況下的OCR問題提供新的解決思路。

    第三方面,現在人工智能還處于剛剛起步的階段,離強人工智能還很遠。在OCR領域我們今天也只能做一些簡單的識別感知問題,從感知到智能理解再到高層認知,還有很長的路要走。

    第四方面,對文字識別仍然需要更好的端到端的解決方案,例如對場景文字OCR,我們需要把檢測和識別做成完全可學習的端到端的解決方法;圖文混排復雜版面的手寫及印刷體OCR,也可嘗試進行版面分析加自動分割加識別的端到端可學習方法的研究探討。

    第五方面,從應用角度看,我認為垂直行業的有非常多的行業應用機會,例如金融、保險、自動駕駛、醫療、教育、機器人、AR、智慧城市等等。

    第六方面,手寫體的識別,尤其是復雜版面下的手寫體OCR,這個問題遠遠沒有得到解決。第七個方面,剛才我講了數據,高質量的數據和大數據是非常關鍵的,我們現在很難獲取一些特定領域的文檔數據,例如金融文字圖像數據,快遞表單文檔圖像數據等等,這需要學術界和工業界一起合作解決相關問題。未來有沒有更多更好的數據非常值得我們期待。

    最后談一個觀點,我們今天的針對一些典型的模式識別問題的解決方案還做得不夠智能及通用,針對不同的視覺識別問題都需要設計不同的識別模型,例如人臉有人臉識別引擎,圖像有圖像識別引擎,文字有文字識別引擎,這相當于我們今天的人工智能其實是需要很多只不同的眼睛來解決不同的視覺感知問題。將來有沒有可能設計一個通用的解決方案,哪怕針對文字OCR這個特定領域的問題,把手寫、場景文字、表單、名片、證照等等用一個通用的統一方案來解決這些問題,無論從理論和技術上都值得研究,這樣我們文字識別這個眼睛才真正稱得上是人工智能領域中的一只智慧的眼睛。

    我的報告就到這里,謝謝大家!

    糖尿病人能治愈嗎
    下肢深度靜脈血栓治療
    小兒中毒性腦病 危害
    猜你會喜歡的
    猜你會喜歡的
    主站蜘蛛池模板: 欧美大片全黄在线观看| youjizz国产| 精品无码无人网站免费视频| 国产综合久久久久久鬼色| 亚洲AV无码一区二区三区在线| 精品人妻一区二区三区四区在线| 国産精品久久久久久久| 亚洲jizzjizz妇女| 男生的肌肌插入女生的肌肌| 国产精品第9页| 久久久久国产精品免费网站| 粗大黑人巨精大战欧美成人| 国产女同志videos| www成人免费观看网站| 欧美日韩国产在线观看一区二区三区| 国产午夜视频在线观看| 91成人精品视频| 日本最新免费二区| 人妻18毛片a级毛片免费看| 菠萝蜜视频在线看| 国产精品va无码二区| freexx性欧美另类hd偷拍| 最近中文字幕免费mv视频8| 啊灬啊别停灬用力啊公阅读| 欧美精品无需播放器在线观看 | 毛片在线看免费| 国产AV日韩A∨亚洲AV电影| 激情五月激情综合| 性欧美18-19sex性高清播放| 亚洲欧美另类第一页| 里番本子库全彩acg亚洲| 国产精品极品美女自在线| 中文字幕在线视频播放| 欧美精品黑人粗大| 公求求你不要she在里面小说| 黄网站色视频免费看无下截| 国产精品日韩欧美一区二区三区| a一级爱做片免费| 思思久久99热只有频精品66| 久久大香伊人中文字幕| 欧美jizzhd精品欧美|