<tbody id="zqmqk"></tbody>
  1. <bdo id="zqmqk"></bdo>
    <menuitem id="zqmqk"></menuitem>

  2. <bdo id="zqmqk"><dfn id="zqmqk"></dfn></bdo>

    <track id="zqmqk"></track>
      第三媒體軟件中心使用與技巧工具教程 → 如何用百度大腦文字識別技術,快速集成實用小工具 TTL

      如何用百度大腦文字識別技術,快速集成實用小工具

      上傳:gyj333     來源:信息存儲服務     日期:2019-12-13

      [摘要]  
         本文介紹了基于百度AI的云貓OCR軟件相關功能、性能評價及核心代碼解讀。因篇幅較長大家可以直接檢索所需信息參考
       
      [正文]    

         一、 總體概述

        本文介紹了基于百度AI的云貓OCR軟件相關功能、性能評價及核心代碼解讀。因篇幅較長大家可以直接檢索所需信息參考。

        本文主要介紹了由本人開發的、基于百度AI的云貓OCR軟件的主要功能,性能評價及核心代碼解讀。因為是幾個帖子合并成一個,所以篇幅較長,希望各位能耐心看完,當然也可以各取所需。

        本文主要分為以下幾個部分:

        第一部分是云貓OCR軟件介紹。 由開發者本人親自介紹軟件的主要功能。對標ABBYY等OCR軟件,云貓OCR的功能更全面,使用更簡單,關鍵的是云貓OCR目前是完全免費給大家用的。當然因為是試用版,可能存在一些bug,大家使用的時候不要亂按就行。

        第二部分是云貓OCR基于百度OCR的具體實現方式說明。 同時也會對軟件的部分核心代碼進行展示,便于大家進行參考做出更有創意的產品。

        第三部分是云貓OCR使用說明及效果評測。 但因為云貓OCR是2017年底左右開發的,所以用的不是百度OCR最新接口功能,如果云貓能得到大家的支持,我可以考慮開發新版接入更多百度最新的AI接口,希望大家能多多捧場。

        本文的最后部分是附錄,附上了我基于百度OCR進行開發的代碼解讀,使用的是最新的百度手寫體識別接口,也一并打包給大家參考。

        第一部分 云貓OCR的軟件介紹

        一、云貓OCR簡介

        云貓OCR是基于百度云OCR算法,由進擊的狐貍進行開發的一款軟件。本軟件由C#語言進行開發,運行在Windows平臺上。主要調用的接口是通用文字識別、通用文字識別(高精度)和表格識別等。

        二、云貓OCR目前實現的主要功能:

        1.批量圖片文字識別,可以預覽圖片,可以對識別結果進行自動換行和縮進,可以控制QPS并發(QPS功能因為百度云的timeout問題而暫時擱置);

        2.批量表格圖片識別,支持自動打開識別結果,用戶也可以選擇直接打開保存目錄;

        3.PDF轉圖片,在我的筆記本(配置為I7處理器/8G內存/128G SSD硬盤)的硬件環境下,PDF轉圖片程序模塊占用的內存不超過400M,同時可以在2分鐘左右的時間內轉換超過500頁內容的PDF文件。支持一鍵打開轉換結果文件夾。

        4.云貓軟件支持換膚功能,目前有兩套皮膚;

        5.可以設置API Key和Secret Key;

        6.支持中途停止識別;

        7.支持把設置改變后對同一張圖片進行重新識別;

        8.支持多種語言;

        9.其他功能,比如識別統計信息、控制字體大小、右鍵把識別結果另存為rtf文件、全選和復制識別結果等等;

        三、演示帖子鏈接

        http://ai.baidu.com/forum/topic/show/492371

        四、云貓OCR演示視頻鏈接

        https://v.qq.com/x/page/r0564n4a87e.html

        第二部分 云貓OCR基于百度OCR的具體實現方式說明

        一、概述

        云貓OCR是基于百度AI,在Windows平臺運行的一款軟件。我是用C#語言在Visual Studio2017集成開發環境中進行開發的,開發方式是SDK包開發。在開發中,我們需要參考百度的技術文檔。

        百度云文字識別技術文檔地址:

        https://cloud.baidu.com/doc/OCR/index.html

      如何用百度大腦文字識別技術快速集成實用小工具

        二、準備工作

        首先,我們需要下載最新的百度文字識別的SDK包。

        C# SDK包的下載地址:http://ai.baidu.com/sdk#ocr

      如何用百度大腦文字識別技術快速集成實用小工具

        下載完畢后解壓縮,最新的包在文件夾net45里面。

      如何用百度大腦文字識別技術快速集成實用小工具

        打開Visual Studio2017開發環境,選擇新建項目,因為我打算用控制臺項目講解,因此要選擇新建項目——C#控制臺項目。建好項目之后,需要在項目中引用上面下載的SDK包。

      如何用百度大腦文字識別技術快速集成實用小工具

      如何用百度大腦文字識別技術快速集成實用小工具

        三、 核心代碼講解

      如何用百度大腦文字識別技術快速集成實用小工具

      如何用百度大腦文字識別技術快速集成實用小工具

        注意,具體開發的時候要把上面的API Key和Secret Key分別改為你自己的,另外不要忘了把圖片文件路徑改為你自己的圖片路徑。下面是識別的結果示例:

      如何用百度大腦文字識別技術快速集成實用小工具

        原圖如下:

      如何用百度大腦文字識別技術快速集成實用小工具

        (二)解析Json格式,把識別結果轉變為更為直觀的文本類型

      如何用百度大腦文字識別技術快速集成實用小工具

      如何用百度大腦文字識別技術快速集成實用小工具

      如何用百度大腦文字識別技術快速集成實用小工具

        程序運行結果如下:

      如何用百度大腦文字識別技術快速集成實用小工具

        這樣就比較符合人類的閱讀習慣了,上面這段代碼也是核心的基礎代碼,可以通過這些核心的代碼去做一些優化,比如自動換行、自動縮進、根據語言習慣自動改變標點符號等等。

        (三)表格識別

        百度的表格文字識別的編程較為麻煩,主要分成兩步:第一步是提交表格文字識別請求,獲得requestId;第二步是根據requestId獲取表格文字識別的結果,默認是Excel文件格式,Json結果會返回一段下載地址。

        我的程序除了上面這兩步以外,還添加了自動下載Excel文件到本地電腦的代碼,供各位參考。另外要注意的是,提交識別請求和獲得識別結果這兩步之間,程序必須設置延時,否則不能獲得下載的URL 。經過實際測試,延時為3秒以上較為合適,3秒以下可能會出錯。

        代碼如下:

      如何用百度大腦文字識別技術快速集成實用小工具

      如何用百度大腦文字識別技術快速集成實用小工具

        作者使用的測試用圖片:

      如何用百度大腦文字識別技術快速集成實用小工具

        表格文字識別結果截圖:

      如何用百度大腦文字識別技術快速集成實用小工具

        第三部分 云貓OCR的使用說明及效果評測

        一、概述

        筆者是在2017年接觸百度云服務平臺的,在這里我也稱之為百度AI 。筆者根據百度AI提供的函數接口,自行編程實現了一款OCR軟件——云貓OCR。云貓OCR大部分的代碼開發是在2017年底前完成的,之所以雪藏到現在,是因為筆者的一些私人事務(小孩出生等)——我是利用業余時間進行軟件開發的,所以中斷了大概一年多的時間,現在才有空繼續這個項目。

        評測篇的原帖子地址:

        http://ai.baidu.com/forum/topic/show/955989

        二、評測的具體內容

        (一)準備工作

        在使用云貓OCR之前,我們必須先去百度云官網進行注冊賬號,有了賬號以后,我們還要去具體的云服務項目下申請API Key和Secret Key ,一般這兩個Key是用戶各人保管的,不能隨便透露給外人。因為百度云現在已經正式收費,而用戶每人每天的免費調用次數都是有限的,提高限額需要支付費用,用戶使用百度云AI接口的依據主要就是這兩個Key,所以我們要保管好。下面是簡單的準備工作圖片說明:

      如何用百度大腦文字識別技術快速集成實用小工具

      如何用百度大腦文字識別技術快速集成實用小工具

      如何用百度大腦文字識別技術快速集成實用小工具

      如何用百度大腦文字識別技術快速集成實用小工具

      如何用百度大腦文字識別技術快速集成實用小工具

      如何用百度大腦文字識別技術快速集成實用小工具

      如何用百度大腦文字識別技術快速集成實用小工具

      如何用百度大腦文字識別技術快速集成實用小工具

        (二)正式使用云貓OCR

        用戶有了百度云API Key和Secret Key之后,就可以正式使用云貓OCR了。具體使用步驟如下:

      如何用百度大腦文字識別技術快速集成實用小工具

      如何用百度大腦文字識別技術快速集成實用小工具

      如何用百度大腦文字識別技術快速集成實用小工具

        (三)評測的具體內容

        首先介紹一下云貓OCR調用的百度AI的主要接口,首先是通用文字識別(帶位置版),其次是通用文字識別(帶位置高精度版),最后是表格文字識別,下面依次介紹這三種識別。

        1. 通用文字識別(帶位置版)和通用文字識別(帶位置高精度版)的混合使用

      如何用百度大腦文字識別技術快速集成實用小工具

        如上圖所示,用戶可以選擇多種語言(包括德語、法語、西班牙語等等),選擇好后點擊文字識別即可。因為百度云提供的高精度文字識別接口只支持中英文,而通用的文字識別支持除中英文以外的多種語言,所以筆者在編寫軟件中,這兩種接口是混合使用的,具體怎么混合使用請看代碼篇。一般情況下,高精度的文字識別效果比通用的好,但也比較耗時。

      如何用百度大腦文字識別技術快速集成實用小工具

      如何用百度大腦文字識別技術快速集成實用小工具

        本軟件支持識別的文字結果在本機保存為文件,具體如下圖操作:

      如何用百度大腦文字識別技術快速集成實用小工具

      如何用百度大腦文字識別技術快速集成實用小工具

      如何用百度大腦文字識別技術快速集成實用小工具

        保存的文件是rtf格式,可以用WPS或者Office Word打開。下面再給出一次性識別20張圖片的統計結果圖示:

      如何用百度大腦文字識別技術快速集成實用小工具

      如何用百度大腦文字識別技術快速集成實用小工具

        從上圖可以看出,百度云的文字識別結果速度還是不錯的,識別速度是平均大概2-3秒一張圖。

        2. 表格文字識別

        表格文字識別的主要步驟如下圖所示:

      如何用百度大腦文字識別技術快速集成實用小工具

        識別的結果軟件會自動保存為Excel文件并打開,如圖:

      如何用百度大腦文字識別技術快速集成實用小工具

      如何用百度大腦文字識別技術快速集成實用小工具

        從上圖可以看出,表格文字識別的速度比普通文字識別要慢一些,大概需要5-6秒。

        評測總結:百度OCR對于印刷體的識別還是不錯的,比起以前的OCR軟件來說,百度OCR可以說是革命性的進步。當然,它也有自己的短板。比如手寫體的識別,筆者還沒有評測,但百度云通用文字高精度接口對手寫體的識別是較差的。再比如QPS并發,我的理解是可以提高OCR文字識別的速度,對于大量的圖片文字識別來說尤其是重要,可以節省大量時間。但遺憾的是,百度云對并發好像做的不太好,程序不一定支持QPS并發,這個缺點我們也是希望百度后面能夠有所改正。

        附錄:

        C#編程實現手寫識別

        一、概述

        本人是用C#編程,調用百度API接口實現手寫體識別的,參考了百度的產品文檔。

        文檔地址:https://cloud.baidu.com/doc/OCR/index.html

        二、代碼及解說

        本人的源代碼大部分是來自百度的產品文檔,但其中也遇到了一些麻煩。比如文字識別的編碼問題,百度的代碼給出的編碼是Default,但在我的機器上這樣做會顯示亂碼。經過查找資料,我把編碼改成UTF8,亂碼的問題才得到解決。

        作者的所有源代碼如下:

      如何用百度大腦文字識別技術快速集成實用小工具

      如何用百度大腦文字識別技術快速集成實用小工具

      如何用百度大腦文字識別技術快速集成實用小工具

      如何用百度大腦文字識別技術快速集成實用小工具

      如何用百度大腦文字識別技術快速集成實用小工具

      如何用百度大腦文字識別技術快速集成實用小工具

      如何用百度大腦文字識別技術快速集成實用小工具


        注意,上面的代碼中需要各位改成自己的Akey和Skey,另外要改一下圖片路徑。如果返回的是亂碼,還需要改一下編碼。

        識別的結果如下:

      如何用百度大腦文字識別技術快速集成實用小工具


        程序用的圖片文件如下:

      如何用百度大腦文字識別技術快速集成實用小工具

         (新聞稿 2019-12-13)


      頻道首頁 】【 評論 】 【 打印 】 【 字體:
         上一篇:文件誤刪除如何恢復? 辦公文件丟失恢復技巧!
         下一篇:小技巧,如何用PowerPoint創作出高大上的圖片
      導航:報價 | 大全 | 排行榜 | 產品大全 | 參量 | 訂閱 
       Advertisement
       十大最受關注的新聞
      1  2022款雷蛇靈刃15游戲本,玩性能也玩輕薄
      2  8GB+256GB版本售價1399元,榮耀Play6T正式開啟售賣
      3  各路“孤勇者”上線,戴爾靈越16 Plus憑實力助陣音樂創作
      4  vivo X80系列新品游戲體驗曝光,《原神》幀率又頂又穩,機身溫度表現出色
      5  中興Axon 40見證神舟十三號勝利回歸 共迎航天探索者凱旋
      6  高效創作 選購金士頓存儲卡更自由
      7  青年力量匯聚時代榮光,中興手機邀您見證勇敢的中國青年
      8  五一休假要在家值班?全新雷蛇靈刃17助你秒開高效辦公模式
      9  世界元宇宙大會延期至7月舉行三位院士任大會主席
      10  尊享高端“凈”服務,開啟璀璨人生第一步
       十大熱門驅動/軟件下載
      1  [手機驅動]手機usb萬能
      2  [熱門常用軟件]QQ2008正式版下載【騰訊QQ2008官方版Beta1】
      3  [熱門常用軟件]E話通下載【E話通4.5 正式版】
      4  [手機驅動]Samsung三星 手機USB驅動1.0版For Win98SE/ME/...
      5  [手機驅動]Microsoft微軟 ActiveSync同步軟件4.5中文版Fo...
      6  [攝像頭驅動]萬能攝像頭 FOR Windows
      7  [熱門常用軟件]皮皮播放器下載【PPFilm皮皮播放器 2.1.0....
      8  [手機驅動]諾基亞 PC套件下載
      9  [熱門常用軟件]面對面游戲下載【面對面視頻游戲大廳】
      10  [手機驅動]Microsoft微軟 Windows Mobile Device Center ...
       十大最受關注的品牌
      1  三星手機(SAMSUNG)
      2  諾基亞手機(NOKIA)
      3  華碩筆記本(ASUS)
      4  摩托羅拉手機(MOTOROLA)
      5  英特爾CPU(Intel)
      6  華碩主板(ASUS)
      7  LG手機(LG)
      8  索愛手機(Sony Ericsson)
      9  聯想筆記本(lenovo)
      10  宏碁筆記本(acer)
       十大熱門常用軟件下載
      1  QQ2008正式版下載【騰訊QQ2008官方版Beta1】
      2  E話通下載【E話通4.5 正式版】
      3  皮皮播放器下載【PPFilm皮皮播放器 2.1.0.2版】
      4  面對面游戲下載【面對面視頻游戲大廳】
      5  DVD解碼器下載【NVIDIA DVD Decoder 1.02】
      6  迅雷5下載【迅雷5.8.1.507官方版】
      7  QQ2007 II正式版下載【騰訊QQ2007官方版本】
      8  QQ2006正式版下載【騰訊QQ2006官方版本】
      9  聯眾世界游戲大廳下載【聯眾世界2.7.0.8官方版】
      10  MTV下載器【MTV下載精靈 8.31版】
      11  pplive最新版下載【PPLive網絡電視V1.9.35版】
      12  迅雷(Thunder)下載【迅雷v5.7.12.493官方版】
      13  騰訊QQ2008下載【騰訊QQ官方版2008極速賀歲版KB1】
      14  Total Video Converter下載【Total Video Converter v3.1...
      15  QQ拼音輸入法下載【騰訊QQQQ拼音輸入法V1.4.1版】
      16  皮皮高清影視播放器下載【PIPIPlayer 2.7.0.3版】
      17  eMule下載【電驢eMule官方v0.49a正式版】
      18  極點五筆輸入法下載【極點五筆6.1標準版】
      19  QQ2009正式版下載【騰訊QQ2009 SP4官方版】
      20  Vagaa哇嘎畫時代版下載【哇嘎 2.6.5.10】
         >> 查看評論   
       
         >> 查看更多評論   [共有0條評論]
      發表評論
              
              
         點評:
         姓名:  
                  字數: 0
           
      新聞精選
      ·杭上春日遲遲歸,幾何上新
      ·一圖看懂狄耐克“1+7+N”智慧居家解決方案
      ·尊重原創、拒絕抄襲!百度百家號『原創保護聯
      ·聚劃算55劃算節打造「千店聯播」直播大事件
      ·實力加持!優維科技成功完成多方國產化適配認
      ·央視紀錄片中的騰訊碼農,用AI技術為聽障老人
        ·中國信通院[FinOps產業推進方陣]首批成員單位
      ·一場成都和青年的雙向奔赴
      ·老榕樹廣告聯盟微盟解析社交電商新零售商業如
      ·廣東家居企業如何數字化轉型?前后端一體化軟
      ·聚劃算和1000+品牌的雙贏,直播升級帶來店播
      ·悠易互通官網3.0全面升級!馬上搜索悠易互通
      爆乳H动漫无遮挡,少妇被粗大猛烈的进出,福利姬白浆喷水高潮在线播放
        <tbody id="zqmqk"></tbody>
      1. <bdo id="zqmqk"></bdo>
        <menuitem id="zqmqk"></menuitem>

      2. <bdo id="zqmqk"><dfn id="zqmqk"></dfn></bdo>

        <track id="zqmqk"></track>
          <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <文本链> <文本链> <文本链> <文本链> <文本链> <文本链>