多模態(tài)大模型「卷」向智能文檔，只為解放打工人的雙手

2023/05/24 12:25 IT產(chǎn)業(yè)網(wǎng) [No.S013]

　　來源：AI科技評論

　　作者 | 黃楠

　　編輯 | 陳彩嫻

　　今年3月，上海靜安區(qū)警方接到了一則關(guān)于虛擬投資理財?shù)膱蟀福阂荒凶映鲑Y 300 余萬委托某二級股票市場項目的投資者幫其代操作投資。在此期間，該投資者時常會分享“個股走勢”“賬戶收益”的圖片或視頻給劉先生，但到了雙方契約期滿時，劉先生卻討要投資收益及本金無果、還被要求續(xù)簽協(xié)議。

　　經(jīng)查，該投資者實則是一名失信人員，此前所提供大量“賬戶收益”圖片，均是通過 P 圖偽造的。

　　AI技術(shù)的興起在許多領(lǐng)域極大地解放了人們的雙手，也帶來了新的安全隱患。圖像信息的造假是最常見的風險之一，AI圖像內(nèi)容安全也成為了圖像圖形領(lǐng)域關(guān)注的重點。

　　近日，中國圖象圖形大會(CCIG 2023)在蘇州舉辦，大會以“圖象圖形向未來”為主題，譚鐵牛、趙沁平、吳一戎、徐宗本等院士出席現(xiàn)場并作主旨報告。

　　其中，譚鐵牛院士就《視覺內(nèi)容生成與安全》進行主題報告分享，從人工智能內(nèi)容生成的研究背景及現(xiàn)狀出發(fā)，介紹了近年來在內(nèi)容生成和取證方面取得的研究結(jié)果，就視覺鑒偽技術(shù)要點進行專門分享，并展望了未來的發(fā)展趨勢。

　　譚鐵牛提到，以大模型為代表的人工智能核心技術(shù)取得了新的突破，人工智能的廣泛應用也給人類社會帶來法律法規(guī)、道德倫理、社會治理等方面的挑戰(zhàn)。AIGC能夠讓“眼見能不為實，眼見不再為實”，內(nèi)容生成與內(nèi)容安全要統(tǒng)籌兼顧。

　　或許有人存在“幸存者偏差”的心態(tài)，認為自己并不屬于AIGC“換臉”魔法的輻射對象，圖像安全與自己無關(guān)。事實上，除了人像，人們在工作中常見常用的各類文檔所產(chǎn)生的圖片，也是造假重災區(qū)，如被篡改的資質(zhì)證書、文案、聊天截圖等，常常被用于散播謠言、經(jīng)濟詐騙，開頭提到的理財詐騙使用的便是圖片篡改手段。

　　CCIG 2023舉辦期間，《文檔圖像智能分析與處理》高峰論壇引發(fā)了眾多業(yè)內(nèi)人士的關(guān)注。該論壇由中國圖象圖形學學會文檔圖像分析與識別專業(yè)委員會與合合信息聯(lián)合組織，由中國圖象圖形學學會常務理事、華南理工大學的金連文教授擔任主持人。

　　金連文主持《文檔圖像智能分析與處理》論壇

　　論壇邀請到了相關(guān)領(lǐng)域最頂尖的研究者們，包括中科院自動化所、北大、中科大的學術(shù)專家，以及華為等知名企業(yè)的技術(shù)代表，就文檔圖像處理技術(shù)的發(fā)展現(xiàn)狀及應用，AI圖像內(nèi)容安全面臨的挑戰(zhàn)、多模態(tài)大模型時代的行業(yè)機遇等議題展開了深入討論。

　　1、文檔處理智能化之路：

　　緣起百年之前，AI引發(fā)劇變

　　文檔就是各種合同嗎?其實不然，文檔涵蓋的載體遠比常人想象的寬泛，如紙張、物理表面、圖像、文件等含有文字符號的媒體都屬于文檔。近年來，隨著數(shù)字化轉(zhuǎn)型提速，AI 在文檔智能處理領(lǐng)域的落地，令許多原本手工化的文檔處理環(huán)節(jié)登上了效率“直升梯”。

　　有關(guān)文檔識別處理的研究始于百年之前。1929 年，德國學者 Tausheck 通過純光學技術(shù)研究，提出了首個 OCR 專利“光學字符識別”，此后OCR相關(guān)技術(shù)不斷發(fā)展，并被廣泛應用于文檔處理中。2013年前后，隨著深度學習技術(shù)的引入，文檔識別與理解技術(shù)也就此邁向以深度學習為主導的研究時期，Attention 機制等深度學習技術(shù)在文檔圖像處理領(lǐng)域的應用，使得文檔識別性能也得到了快速提升。

　　引用自劉成林《大模型時代的文檔識別與理解》報告主題分享

　　什么樣的文檔處理稱得上是“智能文檔處理”呢?從使用者的角度看，“智能”至少需要滿足自動從不同文檔中提取有效信息這個基礎，甚至達到“理解”文檔信息，輔助人們辦公、生活的層級。

　　在《文檔圖像智能分析與處理》論壇上，專家們從框架上劃定了“智能文檔處理”的技術(shù)范疇，包括文檔圖像分析與預處理、文檔解析與識別、版面分析與還原、文檔信息抽取與理解、AI安全、知識化等。可以發(fā)現(xiàn)，關(guān)于文檔圖像的工作處于整個流程的第一環(huán)節(jié)，對文檔處理后續(xù)工作地質(zhì)量與效率有著決定性的影響。

　　2、圖像預處理：

　　文檔智能化處理的重要開端

　　進入實際應用后，文檔圖像處理還面臨著諸多挑戰(zhàn)。文檔類型多樣化、產(chǎn)生了繁雜的版式與結(jié)構(gòu);受拍攝器材、背景環(huán)境等外部因素的影響，圖像時常存在噪聲和質(zhì)量問題;圖文信息中的形變、陰影、摩爾紋等情況，也加大了技術(shù)識別和理解工作的難度。

　　劉成林就《人工智能大模型時代的文檔識別與理解》報告主題進行分享

　　論壇中，中國科學院自動化研究所副所長劉成林認為，總體上，當前文檔識別與理解研究向深度、廣度擴展，處理方法全面轉(zhuǎn)向深度神經(jīng)網(wǎng)絡模型和深度學習方法，識別性能大幅提升且應用場景不斷擴展。但當前技術(shù)在識別精度和可靠性、可解釋性、自適應性等方面存在明顯不足，還有形變解決、跨場景能力薄弱等很多技術(shù)問題有待解決。

　　劉成林專門提到，文檔圖像預處理等領(lǐng)域目前有很大的進展，挑戰(zhàn)也很多。這一觀點也引起了產(chǎn)業(yè)界專家的共鳴。合合信息智能技術(shù)平臺事業(yè)部副總經(jīng)理、高級工程師丁凱博士就合合信息在文檔圖像預處理方面的工作進行了分享。

　　丁凱指出，文檔圖像預處理的整體架構(gòu)由 ROI 提取、干擾去除、形變矯正、圖像恢復、圖像增強這五個重要技術(shù)步驟組成。其中，形變矯正包括了對傾斜透視、彎曲的矯正，圖像恢復可用于解決陰影、摩爾紋干擾信息對圖像識別影響的問題。

　　舉個例子，當人們用手機拍攝下一本書的某個頁面時，受拍攝角度、文檔放置位置、抖動等因素的影響，可能會造成所拍攝的圖像有折疊彎曲的現(xiàn)象，需要進行矯正處理。合合信息采用基于位移場網(wǎng)絡學習方法的系統(tǒng)構(gòu)架，可對形變文檔進行智能矯正，包括彎曲矯正與透視矯正，同時智能定位文檔邊緣，切除多余背景，自動“拉平”圖像，提升文檔內(nèi)容識別效率與質(zhì)量。

　　另外，涉及有些不便導出的文件、圖片時，人們需要對著電腦屏幕拍照，可能產(chǎn)生嚴重的“摩爾紋”(屏幕紋)，從而加大了識別和理解工作的難度，導致模型在處理文檔圖像時，出現(xiàn)識別精度差、分析結(jié)果不正確等情況。

　　因此，如果要對摩爾紋進行去除，首先需要從文檔背景中提取一個模塊，將圖像中的摩爾紋等干擾項進行提取，借助干擾去除模塊對摩爾紋進行消除后，再把原圖和去除干擾項的圖進行融合，從而就能獲得一張效果比較好的摩爾紋去除圖。

　　合合信息通過對文檔進行智能圖像處理，可大幅提升文檔掃描質(zhì)量、文檔識別分析能力。目前，彎曲矯正、去摩爾紋、反光消除等多項技術(shù)已被應用于合合信息旗下“掃描全能王”等產(chǎn)品中。

　　如果說圖像的預處理能力影響的是文檔處理的效率，那么對于圖片中虛假信息的辨別，則關(guān)乎到使用者的安全和利益。面對文檔篡改、虛擬圖像識別等新的問題，AI 仍然是重要的突破口。

　　3、保障文檔圖像安全

　　研究者做了這些工作

　　一般情況下，篡改文本圖像的生成與檢測問題往往被認為是對立的。但在中國科技大學的謝洪濤教授看來，二者其實一個矛與盾的問題，密不可分、相輔相成。

　　謝洪濤認為，篡改文本圖像的生成方法能夠反映篡改文本圖像檢測方法的檢測性能;同時，篡改文本圖像檢測方法也能反映篡改文本圖像生成的效果，因此兩者只有共同進步才能實現(xiàn)矛與盾的良性發(fā)展。

　　引用自謝洪濤《篡改文本圖像的生成與檢測》報告主題分享

　　在過往的一些訓練方法中，針對不同的偽造方法所得到的檢測模型可能并不具備泛化性，為了構(gòu)建一個通用的篡改文本檢測器，如何做到既保留場景文本檢測器的優(yōu)越性、并降低對數(shù)據(jù)量的依賴程度就十分重要。

　　謝洪濤提到，篡改文本檢測定義為多分類目標檢測任務，任務的檢測不應只擬合篡改文本區(qū)域，因此他們提出，通用檢測器的構(gòu)建應該從一般場景文本向篡改文本檢測器的網(wǎng)絡修改策略，并基于頻域的特征提取器來降低網(wǎng)絡對數(shù)據(jù)量的依賴性。

　　而通過引入頻域或者其他域中對模型檢測的生成內(nèi)容進行特征感知，包括偽造區(qū)域的紋理區(qū)分、設計合理的偽造檢測算法、時間復雜度等等，可最終建立起一個攻防博弈的過程。

　　謝洪濤就《篡改文本圖像的生成與檢測》報告主題進行分享

　　產(chǎn)業(yè)應用中，面對文檔圖像內(nèi)容的安全問題，合合信息也進行了相應的部署，在其智能文字識別服務平臺推出了篡改檢測服務。

　　據(jù)合合信息丁凱博士介紹，過去技術(shù)人員通常會參考Exif信息來判斷圖片是否存在篡改主要問題，但這種方法容易出現(xiàn)誤判：圖片經(jīng)過PS，GMIP等圖像編輯軟件，但未篡改具體內(nèi)容，可能會誤判;圖片被篡改后，用第三方軟件或工具抹除Exif信息，也可能造成誤判。

　　基于此，合合信息研發(fā)了基于深度學習的圖像篡改檢測技術(shù)及相關(guān)系統(tǒng)，融合SRM、BayarConv、ELA等方法提升 CNN Tamper Detector 性能，檢測 RGB 域和噪聲域存在痕跡的篡改。

　　丁凱就《智能文檔處理技術(shù)在工業(yè)界的應用與挑戰(zhàn)》報告主題進行分享

　　通過學習圖像被篡改后統(tǒng)計特征的變化，該系統(tǒng)智能捕捉圖像在篡改過程中留下的細微痕跡，可檢測出擦除重打印文本、重打印文本、復制、移動、拼接等多種篡改形式，讓人工智能準確識別出圖片篡改的不同類型，并進行針對性的處理，提升識別精度和場景通用性。目前，合合信息圖像篡改檢測技術(shù)已被銀行、保險、制造業(yè)等多個行業(yè)引入。

　　4、模態(tài)大模型時代

　　智能文檔處理的挑戰(zhàn)與機遇

　　近半年來，大模型成為智能時代全新的基礎設施。對于大模型的討論，關(guān)注者們不應當只停留在用了多少張卡、龐大的參數(shù)量和增加了哪些新模態(tài)，而是 AI 的能力如何應用到具體的產(chǎn)業(yè)中，比如借助大模型，讓文檔圖像智能分析與處理可以更好地處理跨模態(tài)信息，將文本、視頻、圖片等不同形式的信息進行融合，從而實現(xiàn)更加全面、深入的信息分析。

　　作為圖像圖形技術(shù)的重要應用場景之一，文檔圖像智能處理也應當積極擁抱大模型時代。北京大學教授鄒月嫻在論壇現(xiàn)場中提到，“在與文檔圖像處理技術(shù)密切相關(guān)的OCR領(lǐng)域中，專業(yè)化大規(guī)模的預訓練模型是可行的。大模型是一個大的趨勢，對于小團隊來說，做工具是一個非常好的方法。”

　　鄒月嫻就《視覺-語言預訓練模型及遷移學習方法》報告主題進行分享

　　深入產(chǎn)業(yè) AI，不可避免地會遇到更低頻、長尾的復雜場景和大規(guī)模協(xié)同的需求。這些具體場景的數(shù)據(jù)樣本少、數(shù)據(jù)分布不均，這也意味著企業(yè)在研發(fā)上也需要更高的成本，服務定制化程度也更高，通用性大模型的優(yōu)勢由此顯現(xiàn)。

　　在文檔圖像處理領(lǐng)域中，處于應用層的企業(yè)用戶往往要面臨復雜多樣的場景，這意味著企業(yè)需要調(diào)用多個 API，維護成本大、難度也較高。因此，企業(yè)更需要的是一個能覆蓋多元使用場景、具備專業(yè)行業(yè) Know-How 的垂直領(lǐng)域 OCR 大模型。

　　一個理想的設想是，企業(yè)既可以調(diào)用 OCR 大模型全部能力，也可以結(jié)合自身企業(yè)需求和特定場景，基于小型知識圖譜訓練自己的模型算法。對此，華為云 AI算法研究員廖明輝提出，垂直領(lǐng)域OCR大模型在數(shù)據(jù)層面，最關(guān)鍵的不是數(shù)據(jù)的數(shù)量，而是數(shù)據(jù)的多樣性。

　　廖明輝就《華為云OCR技術(shù)進展及實踐》報告主題進行分享

　　以銀行中常見的基金對賬單托管業(yè)務為例，市面上基金公司眾多，往往每家公司的賬單樣式都不相同，加上復雜的表格呈現(xiàn)形式，因此十分考驗 OCR 大模型對結(jié)構(gòu)化信息的提取能力。基于OCR大模型之上，銀行就可以針對托管對賬單這一特定場景的結(jié)構(gòu)化信息特性，訓練專用的提取算法。

　　這種基于垂直領(lǐng)域的大模型對專業(yè)知識數(shù)據(jù)的需求更高，丁凱也表示，很多算法可能在某一個數(shù)據(jù)集中表現(xiàn)很好，但換一個效果就大打折扣。因此，如何通過零樣本、小樣本等進行技術(shù)創(chuàng)新也是一個值得探索的點，“思考 OCR 領(lǐng)域的智能涌現(xiàn)是什么很重要。”丁凱說。

　　劉成林也對OCR大模型做了一下系統(tǒng)性的總結(jié)，指出：大模型的特征表示、語言能力對于文檔處理的智能化發(fā)展非常關(guān)鍵。大模型技術(shù)與光學字符識別(OCR)技術(shù)的結(jié)合，能夠?qū)Ａ繑?shù)據(jù)進行理解、處理;不同任務的專用模型和學習算法，接下來仍然大有可為。

　　“大模型的可解釋性、安全度十分重要，還需要研究者們進行更為深入的探討。具體到實踐層面，大模型技術(shù)還有可觀的提升空間。”劉成林提到，從識別性能來看，大模型技術(shù)在場景文本、邏輯版面、文檔問答等方面還有很多工作可以做。

　　今天，大模型的準入門檻正在不斷降低，技術(shù)變革正在席卷更多的行業(yè)，為文檔圖像智能處理帶來了新的機遇，一場關(guān)于耐力和實力的馬拉松較量已拉開序幕。

　　參考資料(以下均為大會報告)：

　　《人工智能大模型時代的文檔識別與理解》.劉成林

　　《視覺-語言預訓練模型及遷移學習方法》.鄒月嫻

　　《篡改文本圖像的生成與檢測》.謝洪濤

　　《華為云OCR技術(shù)進展及實踐》.廖明輝

　　《智能文檔處理技術(shù)在工業(yè)界的應用與挑戰(zhàn)》.丁凱

　　榜單收錄、高管收錄、融資收錄、活動收錄可發(fā)送郵件至news#citmt.cn（把#換成@）。

海報生成中...

分享到微博分享到微信一鍵復制

標題鏈接已成功復制

免费观看已满十八岁电视剧国语_人妻色综合网站_欧美大尺寸suv视频_成人免费高清在线观看_久久久成人毛片无码_老头解开奶罩吸奶头高潮视频_sm调教室论坛入口_欧美夫妻交换久久丫1000_一级黄色大片在线免费观看了

多模態(tài)大模型「卷」向智能文檔，只為解放打工人的雙手

最新新聞

熱門新聞

新動態(tài)

關(guān)注度

最話題

免费观看已满十八岁电视剧国语_人妻 色综合网站_欧美大尺寸suv视频_成人免费高清在线观看_久久久成人毛片无码_老头解开奶罩吸奶头高潮视频_sm调教室论坛入口_欧美夫妻交换久久丫1000_一级黄色大片在线免费观看了

多模態(tài)大模型「卷」向智能文檔，只為解放打工人的雙手

相關(guān)閱讀

最新新聞

熱門新聞

新動態(tài)

關(guān)注度

最話題

免费观看已满十八岁电视剧国语_人妻色综合网站_欧美大尺寸suv视频_成人免费高清在线观看_久久久成人毛片无码_老头解开奶罩吸奶头高潮视频_sm调教室论坛入口_欧美夫妻交换久久丫1000_一级黄色大片在线免费观看了