按Enter到主內容區
:::

LOGO圖

 
:::

第216期  2025-6-16

檔案知識⁺

生成式AI技術應用於機關檔案銷毀目錄審核初探

國家發展委員會檔案管理局(以下簡稱檔案局)為有效提升機關檔案銷毀目錄法定審核效能,改善機關送審檔案銷毀目錄品質,逐步運用人工智慧(Artificial Intelligence,以下簡稱AI)協助銷毀目錄預審,並提供送審機關自我檢核參考,以提升檔案清理品質及行政效率。

國家發展委員會檔案管理局文書檔案資訊組前分析師 胡治民

 

壹、前言

由於機關函送檔案銷毀目錄之數量與件數常年未減,此工作又屬法定審核業務,檔案局現有人力負荷沈重,依現行作業模式,多依賴人工進行逐件審核,需耗費大量人力與時間,面對此重大負荷,亟需引進輔助機制以提升審查效能與準確度,生成式人工智慧(Generative AI)具備語意理解、自動摘要、內容分類及風險提示等能力,考量審核過程中因具高重複性且有依循規則,導入AI輔助審查之可行性高,且以業務量及所涉對象而言,具高度開發效益,如能結合AI,將可成為檔案管理智慧化之基礎,更能有效減少重置人力、降低成本,進而達成流程改造及數位轉型之目標。

貳、人工智慧技術

人工智慧(AI)指的是使機器具備模擬人類智能的能力,涵蓋學習、推理、理解語言、感知與行動等功能。AI從早期基於邏輯與規則的人工智慧系統(Rule–Based AI Systems),演進至透過「資料」來讓系統自動學習與改進,不再依賴人工撰寫規則之機器學習時代,其中深度學習為機器學習發展子領域,使用類神經網路(如CNN、RNN等),進行多層次特徵提取與學習,現行GPT、DALL.E等生成式AI模型皆為深度學習之人工智慧技術,以下介紹三種AI應用特性:

一、分辨式AI技術

分辨式AI(Discriminative AI)主要著重於從輸入資料中學習如何區分不同的標籤或類別,常見應用包括圖片辨識、語音識別、垃圾郵件過濾等。這類模型透過監督式學習方式訓練,輸入與對應標籤成對,藉由分析差異特徵來進行預測。深度神經網路的發展,進一步強化分辨式模型在非結構化資料處理的能力。然而,此類AI僅能進行分類與預測,無法生成新的內容或模擬人類語言邏輯,且需要大量人工介入進行資料貼標籤作業來協助提升辨別正確率。

二、生成式AI技術

生成式AI(Generative AI)則是學習資料分佈之特性,透過訓練模型來創造出與原始資料相似的全新內容。從早期的VAE、GAN 到近年以Transformer為核心的GPT、DALL.E等模型,使AI得以自動生成文章、圖像、語音等。此類AI技術不僅突破過去AI僅能識別的限制,更能在訓練過程中,理解語境、大量學習,並透過不斷調整內部參數進行創造,廣泛應用於對話系統、創意設計、文件生成與分析,成為提升行政效率與處理大規模資訊任務的重要工具。生成式AI與分辨式AI之比較如下表:

生成式AI與分辨式AI比較表

生成式AI與分辨式AI比較表

三、生成式AI結合RAG應用

檢索增強生成技術(Retrieval-Augmented Generation, RAG)是結合資訊檢索與自然語言生成的人工智慧技術,可讓生成式AI利用大型語言模型(LLM)生成回應前,透過檢索增強生成技術,改善生成式AI的回答品質。其運作原理可以分別透過索引、檢索及生成3個階段,讓AI模型更能理解與回應用戶的問題,生成更準確、相關且完備的資訊內容。

參、生成式AI技術應用於機關檔案銷毀

為解決現有機關檔案銷毀目錄審核量能不足之問題,檔案局過去曾嘗試導入分辨式AI,協助進行機關檔案銷毀目錄審查,惟為提升分辨式AI辨識之正確率,需投入大量人力對資料進行標籤,又因不同機關性質差異甚大,各項對應不同類型之機關需個別進行標籤作業,造成應用於銷毀法定審查時,其審查判準正確率並未達到理想目標,造成人工作業難以減輕。

2023年11月,生成式AI「ChatGPT」推出,短短2個月達到破億的使用者數量,接續各項大型LLM模型相繼推出,生成式AI應用範圍及功能快速發展,現生成式AI結合RAG技術,將可突破過往分辨式AI之限制。基此,於審核機關檔案銷毀目錄過程中導入生成式AI技術應用,作法採兩階段自動審查,包括第一階段的基本審查及第二階段的進階審查。

第一階段是基本審查,將過去的特殊情形審查、銷毁改列機關永久保存、國家檔案移轉等審查經驗轉化為基本規則,透過生成式提示工程(Prompt Engineering)進行基本審查,若第一階段已判定不得銷毁,則不必進入進階審查。

第二階段是進階審查,在人工與生成式AI中間,做一個中間層,這個中間層前置處理並內嵌檔案目錄銷毁的規範、核准案例及未核准案例,將內嵌向量化資料存入向量資料庫,利用嵌入式搜尋(Embedding Search)找到相似的範例,並利用提示語(Prompt)詢問生成式AI,得到最終答案,判定是否核准的建議。

透過前述流程及架構,將生成式AI所給出之建議,作為審核意見之參考,並將實際審核意見持續回饋至向量資料庫,讓AI所回饋之銷毀判準建議更趨近實際狀況,更能有效降低法定審核作業之負擔。

另外,規劃之整體架構中,整合的技術包含RAG、Prompt Engineering、內嵌向量化(Embedding)、少量資料學習(Few–Shot Learning)、思維鏈(Chain of Thought)及文章摘要(Text Summarization)等,其中RAG向量資料庫為獨立建置,後續可彈性串接不同大語言模型包含TAIDE、OpenAI、Meta Llama V3、Mistral、Google Gemini……等,讓未來機關檔案銷毀目錄審查之生成式AI系統,其生成之核准正確率及審查建議回饋品質,可跟著大型語言模型進步而更為優良,其系統架構圖如圖。

生成式AI架構示意圖

生成式AI架構示意圖

肆、結語

全國3千多個機關報送檔案銷毀目錄審核,乃檔案局法定審核業務重中之重。未來除了在法律位階規劃適時建立授權機關審核的機制,亦規劃進行本功能試辦推行至機關端,透過試辦過程與結果回饋,持續優化銷毀目錄AI審查功能,期能將生成式AI技術導入預審機制,以分擔人工審核負荷量,加速法定審核作業,達到「推動檔案管理智慧化,提升檔案清理效能」之目標。

參考資料

  1. 國家發展委員會檔案管理局,運用人工智慧協助檔案銷毀目錄預審合作試辦機關作業指引,2023年5月修正。
  2. 「生成式人工智慧」,維基百科,資料來源:https://zh.wikipedia.org/zh-tw/%E7%94%9F%E6%88%90%E5%BC%8F%E4%BA%BA%E5%B7%A5%E6%99%BA%E6%85%A7。
  3. 黃適文,〈生成式AI 是什麼?3大生成式AI應用與工具分享!〉,Solwen AI,資料來源:https://solwen.ai/posts/generative-ai。

 

  1. 本電子報所載國家檔案資料採取創用CC「姓名標示─非商業性」cc創用 3.0 臺灣授權條款釋出,同意授權予不特定之公眾以重製、散布、發行、編輯、改作、公開口述、公開播送、公開上映、公開演出、公開傳輸、公開展示之方式利用,以及創作衍生著作。
  2. 本電子報引述或提供之站外連結,若因外部網頁異動或下架等因素造成網址失效,檔案局將逕移除該超連結,以符合無障礙網頁規範,造成不便尚祈見諒。

 

  • 發布日期:114/06/16
  • 最後更新時間: 114/06/16
  • 點閱次數:54