「合成資料」(synthetic data)的出現,是為了保護原始資料所可能帶有的隱私資料或機敏資料,或是因法規或現實之限制而無法取得或利用研究所需資料的情況下,透過統計學方法、深度學習、或自然語言處理等方式,讓電腦以「模擬」方式生成研究所需之「合成資料」並進行後續研究跟利用,透過這個方法,資料科學家可以在無侵犯隱私的疑慮下,使合成資料所訓練出來的分類模型(classifiers)不會比原始資料所訓練出來的分類模型差。
在合成資料的生成技術當中,最熱門的研究為運用「生成對抗網路」(Generative Adversarial Network, GAN)形成合成資料(亦有其他生成合成資料之方法),生成對抗網路透過兩組類神經網路「生成網路」(generator)與辨識網路(discriminator)對於不同真偽目標值之反覆交錯訓練之結果,使其中一組類神經網路可生成與原始資料極度近似但又不完全一樣之資料,也就是具高度複雜性與擬真性而可供研究運用之「合成資料」。
英國國防科技實驗室(Defense Science and Technology Laboratory, DSTL)於2020年8月12日發布「合成資料」技術報告,此技術報告為DSTL委託英國航太系統公司(BAE Systems)的應用智慧實驗室(Applied Intelligence Labs, AI Labs)執行「後勤科技調查」(Logistics Technology Investigations, LTI)計畫下「資料科學與分析」主題的工作項目之一,探討在隱私考量下(privacy-preserving)「合成資料」當今技術發展情形,並提供評估技術之標準與方法。
技術報告中指出,資料的種類多元且面向廣泛,包含數字、分類資訊、文字與地理空間資訊等,針對不同資料種類所適用之生成技術均有所不同,也因此對於以監督式學習、非監督式學習或是統計學方法生成之「合成資料」需要採取不同的質化或量化方式進行技術評估;報告指出,目前尚未有一種可通用不同種類資料的合成資料生成技術或技術評估方法,建議應配合研究資料種類選取合適的生成技術與評估方法。
本文為「經濟部產業技術司科技專案成果」
歐盟資料保護監督機關(European Data Protection Supervisor, EDPS)於2019年12月19日發布「評估限制隱私權和個人資料保護基本權利措施之比例指引」(EDPS Guidelines on assessing the proportionality of measures that limit the fundamental rights to privacy and to the protection of personal data),旨在協助決策者更易於進行隱私友善(privacy-friendly)之決策,評估其所擬議之措施是否符合「歐盟基本權利憲章」(Charter of Fundamental Rights of the European Union)關於隱私權和個人資料之保護。 該指引分為三大部分,首先說明指引的目的與如何使用;第二部分為法律說明,依據歐盟基本權利憲章第8條所保護個人資料的基本權利,並非絕對之權利,得於符合憲章第52條(1)之規定下加以限制,因此涉及處理個人資料的任何擬議措施,應進行比例檢驗;指引的第三部份則具體說明決策者應如何評估擬議措施之必要性和比例性之兩階段檢驗: 必要性檢驗(necessity test) (1) 步驟1:初步對於擬議措施與目的為詳細的事實描述(detailed factual description)。 (2) 步驟2:確定擬議措施是否限制隱私保護或其他權利。 (3) 步驟3:定義擬議措施之目的(objective of the measure),評估其必要性。 (4) 步驟4:特定領域的必要性測試,尤其是該措施應有效(effective)且侵害最小(the least intrusive)。 若前述評估認為符合必要性,則接續比例性檢驗,透過以下4步驟評估: 比例性檢驗(proportionality test) (1) 步驟1:評估目的正當性(legitimacy),擬議措施是否滿足並達到該目的。 (2) 步驟2:擬議措施對隱私和資料保護基本權的範圍、程度與強度(scope, extent and intensity)之影響評估。 (3) 步驟3:繼續進行擬議措施之公平對等評估(fair balance evaluation)。 (4) 步驟4:分析有關擬議措施比例之結果。 科技時代的決策者在立法和政策擬定時,面臨的問題愈趨複雜,需要全面性評估,擬議措施限制應符合歐盟法規,且具必要性並合於比例,隱私保護更是關鍵,參酌該指引搭配EDPS於2017年發布之「必要性工具包」(Necessity Toolkit),將使決策者所做出的決策充分保護基本權利。
日本發布《資料品質管理指引》,強調歷程存證與溯源,建構可信任AI透明度2025年12月,日本人工智慧安全研究所(AI Safety Institute,下稱AISI)與日本獨立行政法人情報處理推進機構(Information-technology Promotion Agency Japan,下稱IPA)共同發布《資料品質管理指引》(Data Quality Management Guidebook)。此指引旨於協助組織落實資料品質管理,以最大化資料與AI的價值。指引指出AI加劇了「垃圾進,垃圾出(Garbage in, Garbage out)」的難題,資料品質將直接影響AI的產出。因此,為確保AI服務的準確性、可靠性與安全性,《資料品質管理指引》將AI所涉及的資料,以資料生命週期分為8個階段,並特別強調透過資料溯源,方能建立透明且可檢核的資料軌跡。 1.資料規劃階段:組織高層應界定資料蒐集與利用之目的,並具體說明組織之AI資料生命週期之各階段管理機制。 2.資料獲取階段:此步驟涉及生成、蒐集及從外部系統或實體取得資料,應優先從可靠的來源獲取AI模型的訓練資料,並明確記錄後設資料(Metadata)。後設資料指紀錄原始資料及資料歷程之相關資訊,包含資料的創建、轉檔(transformation)、傳輸及使用情況。因此,需要記錄資料的創建者、修改者或使用者,以及前述操作情況發生的時間點與操作方式。透過強化來源透明度,確保訓練資料進入AI系統時,即具備可驗證的信任基礎。 3.資料準備階段:重點在於AI標註(Labeling)品質管理,標註若不一致,將影響AI模型的準確性。此階段需執行資料清理,即刪除重複的資料、修正錯誤的資料內容,並持續補充後設資料。此外,可添加浮水印(Watermarking)以確保資料真實性與保護智慧財產權。 4.資料處理階段(Data Processing):建立即時監控及異常通報機制,以解決先前階段未發現的資料不一致、錯漏等資料品質問題。 5.AI系統建置與運作階段:導入RAG(檢索增強生成)技術,檢索更多具參考性的資料來源,以提升AI系統之可靠性,並應從AI的訓練資料中排除可能涉及個人資料或機密資訊外洩的內容。 6. AI產出之評估階段(Evaluation of Output):為確保產出內容準確,建議使用政府公開資料等具權威性資料來源(Authoritative Source of Truth, ASOT)作為評估資料集,搭配時間戳記用以查核參考資料的時效性(Currentness),避免AI採用過時的資料。 7.AI產出結果之交付階段(Deliver the Result):向使用者提供機器可讀的格式與後設資料,以便使用者透過後設資料檢查AI產出結果之來源依據,增進透明度與使用者信任。 8.停止使用階段(Decommissioning):當資料過時,應明確標示停止使用,若採取刪除,應留存刪除紀錄,確保留存完整的資料生命週期紀錄。 日本《資料品質管理指引》強調,完整的資料生命週期管理、強化溯源為AI安全與創新的基礎,有助組織確認內容準確性、決策歷程透明,方能最大化AI所帶來的價值。而我國企業可參考資策會科法所創意智財中心發布之《重要數位資料治理暨管理制度規範(EDGS)》,同樣強調從源頭開始保護資料,歷程存證與溯源為關鍵,有助於組織把控資料品質、放大AI價值。 本文為資策會科法所創智中心完成之著作,非經同意或授權,不得為轉載、公開播送、公開傳輸、改作或重製等利用行為。 本文同步刊登於TIPS網站(https://www.tips.org.tw)
德國聯邦內閣政府決議通過「電信終端設備連接與自由選擇法草案 (Gesetz zur Auswahl und zum Anschluss von Telekommunikationsendgeräten)」為防止網路服務企業,在提供網路服務上替客戶連接寬頻網路(Breitbandanschluss)時,僅准許使用自家公司提供之路由器(Router),進而導致路由器或數據機(Modem)市場之壟斷狀況,違反市場自由競爭,德國聯邦內閣政府於2015年8月12日決議通過德國聯邦經濟暨能源部(Bundesministerium für Wirtschaft und Energie)於2015年2月25日所提出之「電信終端設備連接與自由選擇法草案」(Gesetz zur Auswahl und zum Anschluss von Telekommunikationsendgeräten)。 透過該草案,德國廣播電台與電信發射設施法(Gesetz über Funkanlagen und Telekommunikationsendeeinrichtungen)新增條文,以確保所有的終端設備(Endgeräten)列為市場自由化之對象。透過法定市場自由化的規範亦達成歐盟貨物公開及自由流通(free movement of goods)之原則。 該草案亦修定德國電信法(Telekommunikationsgesetz),「客戶之網際網路接取」現被定義為「被動式網絡終端點(passiver Netzabschlusspunkt)」。亦即,網路的架構設定與規劃,以往通常為電信業者所指定及管理,並包括路由器在其中,然而透過新法之修訂,已將路由器排除在被動式網絡終端點外,反而明確定義為積極終端設備(aktives Endgerät)。電信業者的管轄管理權限,以草案之修訂在路由器端前就會被設限。因此,讓網際網路使用者自己可使用自己裝置的路由器來定義自身的積極連接點(aktives Zugangspunkt)。 然而,網路營運者仍然可以提供其客戶終端設備,像是路由器或網路數據機,但透過該草案,客戶現可擁有終端產品的選擇權,而不致被迫使用被指定之網路終端設備。
歐盟公佈施行漫遊管制規範以降低行動通訊國際漫遊費率為降低歐盟民眾在歐盟各國家間往來之行動通訊漫遊費用,歐盟在去年七月提出歐盟境內大眾行動網路漫遊規則,以期將歐盟各國間的行動漫遊費用減少70%。該草案迅速得到各會員國之認同,於今年六月通過,並在今年6月30日正式公布歐盟漫遊規則(EU Roaming Regulation),該規則於公布後,歐盟27個會員國家之行動通訊業者均受其拘束。 根據該規則第3條之規定,歐盟各會員國內提供漫遊服務之行動通訊業者向本國業者收取之漫遊批發價格不得超過每分鐘0.3歐元。未來兩年內,價格上限將逐年下降至0.28歐元及0.26歐元。至於零售價格部分,業者向消費者收取之漫遊費率為撥出電話不得超過每分鐘0.49歐元,接聽電話不得超過每分鐘0.24歐元。未來兩年內,該費率將逐年下降至0.46歐元/0.22歐元以及0.43歐元/0.19歐元。另外,原則上本國之行動通訊業者均應在消費者進入歐盟其他會員國的同時,以簡訊或語音的方式自動且免費的提供漫遊費率相關資訊。 目前該規則將實施三年,歐盟執委會將於實施18個月後對於實施成果加以檢討,以決定是否延長漫遊規則之實施期間以及是否將費率管制規則延伸至簡訊及資料漫遊服務。