合成資料(synthetic data)

  「合成資料」(synthetic data)的出現,是為了保護原始資料所可能帶有的隱私資料或機敏資料,或是因法規或現實之限制而無法取得或利用研究所需資料的情況下,透過統計學方法、深度學習、或自然語言處理等方式,讓電腦以「模擬」方式生成研究所需之「合成資料」並進行後續研究跟利用,透過這個方法,資料科學家可以在無侵犯隱私的疑慮下,使合成資料所訓練出來的分類模型(classifiers)不會比原始資料所訓練出來的分類模型差。

  在合成資料的生成技術當中,最熱門的研究為運用「生成對抗網路」(Generative Adversarial Network, GAN)形成合成資料(亦有其他生成合成資料之方法),生成對抗網路透過兩組類神經網路「生成網路」(generator)與辨識網路(discriminator)對於不同真偽目標值之反覆交錯訓練之結果,使其中一組類神經網路可生成與原始資料極度近似但又不完全一樣之資料,也就是具高度複雜性與擬真性而可供研究運用之「合成資料」。

  英國國防科技實驗室(Defense Science and Technology Laboratory, DSTL)於2020年8月12日發布「合成資料」技術報告,此技術報告為DSTL委託英國航太系統公司(BAE Systems)的應用智慧實驗室(Applied Intelligence Labs, AI Labs)執行「後勤科技調查」(Logistics Technology Investigations, LTI)計畫下「資料科學與分析」主題的工作項目之一,探討在隱私考量下(privacy-preserving)「合成資料」當今技術發展情形,並提供評估技術之標準與方法。

  技術報告中指出,資料的種類多元且面向廣泛,包含數字、分類資訊、文字與地理空間資訊等,針對不同資料種類所適用之生成技術均有所不同,也因此對於以監督式學習、非監督式學習或是統計學方法生成之「合成資料」需要採取不同的質化或量化方式進行技術評估;報告指出,目前尚未有一種可通用不同種類資料的合成資料生成技術或技術評估方法,建議應配合研究資料種類選取合適的生成技術與評估方法。

本文為「經濟部產業技術司科技專案成果」

相關連結
相關附件
你可能會想參加
※ 合成資料(synthetic data), 資訊工業策進會科技法律研究所, https://stli.iii.org.tw/article-detail.aspx?d=8532&no=64&tp=1 (最後瀏覽日:2026/03/02)
引註此篇文章
你可能還會想看
英國上議院人工智慧專責委員會提出AI應用影響報告並提出未來政策建議

  英國上議院人工智慧專責委員會(Select Committee on Artificial Intelligence)2018年4月18日公開「AI在英國:準備、意願與可能性?(AI in the UK: ready, willing and able?)」報告,針對AI可能產生的影響與議題提出政策建議。   委員會建議為避免AI的系統與應用上出現偏頗,應注重大量資訊蒐集之方式;無論是企業或學術界,皆應於人民隱私獲得保障之情況下方有合理近用數據資訊的權利。因此為建立保護框架與相關機制,其呼籲政府應主動檢視潛在英國中大型科技公司壟斷數據之可能性;為使AI的發展具有可理解性和避免產生偏見,政府應提供誘因發展審查AI領域中資訊應用之方法,並鼓勵增加AI人才訓練與招募的多元性。   再者,為促進AI應用之意識與了解,委員會建議產業應建立機制,知會消費者其應用AI做出敏感決策的時機。為因應AI對就業市場之衝擊,建議利用如國家再訓練方案發展再訓練之計畫,並於早期教育中即加入AI教育;並促進公部門AI之發展與布建,特別於健康照顧應用層面。另外,針對AI失靈可能性,應釐清目前法律領域是否足以因應其失靈所造成之損害,並應提供資金進行更進一步之研究,特別於網路安全風險之面向。   本報告並期待建立AI共通之倫理原則,為未來AI相關管制奠定初步基礎與框架。

何謂「介入權」?

  美國拜杜法雖下放政府補助研發成果給予執行單位,但基於針對受補助者行使研發成果時若未能妥適授權運用,政府得行使「介入權」(march-in rights)。所謂的介入權,是指補助機關事後可以因為執行單位授權或運用不當,而選擇強制介入調整其授權內容。但補助機關採用介入權是有前提要件的,35 U.S.C. § 203規定:「受補助者在適當的合理期間內,未能採取有效的措施以達到該創新的實際應用或使用…」或者強制授權是「其他聯邦法律規定的保護公共健康、安全需要或公共使用」所必要者。相對我國則有經濟部於「經濟部科學技術研究發展成果歸屬及運用辦法」第21條規定政府介入權發動之要件,其與美國法制有異曲同工之妙。

美國的全球食品追溯中心(GFTC)提出食品追溯的「關鍵追蹤事項」及「重點資料元素」架構

  在近來國際食安問題事件頻傳的氛圍下,如何透過食品供應鏈相關資料的紀錄、串接與分析,達到食品追溯(Food Traceability)目的已成為全球性議題。有鑑於此,美國的全球食品追溯中心(Global Food Traceability Center, GFTC)在跨種類的食品供應鏈中針對數位資料的採集和追蹤,以建立共通架構為目的,提出食品追溯的「關鍵追蹤活動」以及「重點資料元素」,作為監管機構和產業界在建立追溯系統時可依循的標準。   由於現今食品供應系統涉及範圍大部分已擴及全球,其複雜性大幅提升了各國政府對整個食品產業的監管以及促進追溯實踐的困難度。隸屬美國食品科技研究所(IFT)的GFTC於2014年8月19日發表了一篇「食品追溯最佳實踐指南」(A Guidance Document on the Best Practices in Food Traceability)報告,指出當食品相關疫情爆發時進行食品追溯即有全球性的需求;該指南主要以食品安全及追溯相關規範的立法者和食品產業界為對象,針對六大類食品產業-烘焙、奶製品、肉類及家禽、加工食品、農產品和海產類提供一個可茲遵循的追蹤架構。在一條食品供應鏈中,有許多環節是進行追蹤時必要的資訊採集重點,被視為「關鍵追蹤活動」(Critical tracking events, CTEs),而各種「關鍵追蹤活動」的紀錄項目即為「重點資料元素」(Key data elements, KDEs)。 根據該指南所定義的CTEs包含: 1.運輸活動(Transportation events)-食品的外部追蹤,包括「運送活動」(Shipping CTE)和「接收活動」(Receiving CTE),指食品在供應鏈的點跟點之間藉由空運、陸運或船運等物理性的移動。 2.轉換活動(Transformation events)-食品的內部追蹤,連結食品經過各種結合、烹煮、包裝等加工的輸入到輸出過程,包括「轉換輸入活動」(Transformation Input CTE)和「轉換輸出活動」(Transformation Output CTE)。 3.消耗活動(Depletion events)-係將食品從供應鏈上去除的活動。其中,「消費活動」(Consumption CTE),指食品呈現可供顧客消費狀態的活動,例如把新鮮農產品放在零售店供顧客選購;「最終處置活動」(Disposal CTE)指將食品毀棄、無法再作為其他食品的成分或無法再供消費的活動。   而紀錄上述CTEs的KDEs例如各項活動的擁有人、交易對象、日期時間、地點、產品、品質等,應將該指南所列出之各項KDEs理解為紀錄CTEs的最基本項目。目前最大的問題是食品監管的要求和產業界執行可行性間的差距,故如何縮小此差距仍為各國政府當前最大的挑戰。

德國聯邦資訊技術,電信和新媒體協會針對AI及自動決策技術利用提出建議指南

  德國聯邦資訊技術,電信和新媒體協會於2018年2月6日在更安全的網路研討會中針對利用人工智慧及自動決策技術利用提出建議指南(Empfehlungen für den verantwortlichen Einsatz von KI und automatisierten Entscheidungen),旨在提升企業數位化與社會責任,並提升消費者權益保護。 本份指南提出六項建議: 促進企業內部及外部訂定相關準則 例如規定公司在利用演算法和AI時,必須將影響評估列入開發流程,並列為公司應遵守的道德倫理守則,以確保開發的產品或服務符合公平及道德。 提升透明度 使用者如有興趣了解演算法及其含義,企業應協助調查並了解使用者想獲知的訊息,並透過相關訊息管道提升產品及服務透明度。因此,企業應努力使演算法及其操作和含義能夠被使用者理解。此亦涉及即將實施的歐盟一般資料保護規則中的透明度義務。在機器學習或深度學習情況下,可能會增加理解性和可追溯性難度,但有助於分析流程並使其更接近人類理解的方法在科學和商業實踐中,應特別關注並進一步討論。另外,透過教育及使用說明協助及控制功能,教導消費者係建立雙方信任的重要手段。企業應在第一線中說明產品或服務中使用的手段(演算法,機器學習,AI)。除了解釋使用那些技術來改進產品和服務外,應一併解釋如何從技術控制過程中獲得相關知識以及提供那些後援支持。另外,例如透過幫助頁面,儀表板或部落格,解釋發生什麼以及如何做出某些影響深遠的自動化決策,使用戶更了解有關使用自動決策相關訊息。因此建議企業採取強制有效以建立信任的措施,使用戶理解是否及如何使用相關演算法,此可能包括使用自動化決策,使用特定資料組和使用技術的目的,亦即使用戶對演算法,機器學習或AI支持的決策有基本的了解。 為全體利益使用相關技術 人工智慧等新技術之重要性不應被低估,目前在生活和工業等眾多領域皆有廣泛應用。對於個人和集體而言,將可帶來巨大的利益,因此應該充分利用。例如,人工智慧可降低語言障礙,幫助行動不便的人可更加獨立自主生活,改善醫療診斷,提升能源供應效率,甚至是交通規劃和搜索停車位,都只是人工智慧偉大且已被使用的案例。為促進技術發展,應公平地利用其優勢並預留商業應用模式的空間,同時充分解決涉及的具體風險。產業特定的解決方案十分重要,但應兼顧受影響者的利益,並與廣大公眾利益找出妥協平衡點,且應排除不適當的歧視。建議在使用決策支持技術時,應事先檢查相關後果並與其利益比較。例如,可以在資料保護影響評估的框架進行。作為道德準則的一部分,必須確保演算法盡可能量準確地預測結果。 開發安全的資料基礎 資料係人工智慧支援決策的基礎。與人為決策者相同,資料不完整或錯誤,將導致做出錯誤的決定。因此決策系統的可靠性仍取決資料的準確性。但資料質量和資料來源始終不能追溯到源頭,如果可能的話,只有匯總或非個人資料可用於分析或分類用戶群組。因此,確切細節不可被使用或揭露。因此建議企業應考慮要使用的資料、資料的類別和在使用AI系統前仔細檢查資料使用情況,特別是在自我學習系統中資料引入的標準,並根據錯誤來源進行檢查,且儘可能全面記錄,針對個人資料部分更應謹慎處理。 解決機器偏差問題 應重視並解決所謂機器偏差和演算法選擇和模型建立領域的相關問題。解釋演算法,機器學習或AI在基層資料選擇和資料庫時所產生決策偏見相當重要,在開發預期用途的演算法時必須納入考量,對員工應針對道德影響進行培訓,並使用代表性紀錄來創建可以識別和最小化偏差的方法。企業並應該提高員工的敏感度並培訓如何解決並減少機器偏見問題,並特別注意資料饋送,以及開發用於檢測模式的內、外部測試流程。 適合個別領域的具體措施和文件 在特別需要負責的決策過程,例如在車輛的自動控制或醫療診斷中,應設計成由責任主體保留最終的決策權力,直到AI的控制品質已達到或高於所有參與者水平。對類人工智慧的信任,並非透過對方法的無條件追踪來實現,而是經過仔細測試,學習和記錄來實現

TOP