合成資料(synthetic data)

  「合成資料」(synthetic data)的出現,是為了保護原始資料所可能帶有的隱私資料或機敏資料,或是因法規或現實之限制而無法取得或利用研究所需資料的情況下,透過統計學方法、深度學習、或自然語言處理等方式,讓電腦以「模擬」方式生成研究所需之「合成資料」並進行後續研究跟利用,透過這個方法,資料科學家可以在無侵犯隱私的疑慮下,使合成資料所訓練出來的分類模型(classifiers)不會比原始資料所訓練出來的分類模型差。

  在合成資料的生成技術當中,最熱門的研究為運用「生成對抗網路」(Generative Adversarial Network, GAN)形成合成資料(亦有其他生成合成資料之方法),生成對抗網路透過兩組類神經網路「生成網路」(generator)與辨識網路(discriminator)對於不同真偽目標值之反覆交錯訓練之結果,使其中一組類神經網路可生成與原始資料極度近似但又不完全一樣之資料,也就是具高度複雜性與擬真性而可供研究運用之「合成資料」。

  英國國防科技實驗室(Defense Science and Technology Laboratory, DSTL)於2020年8月12日發布「合成資料」技術報告,此技術報告為DSTL委託英國航太系統公司(BAE Systems)的應用智慧實驗室(Applied Intelligence Labs, AI Labs)執行「後勤科技調查」(Logistics Technology Investigations, LTI)計畫下「資料科學與分析」主題的工作項目之一,探討在隱私考量下(privacy-preserving)「合成資料」當今技術發展情形,並提供評估技術之標準與方法。

  技術報告中指出,資料的種類多元且面向廣泛,包含數字、分類資訊、文字與地理空間資訊等,針對不同資料種類所適用之生成技術均有所不同,也因此對於以監督式學習、非監督式學習或是統計學方法生成之「合成資料」需要採取不同的質化或量化方式進行技術評估;報告指出,目前尚未有一種可通用不同種類資料的合成資料生成技術或技術評估方法,建議應配合研究資料種類選取合適的生成技術與評估方法。

本文為「經濟部產業技術司科技專案成果」

相關連結
相關附件
你可能會想參加
※ 合成資料(synthetic data), 資訊工業策進會科技法律研究所, https://stli.iii.org.tw/article-detail.aspx?d=8532&no=64&tp=1 (最後瀏覽日:2025/11/29)
引註此篇文章
你可能還會想看
美國提出加速營業秘密盜竊調查的相關立法

  2021年6月,美國有多位參議員針對營業秘密保護提出立法建議,目的是要讓認為自己的智慧財產權受到竊取的企業,可阻擋盜竊其營業秘密者的相關產品進口到美國。   參議員John Cornyn和Christopher Coons提出藉由修改1930 年的關稅法(Tariff Act),在美國國際貿易委員會(International Trade Commission,簡稱ITC)中設立新的委員會,並由美國司法部長(Attorney General)領導,負責調查背後為國外政府支持之競爭對手的智慧財產權盜竊指控。智慧財產權所有者可透過提交經宣誓的聲明書提出指控,或由司法部長辦公室提出指控。此立法設定30天的調查期限讓調查人員決定是否在冗長的審查展開時停止其產品進口。該法案將適用於來自任何國家的進口產品,但據了解,目前大部分的智慧財產盜竊指控都是來自於中國大陸公司。   雖然在ITC已有類似的程序可提出救濟,但在現行制度下需要的時間過長,最近一年在ITC進行的調查平均時長為19個月。透過此法案設計的制度,將使有關當局在調查營業秘密盜竊指控時,可更容易地阻止因竊取營業秘密而製造出的產品進口到美國。 「本文同步刊登於TIPS網站(https://www.tips.org.tw)」

德國資料保護會議通過「哈姆巴爾宣言」,針對人工智慧之運用提出七大個資保護要求

  德國聯邦及各邦獨立資料保護監督機關(unabhängige Datenschutzaufsichtsbehörden)共同於2019年4月3日,召開第97屆資料保護會議通過哈姆巴爾宣言(Hambacher Erklärung,以下簡稱「Hambacher宣言」)。該宣言指出人工智慧雖然為人類帶來福祉,但同時對法律秩序內自由及民主體制造成巨大的威脅,特別是人工智慧系統可以透過自主學習不斷蒐集、處理與利用大量個人資料,並且透過自動化的演算系統,干預個人的權利與自由。   諸如人工智慧系統被運用於判讀應徵者履歷,其篩選結果給予女性較不利的評價時,則暴露出人工智慧處理大量資料時所產生的性別歧視,且該歧視結果無法藉由修正資料予以去除,否則將無法呈現原始資料之真實性。由於保護人民基本權利屬於國家之重要任務,國家有義務使人工智慧的發展與應用,符合民主法治國之制度框架。Hambacher宣言認為透過人工智慧系統運用個人資料時,應符合歐盟一般資料保護規則(The General Data Protection Regulation,以下簡稱GDPR)第5條個人資料蒐集、處理與利用之原則,並基於該原則針對人工智慧提出以下七點個資保護之要求: (1)人工智慧不應使個人成為客體:依據德國基本法第1條第1項人性尊嚴之保障,資料主體得不受自動化利用後所做成,具有法律效果或類似重大不利影響之決策拘束。 (2)人工智慧應符合目的限制原則:透過人工智慧系統蒐集、處理與利用個人資料時,即使後續擴張利用亦應與原始目的具有一致性。 (3)人工智慧運用處理須透明、易於理解及具有可解釋性:人工智慧在蒐集、處理與利用個人資料時,其過程應保持透明且決策結果易於理解及可解釋,以利於追溯及識別決策流程與結果。 (4)人工智慧應避免產生歧視結果:人工智慧應避免蒐集資料不足或錯誤資料等原因,而產生具有歧視性之決策結果,控管者或處理者使用人工智慧前,應評估對人的權利或自由之風險並控管之。 (5)應遵循資料最少蒐集原則:人工智慧系統通常會蒐集大量資料,蒐集或處理個人資料應於必要範圍內為之,且不得逾越特定目的之必要範圍,並應檢查個人資料是否完全匿名化。 (6)人工智慧須設置問責機關進行監督:依據GDPR第12條、第32條及第35條規定,人工智慧系統內的控管者或處理者應識別風險、溝通責任及採取必要防範措施,以確保蒐集、處理與利用個人資料之安全性。 (7)人工智慧應採取適當技術與組織上的措施管理之:為了符合GDPR第24條及第25條規定,聯邦資料保護監督機關應確認,控管者或處理者採用適當的現有技術及組織措施予以保障個人資料。   綜上所述,Hambacher宣言內容旨在要求,人工智慧在蒐集、處理及利用個人資料時,除遵守歐盟一般資料保護規則之規範外,亦應遵守上述提出之七點原則,以避免其運用結果干預資料主體之基本權利。

歐盟創新採購機制觀測

歐盟網路與資訊安全局暨網路安全認證規則要求進行「網路安全認證機制」

  歐盟執委會於2019年6月正式通過「歐盟網路與資訊安全局暨網路安全認證規則(EU Regulation on ENISA and Cyber Security Certification)(Regulation (EU) 2019/881)。規則新增歐盟網路與資訊安全局(European Union Agency for Network and Information Security,ENISA)之職責,負責推行「網路安全認證機制(European cybersecurity certification scheme)」。   網路安全認證機制旨在歐盟層面針對特定產品、服務及流程評估其網路安全。運作模式是將產品或服務進行分類,有不同的評估類型(如自行評估或第三方評估)、網路安全規範(如參考標準或技術規範)、預期的保證等級(如低、中、高),並給予相關之認證。為了呈現網路安全風險的程度,證明書上可以使用三個級別:低、中、高(basic,substantial,high)。若資訊安全事件發生時,對產品、服務及流程造成影響時,廠商應依據其產品或服務之級別採行相對應的因應對策。若被認證為高等級的產品,則表示已經通過最高等級的安全性測試。   廠商之產品或服務被認可後會得到一張認證書,使企業進行跨境交易時,能讓使用者更方便理解產品或服務的安全性,供應商間能在歐盟市場內進行良好的競爭,從而產生更好的產品及性價比。藉由該認證機制所產生的認證書,對於市場方將帶來以下之效益: 一、產品或服務的提供商(包括中小型企業和新創企業)和供應商:藉由該機制獲得歐盟證書,可以在成員國中提升競爭力。 二、公民和最終使用者(例如基礎設施的運營商):針對日常所需的產品和服務,能做出更明智的購買決策。例如消費者欲購買智慧家具,就可藉由ENISA的網路安全認證網站諮詢該產品網路安全資訊。 三、個人、商業買家、政府:在購買某產品或服務時,可以藉此機制讓產品或服務的資訊透明化,以做出更好的抉擇。

TOP