合成資料(synthetic data)

  「合成資料」(synthetic data)的出現,是為了保護原始資料所可能帶有的隱私資料或機敏資料,或是因法規或現實之限制而無法取得或利用研究所需資料的情況下,透過統計學方法、深度學習、或自然語言處理等方式,讓電腦以「模擬」方式生成研究所需之「合成資料」並進行後續研究跟利用,透過這個方法,資料科學家可以在無侵犯隱私的疑慮下,使合成資料所訓練出來的分類模型(classifiers)不會比原始資料所訓練出來的分類模型差。

  在合成資料的生成技術當中,最熱門的研究為運用「生成對抗網路」(Generative Adversarial Network, GAN)形成合成資料(亦有其他生成合成資料之方法),生成對抗網路透過兩組類神經網路「生成網路」(generator)與辨識網路(discriminator)對於不同真偽目標值之反覆交錯訓練之結果,使其中一組類神經網路可生成與原始資料極度近似但又不完全一樣之資料,也就是具高度複雜性與擬真性而可供研究運用之「合成資料」。

  英國國防科技實驗室(Defense Science and Technology Laboratory, DSTL)於2020年8月12日發布「合成資料」技術報告,此技術報告為DSTL委託英國航太系統公司(BAE Systems)的應用智慧實驗室(Applied Intelligence Labs, AI Labs)執行「後勤科技調查」(Logistics Technology Investigations, LTI)計畫下「資料科學與分析」主題的工作項目之一,探討在隱私考量下(privacy-preserving)「合成資料」當今技術發展情形,並提供評估技術之標準與方法。

  技術報告中指出,資料的種類多元且面向廣泛,包含數字、分類資訊、文字與地理空間資訊等,針對不同資料種類所適用之生成技術均有所不同,也因此對於以監督式學習、非監督式學習或是統計學方法生成之「合成資料」需要採取不同的質化或量化方式進行技術評估;報告指出,目前尚未有一種可通用不同種類資料的合成資料生成技術或技術評估方法,建議應配合研究資料種類選取合適的生成技術與評估方法。

本文為「經濟部產業技術司科技專案成果」

相關連結
相關附件
你可能會想參加
※ 合成資料(synthetic data), 資訊工業策進會科技法律研究所, https://stli.iii.org.tw/article-detail.aspx?d=8532&no=55&tp=5 (最後瀏覽日:2026/05/07)
引註此篇文章
你可能還會想看
日本《研究資料基盤整備與國際化戰略》報告書

  日本因應各先進國家近年於開放科學概念下,政府資助研發計畫研究資料管理及開放之倡議與制度化推展趨勢,內閣府於2015年提出開放科學國際動向報告書,並在第5期科學技術基本計畫與2019年統合創新戰略中規劃推動開放科學。上述政策就研究資料管理開放議題,擬定了資料庫整備、研究資料管理運用方針或計劃之制定、掌握相關人才培育與研究資料運用現況等具體施政方針。在此背景下,內閣府於2018年設置「研究資料基盤整備與國際化工作小組(研究データ基盤整備と国際展開ワーキング・グループ)」,持續檢討日本國內研究資料管理、共享、公開、檢索之基盤系統建構與政府制度、國家研究資料戰略與資料方針、國際性層級之推動方向等議題,在2019年10月據此作成《研究資料基盤整備與國際化戰略》(研究データ基盤整備と国際展開に関する戦略)報告書,形成相關政策目標。   本報告書所設定的政策目標採階段性推動,區分為短期目標與中長期目標。短期預計在2020年前,正式開始運用目前開發測試中之研究資料基盤雲端平台系統(NII Research Data Cloud, RDC),針對射月型研發計畫研擬並試行研究資料管理制度,建構詮釋資料(metadata)之集中檢索體系,並建立與歐洲開放科學雲(EOSC)之連結;中長期目標則規劃至2025年前,持續調適運用RDC,正式施行射月型研發計畫之研究資料管理制度,確立共享與非公開型研究資料之管理框架,蒐整管理資料運用現況之相關資訊,並逐步擴張建立與全球研究資料共享平台間之連結。

IMD世界人才評比

  瑞士洛桑管理學院(International Institute for Management Development, IMD)於2019年11月18日發布2019 年世界人才評比報告(The IMD World Talent Ranking 2019 results)。IMD作為全球最著名商學院之一,其所屬之世界競爭力研究中心(IMD World Competitiveness Center, WCC)透過收集數據以及分析相關政策結果,推進對世界競爭力的認知,包含每年出版年度世界競爭力排名(World Competitiveness Rankings)、世界數位競爭力報告(World Digital Competitiveness Ranking),和世界人才評比報告。   2019 年世界人才評比報告以「人才投資與發展」、「人才吸引力」和「人才整備度」(Readiness)為三大評比指標,評比63個經濟體。「人才投資與發展」衡量國家提供給人力之資源,「人才吸引力」評估吸引本地和外國人才的程度,「人才整備度」則評估人才技術及競爭品質。三大指標下再區分有32個細項,包含公共教育支出、師生比、在職訓練、女性勞動力、學徒制度、員工獎酬及紅利、個人所得稅率、職場環境健康等。   2019年之人才評比結果,前5名均為歐洲國家,依序為瑞士、丹麥、瑞典、奧地利及盧森堡。我國在全球排名20,亞洲排名第3,僅次新加坡(10)與香港(15),勝過排名分別為35和33的日韓兩國,為歷年來排名最佳。細項中,我國較為優勢的部分包括國際學生能力評鑑(PISA)排名第2、理工科畢業生比例全球第3、衛生健康環境全球第6等。

歐盟佐審官建議修正與加拿大之「航空乘客個人資料共享協議(草案)」,以維護人權

  歐洲聯盟法院(CJEU)佐審官 (Advocate General ) Paolo Mengozzi 於今年(2016) 9月8日提出一份不具拘束力之「航空乘客個人資料共享協議(草案)」( European Union on the transfer and processing of passenger name record data (“PNR Agreement”)) 法律意見,認為協議應遵守歐盟憲章有關人權之基本原則。此份法律意見為歐洲聯盟法院首次就國際協議草案,檢視與歐盟憲章有關規範之一致性。 [背景]   PNR協議草案於2010年5月開始協商,2014年6月25日簽署。主要以反恐為目的讓歐盟與加拿大交換航空乘客資訊(包括旅客姓名、旅行日期、行程記錄、機票、聯繫資訊、旅行社等其他有關資訊)。除加拿大之外,歐盟亦與美國、澳洲簽有類似資料共享協議。關注到PNR協議有關隱私、人權之議題,歐盟議會將PNR協議提至歐洲聯盟法院審議。 [法律意見]   佐審官認為,協議同意在特定條件下就限定目標之乘客蒐集其敏感資訊,未違反歐盟憲章;然PNR協議草案仍有部分內容違反歐盟憲章:即草案允許歐盟、加拿大主管機關使用乘客姓名等數據,已逾越預防恐怖組織犯罪和跨國犯罪的必要範圍。   因歐洲聯盟法院去年已廢除歐盟與美國之間之安全港(Safe Harbor)法案,隨後雖起草隱私保護協議(Privacy Shield),但仍有意見質疑隱私保護之完整性。PNR協議草案法律意見之提出,可窺歐盟關於隱私保護之立場。

美國強制電子通訊服務提供者保存用戶紀錄之立法提案引起強烈抨擊

  由美國共和黨所倡議的法案「Internet Stopping Adults Facilitating the Exploitation of Today's Youth Act of 2009」(S. 436,H.R. 1076),於今年2月13日交由參、眾兩院進行審議;鑒於網路色情危害青少年之問題相當嚴重,該法案訂定了加重色情犯罪刑度及其他數項保護措施,旨在減少網路色情對於兒童的危害。但其中一項措施要求電子通訊服務者、遠端電腦服務提供者,對於隨機配置之暫時性網路位置等相關可識別用戶身份的紀錄及資料,應保存至少兩年,引發業者及隱私權保護團體極大的反彈聲浪。   業者反彈的原因在於依據18 U.S.C §2510對於「電子通訊服務」(electronic communication service)之定義,係指「提供使用者接收、傳送有線或電子通訊的服務」,幾乎囊括所有類型的資通訊服務提供者;倘若法案通過,則如AT&T、Verizon電信業者、Comcast有線電視營運商、網路電話業者、提供Wi-Fi接取點服務者、及動態主機隨機配置IP位置之服務提供者等,未來皆須依規定負有保存記錄至少兩年的義務,將導致其儲存設備之成本大增。   此外,保衛隱私權團體大力抨擊此種無差別強制保存用戶特定紀錄的作法,形成潛在傷害隱私權的危機,若是保管不當而造成資料外洩、或資料遭不當使用,其受害規模將難以估算。由於業者及民間反彈聲浪相當大,參、眾兩院是否通過此法案,或做出若干調整,仍待後續觀察。

TOP