合成資料(synthetic data)

  「合成資料」(synthetic data)的出現,是為了保護原始資料所可能帶有的隱私資料或機敏資料,或是因法規或現實之限制而無法取得或利用研究所需資料的情況下,透過統計學方法、深度學習、或自然語言處理等方式,讓電腦以「模擬」方式生成研究所需之「合成資料」並進行後續研究跟利用,透過這個方法,資料科學家可以在無侵犯隱私的疑慮下,使合成資料所訓練出來的分類模型(classifiers)不會比原始資料所訓練出來的分類模型差。

  在合成資料的生成技術當中,最熱門的研究為運用「生成對抗網路」(Generative Adversarial Network, GAN)形成合成資料(亦有其他生成合成資料之方法),生成對抗網路透過兩組類神經網路「生成網路」(generator)與辨識網路(discriminator)對於不同真偽目標值之反覆交錯訓練之結果,使其中一組類神經網路可生成與原始資料極度近似但又不完全一樣之資料,也就是具高度複雜性與擬真性而可供研究運用之「合成資料」。

  英國國防科技實驗室(Defense Science and Technology Laboratory, DSTL)於2020年8月12日發布「合成資料」技術報告,此技術報告為DSTL委託英國航太系統公司(BAE Systems)的應用智慧實驗室(Applied Intelligence Labs, AI Labs)執行「後勤科技調查」(Logistics Technology Investigations, LTI)計畫下「資料科學與分析」主題的工作項目之一,探討在隱私考量下(privacy-preserving)「合成資料」當今技術發展情形,並提供評估技術之標準與方法。

  技術報告中指出,資料的種類多元且面向廣泛,包含數字、分類資訊、文字與地理空間資訊等,針對不同資料種類所適用之生成技術均有所不同,也因此對於以監督式學習、非監督式學習或是統計學方法生成之「合成資料」需要採取不同的質化或量化方式進行技術評估;報告指出,目前尚未有一種可通用不同種類資料的合成資料生成技術或技術評估方法,建議應配合研究資料種類選取合適的生成技術與評估方法。

本文為「經濟部產業技術司科技專案成果」

相關連結
相關附件
你可能會想參加
※ 合成資料(synthetic data), 資訊工業策進會科技法律研究所, https://stli.iii.org.tw/article-detail.aspx?no=67&tp=1&d=8532 (最後瀏覽日:2024/07/27)
引註此篇文章
你可能還會想看
巴西可能對美國非法補貼政策採取智慧財產報復行動

  為了報復美國非法補貼國內棉花業者,造成巴西的損失,巴西先是在3月初公布一份含102項美國產品之關稅調高名單,將在4月7日生效;在3月中旬又提出另外一份含21個項目的名單,包括中止(suspend)美國化學、醫藥、軟體、書籍和電影方面的專利權和智慧財產權,這份新的名單在公布後的未來20天,任何人都可以提出意見。   巴西的制裁措施是依據去年8月世界貿易組織(WTO)針對巴西和美國的貿易糾紛所作出的決定,WTO認為美國在1999年到2002年違法補貼其國內棉花業者,違反作為WTO成員所應遵守的義務,而給予巴西對美國進行8.29億美元的跨業報復(cross-sector retaliation)權利。   巴西政府估計3月初的調高進口關稅總值可達5.91億美元,3月中旬的智慧財產權報復行動可產生2.39億美元的衝擊。此外,如果3月中旬的制裁措施最後真的付諸實行,將會是WTO糾紛中第一次成功地利用智慧財產權作為報復手段的案例。   巴西政府希望藉由最新的報復手段可以迫使美國正視這個問題,美國貿易代表團則認為巴西此舉會帶來負面的先例影響,並且希望能和巴西政府協商共同解決這項議題,盡可能不使報復行動發生。

歐盟電子通訊市場之事前管制與界定

何謂「ERIC」?

  為加強歐盟及各成員國的研究基礎設施合作,從發展政策方面,於2002年成立「歐洲研究基礎設施策略論壇」(European Strategy Forum on Research Infrastructures, ESFRI)協助各會員國統籌規劃RIs(Research Infrastructures, RIs)的發展藍圖。在法律層面,於2009年通過「第723/2009號歐盟研究基礎設施聯盟法律架構規則」(COUNCIL REGULATION (EU) No 723/2009 of 25 June 2009 on the Community legal framework for European Research Infrastructure Consortium (ERIC),使各歐盟會員國、夥伴國家、非夥伴國家之第三國家或跨政府國際組織等對於分散的RIs整合起來後,可向歐盟執委會提出申請,依該號規則取得法律人格,成立「歐盟研究基礎設施聯盟」(European Research Infrastructure Consortium, ERIC),且可為權利得喪變更之主體,更可與他方簽訂契約或成為訴訟當事人,使其具有自我經營管理之能力。   截至目前為止(2015年9月),歐盟的RIs正式成立11個ERIC,並且透過國際間合作將RIs做更有效率之使用。國際上近年來創新研發競爭激烈,歐盟執委會為了持續推動建置世界級歐洲研究區域(European Research Area, ERA),無論在資金面、政策面及法律層面均有積極作為,在強化歐盟RIs同時促進國際科技研發合作,俾使歐盟於研發創新的領域保持世界領導之地位,歐盟未來仍會持續推動各個重要研發領域的ERIC,ERIC對於整合歐盟各國重大RIs負有重要使命。

歐盟公布數位單一市場下ICT標準化優先發展項目

  歐盟於2016年4月19日公布數位單一市場下ICT標準化優先發展項目(ICT Standardisation Priorities for the Digital Single Market),包括:5G通訊、雲端運算、智慧聯網、巨量資料技術、以及網路安全等,作為目前數位單一市場發展的基礎。相關影響產業包含:智慧健康、智慧能源、智慧運輸系統、電動車、智慧家居、以及智慧城市等。其三大主軸依次說明如下: 1. ICT標準建立為數位單一市場發展核心 歐盟將依1025/2012規則為基礎,進行標準化建立,因此將聚焦在數位單一市場需要發展的核心技術領域,優先進行標準訂定。 2. 因應全球技術變遷發展 ICT標準發展主要仍以產業為導向,且由產業自願性採納,建立之原則包括應具備透明性、開放、公平與一致性、有效與連結性等,此同時也能促成歐洲創新能量之發展。 3.以雙主軸計畫優先發展ICT標準設立 (1)首先歐盟執委會將確認數位單一市場優先發展之五項領域,並且設立發展時程。 (2)針對上述的優先發展領域,歐盟將進行施行檢視以及相關細項。   在5G通訊部分,預計將透過5G公私協力合作發展,同時以目前產業的需求為發展導向;在雲端運算方面,歐盟將以資金補助方式,促進雲端應用的互通性與易取性發展,並且支持企業,尤其在中小企業部分,以服務層級協議為基礎,協助採用雲端運算服務;在智慧聯網發展部分,主要為發展技術、介面、Open API等,建立準則,並預計將智慧聯網標準納入成為政府採購項目之一;在網路安全性部分,在上述發展技術領域當中,資料安全與隱私保護為核心議題,因此除了透過公司協力方式發展安全技術以外,同時也鼓勵業者應該設計著手保護隱私等概念優先納入技術之中;關於巨量資料技術部分,包括跨部門技術整合、資料與後設資料有更佳的互通性。此外,尚包括資料與軟體基礎設施服務,提供科學資料的交換、執行資料管理計畫、品質驗證、信賴性與透明性等原則。   最後,在可能受影響之產業方面,以智慧健康發展為例,智慧健康必須符合病人預期要求,如病人安全維護以及達到更佳的健康照護體系。因此,互通性的標準為當中關鍵的角色,未來亦有助於發展各國之間跨境醫療照護實踐。在電子病歷交換方面,從病人病歷摘要、電子處方簽等等,在符合個資保護條件之下,建立互通性標準可使疾病的治療更為完善。歐盟未來將持續鼓勵各會員國之間標準互通性之發展,包含目前行動健康應用程式的使用,以及未來遠距醫療應用。後續,歐盟將從2016年開始至2017年,持續針對標準建立進行討論會議,預計以資金費用補助以及其他政策方式輔導發展,同時也在2016年6月提出規劃說明使歐盟標準化政策發展符合現代化。

TOP