合成資料(synthetic data)

  「合成資料」(synthetic data)的出現,是為了保護原始資料所可能帶有的隱私資料或機敏資料,或是因法規或現實之限制而無法取得或利用研究所需資料的情況下,透過統計學方法、深度學習、或自然語言處理等方式,讓電腦以「模擬」方式生成研究所需之「合成資料」並進行後續研究跟利用,透過這個方法,資料科學家可以在無侵犯隱私的疑慮下,使合成資料所訓練出來的分類模型(classifiers)不會比原始資料所訓練出來的分類模型差。

  在合成資料的生成技術當中,最熱門的研究為運用「生成對抗網路」(Generative Adversarial Network, GAN)形成合成資料(亦有其他生成合成資料之方法),生成對抗網路透過兩組類神經網路「生成網路」(generator)與辨識網路(discriminator)對於不同真偽目標值之反覆交錯訓練之結果,使其中一組類神經網路可生成與原始資料極度近似但又不完全一樣之資料,也就是具高度複雜性與擬真性而可供研究運用之「合成資料」。

  英國國防科技實驗室(Defense Science and Technology Laboratory, DSTL)於2020年8月12日發布「合成資料」技術報告,此技術報告為DSTL委託英國航太系統公司(BAE Systems)的應用智慧實驗室(Applied Intelligence Labs, AI Labs)執行「後勤科技調查」(Logistics Technology Investigations, LTI)計畫下「資料科學與分析」主題的工作項目之一,探討在隱私考量下(privacy-preserving)「合成資料」當今技術發展情形,並提供評估技術之標準與方法。

  技術報告中指出,資料的種類多元且面向廣泛,包含數字、分類資訊、文字與地理空間資訊等,針對不同資料種類所適用之生成技術均有所不同,也因此對於以監督式學習、非監督式學習或是統計學方法生成之「合成資料」需要採取不同的質化或量化方式進行技術評估;報告指出,目前尚未有一種可通用不同種類資料的合成資料生成技術或技術評估方法,建議應配合研究資料種類選取合適的生成技術與評估方法。

本文為「經濟部產業技術司科技專案成果」

相關連結
相關附件
你可能會想參加
※ 合成資料(synthetic data), 資訊工業策進會科技法律研究所, https://stli.iii.org.tw/article-detail.aspx?d=8532&no=55&tp=5 (最後瀏覽日:2025/12/11)
引註此篇文章
你可能還會想看
綠色經濟草案(Green New Deal Resolution)簡介

一、立法背景   由於美國國家海洋暨大氣總署(National Oceanic and Atmospheric Administration,縮寫NOAA)於2018年間發布關於氣候變遷將導致經濟發展受到影響之相關報告,同時間,美國最高法院拒絕駁回2015年由21位民眾及美國Our Children’s Trust(非政府組織)對聯邦政府所提起之訴訟,主張美國政府並未循正當法律程序,即鼓勵對環境保護傷害甚鉅之石化能源開發。因此聯合國人權暨環境特別報告(UN Special Rapporteur on human rights and the environment)呼籲各國盡快針對環境變遷採取相關行動,美國國會議員Ed Markey及Alexandria Ocasio-Cortez遂基於上述情事於2019年2月7偕同提出綠色經濟草案(下稱本草案)。 二、草案簡介   所謂綠色經濟,是因應全球經濟危機、氣候變遷、石油資源枯竭而提出,其內容包括金融及租稅政策的重建以及再生能源的運用,初始概念於2007年由一位記者刊載於時代雜誌與紐約時報,後相關倡議人士遂依此成立非政府組織The Green New Deal Group,並於2008年廣泛發行相關刊物。 三、草案內容   本草案賦予政府五大義務:溫室氣體零排放、創造百萬高薪工作機會、投資基礎設施及工業、永續環境(諸如確保空氣、水質、氣候、食品之安全、韌性社區之推動)、反壓迫等,且內容上更將前開義務再行細分為14項目標計畫,並訂定10年執行期間。   上揭14項目標計畫的內容大致可分為五類,分別為:提升基礎設施以因應各種氣候變遷所造成之災害、將政府所需能源全數轉換為零碳排放、提升電力及能源效率、消除製造業與農業所造成之汙染與溫室氣體的排放,另外亦全面將大眾運輸設施改建為高速及零碳排放系統。   為達成前述14項目標,本草案一共訂定15項須政府配合之細項,方向上包括:給予社區、組織、機關、地方政府及各法人相關協助、提供適切之訓練課程及高等教育、針對新興科技之研究與開發進行投資、提高家庭所得及保障各級勞工組織工會之權利、提供全民高品質之健康照護。

中國大陸於最高人民法院內新設立知識產權法庭

  近期美國與中國大陸雙方針對貿易問題展開激烈攻防,起因為美國冀望透過「貿易戰」扭轉中美龐大的貿易逆差,而其中一個主要爭議點即為中國大陸日趨嚴重之侵權仿冒等問題。   中國大陸於第十三屆全國人大常委會表決通過最高人民法院提請審議的《關於專利等案件訴訟程式若干問題的決定》,批准最高人民法院設立知識產權法庭,主要審理專利等專業技術性較強的知識產權民事及行政上訴案件,以達成知識產權案件審理專門、集中及人員專業化之目的,提供更為專業之司法服務及保障。由最高人民法院知識產權法庭統一審理發明和實用新型專利為主之上訴案件,有利於對中外企業知識產權之保護,實現知識產權效力判斷與侵權判斷兩大訴訟程式和裁判標準的對接,以利解決機制上之裁判尺度不一問題,提高知識產權審判品質效率,提升司法公信力。   值得注意的是,最高人民法院知識產權法庭審理之案件,僅以不服知識產權一審判決、裁定中發明和實用新型專利等案件,其他上訴案件,仍由智慧財產權法院所在地的高級人民法院審理。中國大陸最高人民法院院長周強表示,知識產權法庭之設立,宣示平等保護中外市場主體知識產權,該知識產權法庭並不會處理與不正當競爭、商標或營業秘密有關之案件。

澳洲立法強制Google及Facebook向媒體業者支付合理費用

  2020年4月20日澳洲政府要求澳洲競爭及消費者委員會(Australian Competition and Consumer Commission, ACCC)草擬強制性行為準則,以解決澳洲新聞媒體業者與數位平台(特別是Google及Facebook)間不對等的議價地位問題,由於2019年ACCC曾嘗試讓Google、Facebook自願與業者議價,並訂定相關程序準則,但事後成效不彰。為因應政府要求,ACCC於同年7月31日公布一份行為準則草案,「2020年修正草案—新聞媒體與數位平台強制性議價守則」(TREASURY LAWS AMENDENT (NEWS MEDIA AND DIGITAL PLATFORMS MANDATORY BARGAINING CODE) BILL 2020)。   此行為準則允許新聞媒體業者各自或集體向數位平台協議使用新聞內容的合理費用,請求費用的媒體公司至少須符合最低的編輯專業標準,並保持編輯獨立性,且每年營收須超過15萬澳元。雖然目前草案只適用於Google及Facebook,但未來也可能有其他數位平台列入適用範圍。   澳洲財政部長Josh Frydenberg表示,此準則設立的目的,是為了保護媒體公司著作內容的原創性,並確保業者能獲得合理的報酬,若Google及Facebook三個月內,無法與媒體公司達成報酬協議,將命仲裁員做出具有約束力的決定,違反規定者將會被裁處1000萬澳元的罰款。   此草案公布後,預計於8月28日完成磋商審議程序,並向議會提出最終草案版本,經議會通過後正式生效。由ACCC負責執行並管理該準則,而新聞媒體業者的資格則由澳洲通信媒體管理局(The Australian Communications and Media Authority)認定之。

Google挑戰法國最高行政法院對被遺忘權之看法

  2016年3月法國個人資料保護主管機關「國家資訊自由委員會」(Commission Nationale de l'Informatique et des Libertés, CNIL)要求Google等搜尋引擎公司,刪除網路搜尋所出現之歐洲公民姓名。此舉參考2014年歐洲法院(European Court of Justice)對於Mario Costeja González一案(C 131/12)所作裁決,Google公司和Google西班牙公司須遵守西班牙資料保護局(Agencia Española de Protección de Datos, AEPD)要求,移除出現原告姓名之搜尋結果。Google表示不服,並上訴法國最高行政法院(Conseil d'État)。   於本案中Google提出兩點主張:第一,CNIL對於被遺忘權(right to be forgotten)適用範圍過大,聲稱所搜尋到之姓名等資訊,屬於事實或來自新聞報導和政府網站之合法公開網站資訊,認為CNIL將隔絕原本在法國可為其他人所知之合法資訊;第二,Google主張向來遵守各國個人資料保護政策,將遵照CNIL要求,但僅限刪除在法國網域內之歐洲公民姓名,無法及於全球網域,除非法國政策已為全歐盟或全球所適用,不然法國個人資料保護審查制度不能延伸至其他國家。   對於網路公民權利推廣不遺餘力之「電子前線基金會」(Electronic Frontier Foundation, EFF)認為CNIL對法國公民資料保護之特別要求,將對Google造成損害。

TOP