合成資料(synthetic data)

  「合成資料」(synthetic data)的出現,是為了保護原始資料所可能帶有的隱私資料或機敏資料,或是因法規或現實之限制而無法取得或利用研究所需資料的情況下,透過統計學方法、深度學習、或自然語言處理等方式,讓電腦以「模擬」方式生成研究所需之「合成資料」並進行後續研究跟利用,透過這個方法,資料科學家可以在無侵犯隱私的疑慮下,使合成資料所訓練出來的分類模型(classifiers)不會比原始資料所訓練出來的分類模型差。

  在合成資料的生成技術當中,最熱門的研究為運用「生成對抗網路」(Generative Adversarial Network, GAN)形成合成資料(亦有其他生成合成資料之方法),生成對抗網路透過兩組類神經網路「生成網路」(generator)與辨識網路(discriminator)對於不同真偽目標值之反覆交錯訓練之結果,使其中一組類神經網路可生成與原始資料極度近似但又不完全一樣之資料,也就是具高度複雜性與擬真性而可供研究運用之「合成資料」。

  英國國防科技實驗室(Defense Science and Technology Laboratory, DSTL)於2020年8月12日發布「合成資料」技術報告,此技術報告為DSTL委託英國航太系統公司(BAE Systems)的應用智慧實驗室(Applied Intelligence Labs, AI Labs)執行「後勤科技調查」(Logistics Technology Investigations, LTI)計畫下「資料科學與分析」主題的工作項目之一,探討在隱私考量下(privacy-preserving)「合成資料」當今技術發展情形,並提供評估技術之標準與方法。

  技術報告中指出,資料的種類多元且面向廣泛,包含數字、分類資訊、文字與地理空間資訊等,針對不同資料種類所適用之生成技術均有所不同,也因此對於以監督式學習、非監督式學習或是統計學方法生成之「合成資料」需要採取不同的質化或量化方式進行技術評估;報告指出,目前尚未有一種可通用不同種類資料的合成資料生成技術或技術評估方法,建議應配合研究資料種類選取合適的生成技術與評估方法。

本文為「經濟部產業技術司科技專案成果」

相關連結
相關附件
你可能會想參加
※ 合成資料(synthetic data), 資訊工業策進會科技法律研究所, https://stli.iii.org.tw/article-detail.aspx?d=8532&no=64&tp=1 (最後瀏覽日:2026/01/10)
引註此篇文章
你可能還會想看
政府資訊加值利用與管理法制研究:以美國及英國為例

日本公布「如何計算森林吸收的二氧化碳量」

  因應2021年10 月日本政府修訂的全球變暖對策計劃,訂立森林在2030年要達到3800萬噸的二氧化碳吸收量之目標,因此日本林業廳公布了「如何計算森林吸收的二氧化碳量」之方法,進一步展現森林吸收二氧化碳的功能,以提高民間企業和地方公共團體等公眾參與的植林、造林活動的意願,以及促進公眾對森林維護在全球暖化對策中的重要性認識。分別為下列三種計算方式: 森林一年吸收二氧化碳量的簡單計算方法   每1公頃森林一年吸收二氧化碳量=每公頃森林每年樹幹生長體積(m3/年·ha)×膨脹係數×(1+地下比率)×容積密度(t/m3)×碳含量×二氧化碳換算係數 林地復育增加森林吸收二氧化碳量的計算方法   因林地復育增加森林吸收二氧化碳量=有進行林地復育和沒有進行林地復育的森林估計累積量之差×膨脹係數×(1+地下比率)×容積密度(t/m3)×碳含量×二氧化碳換算係數 因種植森林土壤所維持之二氧化碳含量計算方法   因種植森林土壤所維持之二氧化碳含量=土壤平均碳累積量(tC/ha)×種植森林所保持的土壤量相關係數×種植森林之面積(公頃)×種植森林之年數×土壤流出時排放到大氣中的二氧化碳排放係數×二氧化碳換算係數   此份公告規範了日本未來如何計算森林吸收的二氧化碳量之方式,目前我國依據「國際氣候變遷專家委員會(IPCC)」建議公式,推估森林資源林木之碳貯存量,推估結果臺灣地區森林林木之碳貯存量約有754百萬公噸二氧化碳,每公頃平均碳存量約為每公頃378 公噸二氧化碳,對此亦可參考上述公式推算,以更了解我國的森林與碳管理關係。

美國和歐盟合作推動統一優良臨床試驗規範

  美國聯邦食品藥物管理局(U.S. Food and Drug Administration)和歐洲醫藥局(European Medicines Agency)在2009年7月31日共同公佈了一項名為優良臨床試驗行動(Good Clinical Practices Initiative)的合作計畫,期能藉由該計畫,使得不論是在美國或歐盟,所有臨床試驗之執行,都有遵守相同且適當的規範。   在醫藥品上市申請的實務中,因為大部份的醫藥品都會企圖向廣大的歐美市場扣關,同樣的臨床試驗通常也會分別提交到兩地的醫藥品上市許可申請程序中。故若兩地主管機關可以合作訂出統一的優良臨床試驗規範,則可避免因重複審查所造成的資源浪費,申請者也可以因為統一的規範而加速其在兩地審查的程序,且在跨國資訊交流整合下,也可為臨床試驗研究的參與者提供更好的安全基礎。   此次美國聯邦食品藥物管理局,和歐洲醫藥局合作之優良臨床試驗行動的幾個主要目標如下: 一、定期交換有關優良臨床試驗之實務操作資訊:交換的資訊包括(1)彼此的優良臨床試驗(Good Clinical Practices, GCP)查核計畫,以了解有那些臨床試驗或地點是對方會去查核的,就不需要重覆查核;(2)彼此受理的上市申請案件中,有關GCP的如科學上的建議或上市申請的結果等;以及(3)彼此執行GCP查核之結果。二、共同執行優良臨床試驗審查:藉此了解對方之GCP查核程序,並進而信賴彼此之程序,也藉由共同執行時之交流,提昇彼此查核之技巧,及精進查核之程序。 三、合作增進優良臨床試驗規範:藉由對彼此GCP相關法規、指導原則、和政策等的交流及了解,找出現有規範中可予以改進之處,以增進臨床試驗研究的品質。   自2009年9月1日起,此項合作行動將首先開始一個為期18個月的先期行動,在此先期行動結束後,兩主管機關將會共同發布一份包含其整體行動計畫,及雙方就各自既有法規或程序應予以調整部分。

美國於5月通過愛國者法案修正案

  美國參議院於今年(2020年)5月,通過了由共和黨領袖 Mitch McConnell 所提議主張,恢復《愛國者法案》(Patriot Act)中,原本應於今年3月失效的215條監控條款,該條款允許執法機構在沒有搜索令的情況下,取得人民的網路歷史瀏覽和搜尋紀錄。   此修正案授予聯邦調查局(FBI)及中央情報局(CIA)等執法機構權力,只要其認為該紀錄與犯罪調查有關並且在檢察總長的監督下,即可無須經過法官批准,獲取人民的網路歷史瀏覽和搜尋紀錄。此法案雖限制執法機構不得取得人民瀏覽和搜尋網頁的「內容」,但卻可以取得該歷史紀錄,而歷史紀錄中詳細記載了人民所瀏覽的網站及所輸入的關鍵字。   倡導隱私保護而反對此一法案的團體,認為政府在此法案的支持下,能夠藉由打擊恐怖主義、避免社會動亂、保護國家安全以及保護兒童等理由,對人民進行監視、侵害其隱私。反對者認為網路瀏覽和搜尋紀錄是美國人最敏感、最個人和最私密的部分,人們會把所想到的每一個想法都透過網路去搜尋,並且瀏覽相關網站,因此,獲取人民的網路瀏覽和搜尋紀錄即等同於了解其內心想法。此法案的反對者包含了兩黨的部分參議員、自由派公民團體「美國公民自由聯盟(American Civil Liberties Union)」以及保守派公民團體「繁榮美國(Americans for Prosperity)」,其認為並無任何證據能夠證明政府依《愛國者法案》所進行的大規模監管,得以拯救任何人的生命。   民主國家中,如何在犯罪追訴以及民主自由之間找到平衡,會是一個值得深究的問題。

TOP