合成資料(synthetic data)

  「合成資料」(synthetic data)的出現,是為了保護原始資料所可能帶有的隱私資料或機敏資料,或是因法規或現實之限制而無法取得或利用研究所需資料的情況下,透過統計學方法、深度學習、或自然語言處理等方式,讓電腦以「模擬」方式生成研究所需之「合成資料」並進行後續研究跟利用,透過這個方法,資料科學家可以在無侵犯隱私的疑慮下,使合成資料所訓練出來的分類模型(classifiers)不會比原始資料所訓練出來的分類模型差。

  在合成資料的生成技術當中,最熱門的研究為運用「生成對抗網路」(Generative Adversarial Network, GAN)形成合成資料(亦有其他生成合成資料之方法),生成對抗網路透過兩組類神經網路「生成網路」(generator)與辨識網路(discriminator)對於不同真偽目標值之反覆交錯訓練之結果,使其中一組類神經網路可生成與原始資料極度近似但又不完全一樣之資料,也就是具高度複雜性與擬真性而可供研究運用之「合成資料」。

  英國國防科技實驗室(Defense Science and Technology Laboratory, DSTL)於2020年8月12日發布「合成資料」技術報告,此技術報告為DSTL委託英國航太系統公司(BAE Systems)的應用智慧實驗室(Applied Intelligence Labs, AI Labs)執行「後勤科技調查」(Logistics Technology Investigations, LTI)計畫下「資料科學與分析」主題的工作項目之一,探討在隱私考量下(privacy-preserving)「合成資料」當今技術發展情形,並提供評估技術之標準與方法。

  技術報告中指出,資料的種類多元且面向廣泛,包含數字、分類資訊、文字與地理空間資訊等,針對不同資料種類所適用之生成技術均有所不同,也因此對於以監督式學習、非監督式學習或是統計學方法生成之「合成資料」需要採取不同的質化或量化方式進行技術評估;報告指出,目前尚未有一種可通用不同種類資料的合成資料生成技術或技術評估方法,建議應配合研究資料種類選取合適的生成技術與評估方法。

本文為「經濟部產業技術司科技專案成果」

相關連結
相關附件
你可能會想參加
※ 合成資料(synthetic data), 資訊工業策進會科技法律研究所, https://stli.iii.org.tw/article-detail.aspx?d=8532&no=55&tp=5 (最後瀏覽日:2026/01/11)
引註此篇文章
你可能還會想看
研究顯示:主管機關審查是否核發奈米專利的時間越來越長

  專研奈米科技領域的美國顧問諮詢公司 Lux Research and Foley & Lardner LLP 最近公布的一份報告( Nanotech IP Battles Worth Fighting )指出,美國商標專利局( US PTO )在去( 2005 )年共核發 4,996 個奈米技術領域的專利,雖然這個數字挺嚇人的,不過報告中也發現,過去一年取得奈米專利的成長率只有 4 %,比起更前一年( 2004 )的 20 %的成長率,少了許多。然報告指出, 取得奈米專利保護的成長趨緩並不表示投入這個領域的研究不夠,相反地,若從專利申請案的數字來看, 2005 年的申請案數字其實成長了 52 %。而 US PTO 奈米專利的核發率成長有限的原因,主要是因為申請人所主張的保護範圍交疊重複( overlapping claims ),使 US PTO 審查奈米專利所需的時間,相較於其他技術領域來得更長,平均而言,目前 US PTO 核發一項奈米專利所需的審查時間竟高達四年。   這項報告總共檢視了 2,738 個專利,涵蓋七類申請領域共計 52,148 個權利範圍的主張。報告總結,在電子領域中有關 carbon nanotube 及 quantum dot 之專利申請案,多數為脆弱的專利主張,有面臨法律訴訟的高度風險,若發生侵權訴訟,被告應該勇於進行訴訟防禦;而奈米材料由於市場潛力極大,故報告建議投入於專利搜尋或佈局之檢視,乃必要之成本。此外,報告也認為陶瓷奈米元件( ceramic nanoparticles )於能源領域的應用也極具發展潛力,並預期奈米電線( Nanowires )於電 子領域之應用將越來越受到重視。   不過,報告最後警告, patent trolls 的問題將會出現在奈米技術市場。所謂的 patent trolls 是指企業寧願花錢收購專利並透過授權收取權利金,也不願意自行投入研發的一種決策模式,此類企業通常是不負責實際商品交易的控股公司。

美國聯邦地方法院撤銷農業部對基因改造甜菜根之同意案

  今(2010)年8月中,美國聯邦地方法院法官Jeffrey S. White撤銷了美國農業部(United States Department of Agriculture,簡稱USDA)對基因改造甜菜根(genetically modified sugar beets)之同意案,並發出非永久性之禁制令(non-permanent injunction),從2011年開始禁止商業種植基因改造甜菜根。   事實上,早在去(2009)年由多個環保與消費者團體所提起的訴訟中,White法官即已認定美國農業部並未適切地評估商業化種植基因改造甜菜根所可能帶來的生態影響,特別是遠血緣繁殖(out-crossing)的風險,因此,該同意案實已違反國家環境政策法(National Environmental Policy Act,簡稱 NEPA)之規定,但當時法院並未具體指明補救之辦法;在今年8月上旬的聽證會結束後,White法官認為原告已充分闡明基因改造甜菜根可能對環境造成「無可修補之傷害」,在考量到可能造成之經濟影響後,聯邦地方法院特意裁定允許農民仍可按期收穫尚在成長中之基因改造甜菜根,直至2011年春季始完全禁止。然而,美國農業部則是初步回應,他們打算在明年准許基因改造甜菜根在受到控制的情況下有限度地栽種,持續地努力讓傳統、有機與生物科技生產系統得以共存。   由甜菜根所製取的(食用)糖,大約供應了美國國內50%的需求;其中,從2007年開始種植的基因改造甜菜根,其耕地面積在2010年時已達470,000公頃,佔全美甜菜根收成總數的95%之譜!本案深刻地點出基因改造生物體(Genetically Modified Organism,簡稱GMO)所涉及之安全風險與經濟效益的衡平問題,後續所引發的討論值得我們追蹤下去。

英國「數位紅利」頻譜管理政策簡介

聯合國人權高級專員辦公室發布《數位時代隱私權》調查報告

  聯合國人權高級專員辦公室(Office of the United Nations High Commissioner for Human Rights, OHCHR)於2021年9月15日發布《數位時代隱私權》(The Right to Privacy in The Digital Age)調查報告,分析各種人工智慧技術,例如側寫(profiling)、自動化決策及機器學習,將如何影響人民之隱私或其他權利,包括健康權、教育權、行動自由、言論自由或集會結社自由等,並提出對國家與企業應如何因應之具體建議。 一、針對國家與企業使用人工智慧之共同建議:在整個人工智慧系統生命週期中,包括設計、開發、部署、銷售、取得(obtain)或運營,應定期進行全面的人權影響評估(comprehensive human rights impact assessments),提高系統使用透明度與可解釋性,並應充分通知公眾與受影響之個人其正在使用人工智慧進行決策。 二、針對國家使用人工智慧之建議:應確保所有人工智慧的使用符合人權,明確禁止並停止販售不符合國際人權法運作之人工智慧應用程序。在證明使用該人工智慧系統能遵守隱私及資料保護標準,且不存在重大準確性問題及產生歧視影響之前,應暫停在公共場所使用遠端生物識別技術。並盡速立法及建立監管框架,以充分預防和減輕使用人工智慧可能造成不利人權的影響,以及確保在侵犯人權時能夠有相關之補救措施。 三、針對企業使用人工智慧之建議:應盡力履行維護人權之責任,建議實施商業與人權指導原則(Guiding Principles on Business and Human Rights),並打擊(combat)人工智慧系統開發、銷售或運營相關的歧視,進行系統評估與監測,以及設計有效的申訴機制。

TOP