合成資料(synthetic data)

  「合成資料」(synthetic data)的出現,是為了保護原始資料所可能帶有的隱私資料或機敏資料,或是因法規或現實之限制而無法取得或利用研究所需資料的情況下,透過統計學方法、深度學習、或自然語言處理等方式,讓電腦以「模擬」方式生成研究所需之「合成資料」並進行後續研究跟利用,透過這個方法,資料科學家可以在無侵犯隱私的疑慮下,使合成資料所訓練出來的分類模型(classifiers)不會比原始資料所訓練出來的分類模型差。

  在合成資料的生成技術當中,最熱門的研究為運用「生成對抗網路」(Generative Adversarial Network, GAN)形成合成資料(亦有其他生成合成資料之方法),生成對抗網路透過兩組類神經網路「生成網路」(generator)與辨識網路(discriminator)對於不同真偽目標值之反覆交錯訓練之結果,使其中一組類神經網路可生成與原始資料極度近似但又不完全一樣之資料,也就是具高度複雜性與擬真性而可供研究運用之「合成資料」。

  英國國防科技實驗室(Defense Science and Technology Laboratory, DSTL)於2020年8月12日發布「合成資料」技術報告,此技術報告為DSTL委託英國航太系統公司(BAE Systems)的應用智慧實驗室(Applied Intelligence Labs, AI Labs)執行「後勤科技調查」(Logistics Technology Investigations, LTI)計畫下「資料科學與分析」主題的工作項目之一,探討在隱私考量下(privacy-preserving)「合成資料」當今技術發展情形,並提供評估技術之標準與方法。

  技術報告中指出,資料的種類多元且面向廣泛,包含數字、分類資訊、文字與地理空間資訊等,針對不同資料種類所適用之生成技術均有所不同,也因此對於以監督式學習、非監督式學習或是統計學方法生成之「合成資料」需要採取不同的質化或量化方式進行技術評估;報告指出,目前尚未有一種可通用不同種類資料的合成資料生成技術或技術評估方法,建議應配合研究資料種類選取合適的生成技術與評估方法。

本文為「經濟部產業技術司科技專案成果」

相關連結
相關附件
你可能會想參加
※ 合成資料(synthetic data), 資訊工業策進會科技法律研究所, https://stli.iii.org.tw/article-detail.aspx?d=8532&no=0&tp=5 (最後瀏覽日:2026/01/07)
引註此篇文章
你可能還會想看
英國醫學總會新指南 提醒醫師在保護病患隱私權和保護可能具有共同基因者健康之間做出衡平

  英國醫學總會(General Medical Council, GMC)在2009年9月公佈了一份有關醫師保密義務的指南(Guidance for doctors - Confidentiality),該指南針對基因檢測資訊的部份指出,病患的基因資訊和一些其他的資訊,有時也會是和病患擁有共同基因或其它連結的其他人的資訊,因為,在病患身上所診斷出來的因有缺陷基因所造成的疾病,可能也就指出了和病患有血緣關係的親屬的發病可能性,或甚至是幾乎可以確定他們未來也會發病。此時,醫師要提醒病患應該立即通知也有可能有此有缺陷基因的親屬,以期能夠協助那些親屬接受預防治療或作更進一步的檢查,對潛在的健康問題有所準備。   然而,若是病患表示了反對的意思,例如病患是來自一個破碎的家庭,和親屬的關係並不良好,或是基於其它個人的理由,所以不願意告知親屬相關有缺陷基因的風險時,則指南提醒醫師應該要自行衡量身為醫師對於保護病患所需遵守的義務,以及協助保護他人免於嚴重傷害兩者之間孰輕孰重。此外,若經過醫師的判斷之後,決定要向那些親屬告知他們所可能面對的健康風險時,醫師必須要採行不會透露病患身份的方式為之。   當然此種基因檢測資訊的通知,引起了正反兩極的評價,反對者主張此舉將嚴重侵害病患隱私權,也可能損害了醫師與病患間資訊保密的原理原則。唯贊成者則指出,許多的基因疾病,如亨丁頓舞蹈症、囊狀纖維化(Cystic fibrosis)、血友病(Haemophilia)、及乳癌(Breast cancer)等,都有著極高的遺傳性及致死率,透過此一機制所能達到的早期警告的效果,或可使得帶有相同有缺陷基因的病患親屬,能夠對潛在的健康問題及早有所準備。且若該等親屬正要或未來要透過試管嬰兒取得下一代時,亦可在執行試管嬰兒的程序中進行篩檢,防止下一代的人生繼續遭受此種有缺陷基因所帶來的疾病。

歐盟倡議「邁向資料經濟時代」政策,規劃巨量資料Big Data發展策略

  2014年7月歐盟執委會針對巨量資料規劃新的政策,提出「邁向資料經濟時代」(Towards a thriving data-driven economy)政策,對研究發展帶來激勵,創造更多的商業機會。先前在2010年至2015年巨量資料科技與服務市場觀察報告中,指出預期巨量資料科技複合成長率為40%。從這些國際趨勢觀察,智慧聯網與巨量資料涉及的領域包括健康、食品安全、氣候與能源資源、智慧運輸系統以及智慧城市等,而這些都是當前歐洲無法忽略的問題。因此,此政策中指出應支持重點資料來促進公共服務與市民生活的競爭力與品質,廣泛分享使用並發展公開資料資料以及研究資料、確認相關的法律架構與政策屬有利發展、利用政府採購將資料科技帶入市場等項重點,以促成資料驅動經濟的全球化發展。   歐盟指委會並指出,推動巨量資料政策的施行尚仰賴於其他的行動計畫以及各個會員國之間的合作 。而在資料蒐集與利用逐漸擴張的情形下,歐盟執委會更於2014年7月2日發出聲明,要求各國政府應重視巨量資料帶來的問題,並且指出在巨量資料的公共諮詢中,有主要四個問題: (1)缺乏跨境的合作(2)未具有充分設施以及資金資助機會(3)缺乏資料專家以及相關技術(4)法規範過於零散且複雜。因此,歐盟執委會提出以下幾點,有助於問題的解決: 1. 透過公私營合作制度資助巨量資料發展,特別是在個人醫療領域上的應用。 2. 在Horizon 2020架構下,設立巨量資料中心,將以資料為基礎,將之與雲端使用構成供給鏈,藉此幫助中小企業。 3. 當透過智慧聯網,及機器與機器間通訊取得資料時,應針對資料所有權以及責任規範建立新的準則。 4. 建構資料標準,找出潛在的缺漏。 5. 建立一系列超級運算中心,增加歐洲資料專家。 6. 在不同會員國建立資料處理設施之聯結網絡 。   歐盟執委會希望能於上述各項政策推動下,共同建立有助資料經濟發展基礎架構及環境,並鼓勵產業界共同投入巨量資料的應用發展。

美國聯邦貿易委員會(FTC)提議加強兒童隱私規則,以進一步限制企業將兒童的資訊用來營利

美國聯邦貿易委員會(Federal Trade Commission, FTC)於2023年12月對《兒童線上隱私保護規則》(Children's Online Privacy Protection Rule, COPPA Rule)提出修法草案,並於2024年1月11日公告60日供公眾意見徵詢。 FTC依據兒童線上隱私保護法(Children's Online Privacy Protection Act, COPPA)第6502節授權,訂定COPPA Rule,並於2000年通過生效,要求網站或提供線上服務的業者在蒐集、使用或揭露13歲以下兒童的個人資訊之前必須通知其父母,並獲得其同意。本次提議除了限制兒童個人資訊的蒐集,亦限制業者保留此些資訊的期間,並要求他們妥善保存資料,相關規定如下: (1)置入固定式廣告時需經認證:COPPA所涵蓋的網站和線上服務業者現在需要獲得兒童父母的同意並取得家長的授權才能向第三方(包括廣告商)揭露資訊,除非揭露資訊是線上服務所不可或缺之部分。且因此獲悉的兒童永久身分識別碼(persistent identifier)也僅止於網站內部利用而已,業者不能將其洩漏予廣告商以連結至特定個人來做使用。 (2)禁止以蒐集個資作為兒童參與條件:在蒐集兒童參與遊戲、提供獎勵或其他活動的個資時,必須在合理必要的範圍內,且不能用個資的蒐集作為兒童參與「活動」的條件,且對業者發送推播通知亦有限制,不得以鼓勵上網的方式,來蒐集兒童的個資。 (3)將科技運用於教育之隱私保護因應:FTC提議將目前教育運用科技之相關指南整理成規則,擬訂的規則將允許學校和學區授權教育軟硬體的供應商將科技運用於蒐集、使用和揭露學生的個資,但僅限使用於學校授權之目的,不得用於任何商業用途。 (4)加強對安全港計畫的說明義務:COPPA原先有一項約款,內容是必須建立安全港計畫(Safe Harbor Program),允許行業團體或其他機構提交自我監督指南以供委員會核准,以執行委員會最終定案的防護措施,此次擬議的規則將提高安全港計畫的透明度和說明義務,包括要求每個計畫公開揭露其成員名單並向委員會報告附加資訊。 (5)其它如強化資訊安全的要求以及資料留存的限制:業者對於蒐集而來的資訊不能用於次要目的,且不能無限期的留存。 FTC此次對COPPA Rule進行修改,對兒童個人資訊的使用和揭露施加新的限制,除了將兒童隱私保護的責任從孩童父母轉移到供應商身上,更重要的是在確保數位服務對兒童來說是安全的,且亦可提升兒童使用數位服務的隱私保障。

英國資訊委員會(ICO):企業應用巨量資料技術時可能得以合法權益為由處理個人資料

  英國資訊委員會(Information Commissioner’s Office, 以下簡稱ICO)最近對於2014年「巨量資料與個資隱私保護報告」(Big Data and Data Protection)進行公眾意見徵集。其中有意見認為ICO過度聚焦於以取得資料當事人同意為前提,才得以進行巨量資料統計分析技術應用;且未充分認知當資料控制者(企業或組織)具合法權益(legitimate interest)時,可能得以處理個人資料的可能。意者並進一步建議當資料控制者(企業或組織)符合合法權益時,應可將個人資料用於新用途,強調這種依據合法權益所進行之資料處理,應著重於該資料控制者(企業或組織)對於個人資料的責任(accountability),而非各別取得資料當事人的同意。   對此,ICO回覆,認為巨量資料統計分析技術的應用,應在資料控制者(企業或組織)的合法權益、與資料當事人的權利、自由與合法權益間,取得平衡。依據歐盟資料保護指令(Data Protection Directive)與英國資料保護法(Data Protection Act)的規定,資料控制者(企業或組織)得於具法定依據時,處理個人資料,例如取得個資當事人的同意處理其個人資料,或資料控制者(企業或組織)具法定義務處理個人資料(例如法院命令)。除此之外,企業或組織還可以主張於其對於個人資料具合法權益(legitimate interest),主張進一步處理個人資料(新用途),除非資料處理對於資料當事人的權利、自由與合法權益造成過份偏頗(unduly prejudice)的損害。ICO亦同意,資料的應用應著重監督資料控制者(企業或組織)與加強其責任(accountability)。   ICO除再度闡明在「巨量資料與個資隱私保護報告」,資料控制者(企業或組織)必須公平且通透(transparent)地處理個人資料,對於當資料控制者(企業或組織)發現個人資料的新用途時,亦明列出得依據先前所取得之資料當事人的同意進行個人資料的各種情況。   ICO建議,資料控制者(企業或組織)應當先行檢視資料當事人是否確實同意其個人資料的處理,或該資料控制者具處理個人資料之其法定依據。再者,如果不具上述二者之一,資料控制者(企業或組織)若需將使用個人資料於新用途,則必須另行取得資料當事人的同意,始得為之。此時,必須同時評估為了新用途所為之個人資料處理,是否與資料蒐集之特定目的相容(compatible)。   至於,判斷新用途是否與個人資料蒐集與處理之特定目的相容,部分取決於個人資料處理是否公平(fair)。這意味著資料控制者(企業或組織)必須對於為新用途所為之個資處理,提出對於資料當事人隱私影響之評估,以及該個資的使用與處理,是否仍合於資料當事人的合理期待。

TOP