合成資料(synthetic data)

  「合成資料」(synthetic data)的出現,是為了保護原始資料所可能帶有的隱私資料或機敏資料,或是因法規或現實之限制而無法取得或利用研究所需資料的情況下,透過統計學方法、深度學習、或自然語言處理等方式,讓電腦以「模擬」方式生成研究所需之「合成資料」並進行後續研究跟利用,透過這個方法,資料科學家可以在無侵犯隱私的疑慮下,使合成資料所訓練出來的分類模型(classifiers)不會比原始資料所訓練出來的分類模型差。

  在合成資料的生成技術當中,最熱門的研究為運用「生成對抗網路」(Generative Adversarial Network, GAN)形成合成資料(亦有其他生成合成資料之方法),生成對抗網路透過兩組類神經網路「生成網路」(generator)與辨識網路(discriminator)對於不同真偽目標值之反覆交錯訓練之結果,使其中一組類神經網路可生成與原始資料極度近似但又不完全一樣之資料,也就是具高度複雜性與擬真性而可供研究運用之「合成資料」。

  英國國防科技實驗室(Defense Science and Technology Laboratory, DSTL)於2020年8月12日發布「合成資料」技術報告,此技術報告為DSTL委託英國航太系統公司(BAE Systems)的應用智慧實驗室(Applied Intelligence Labs, AI Labs)執行「後勤科技調查」(Logistics Technology Investigations, LTI)計畫下「資料科學與分析」主題的工作項目之一,探討在隱私考量下(privacy-preserving)「合成資料」當今技術發展情形,並提供評估技術之標準與方法。

  技術報告中指出,資料的種類多元且面向廣泛,包含數字、分類資訊、文字與地理空間資訊等,針對不同資料種類所適用之生成技術均有所不同,也因此對於以監督式學習、非監督式學習或是統計學方法生成之「合成資料」需要採取不同的質化或量化方式進行技術評估;報告指出,目前尚未有一種可通用不同種類資料的合成資料生成技術或技術評估方法,建議應配合研究資料種類選取合適的生成技術與評估方法。

本文為「經濟部產業技術司科技專案成果」

相關連結
相關附件
你可能會想參加
※ 合成資料(synthetic data), 資訊工業策進會科技法律研究所, https://stli.iii.org.tw/article-detail.aspx?d=8532&no=64&tp=1 (最後瀏覽日:2026/01/28)
引註此篇文章
你可能還會想看
歐洲網路與資訊安全機構和歐洲標準化機構針對網路安全簽訂合作協議

  歐洲網路與資訊安全機構(European Network and Information Security Agency,簡稱ENISA)為了支持網路安全商品和服務進行標準化,於今年七月九日和歐洲標準化委員會(European Committee for Standardization,簡稱CEN)與歐洲電工技術標準化委員會(European Committee for Electrotechnical Standardization,簡稱CENELEC)共同簽署合作協議,來強化網路安全標準化的各項措施。   本合作協議的目的,在於能夠更有效地了解與解決網路和資訊安全標準化的議題,特別是處理和ENISA有所關連的不同訊息和通信技術(ICT)部門。本次簽署的合作協議,可視為是近來ENISA制定新法規的額外延伸,其將給予ENISA針對支持網路資訊安全(NIS)標準的發展,有更多積極的角色。本合作協議涉及的範圍包含下列情況:   ‧ENISA於識別技術委員會(identified technical committees)作為觀察人,CEN與CENELEC的工作小組與講習作為支持歐洲標準的準備   ‧CEN與CENELEC評估ENISA相關的研究成果,並且將其轉化成標準化活動   ‧ENISA參與或適當地擔當依據CEN-CENELEC內部規章所組成的相關技術委員會、工作小組與講習之主席   ‧散布和促進出版物、研究結果、會議或研討會之消息流通   ‧對於促進活動與因NIS標準相關工作之商業聯繫建立和研究網絡提供相互支持   ‧針對處理攸關NIS標準活動的科技和研究議題,舉辦各項局部工作小組、會議和研討會   ‧針對共同利益確定之議題作相關資訊交換   有鑑於ENISA逐漸強調NIS標準化的相關工作,標準化不僅能改善網路安全外,更能提高所有網路安全產品與服務當面對不同網路威脅時的防禦能力。是以,我國資安主管機關是否亦需協調所有資安部門,針對網路安全技術架構研擬或規劃出相關標準化的網路威脅防範模組,則是亟需思考的問題。

國家通訊傳播委員會第545次委員會議審議通過「因應數位匯流調整有線電視收費模式規劃」案

英國資訊委員辦公室(ICO)發布沙盒執行過程中所觀察到的關鍵議題

  2019年9月英國資訊委員辦公室(Information Commissioner's Office, ICO)啟動沙盒計畫(ICO Sandbox)測試階段(beta phase),由ICO所選10個測試專案,透過解決當今社會問題,例如如何減少暴力犯罪、大學如何促進學生的心理健康、新技術如何改善醫療保健等,期能促進公眾利益。   各專案在滿足創新性和可行性前提下,同時也面臨著複雜的資料保護議題,因此ICO持續與各專案溝通,提供其應用現有個資保護指引之建議,如歐盟一般資料保護規則之資料保護影響評估指導文件(Guide to the GDPR - Data protection impact assessment)、資料保護自我評估工具包(Data protection self-assessment toolkit)等。自2019年3月底開始(受理申請)迄今,ICO沙盒執行過程中所觀察到的關鍵議題如下: 公部門資料應用效益:部份參與者正在克服與公部門進行歷史資料共享,或是如何整合應用大數據等。個人資料與新技術應用,必須與資料主體的權利和自由進行權衡。 同意:確保各方對於「同意」(Consent)之理解,以弭平差異,同時向公眾提供透明資訊。 新技術的挑戰:應用語音生物辨識(voice biometrics)、臉部辨識技術(facial recognition technology, FRT)等,需要在適當基礎上處理特殊類別資料。 資料分析(Data analytics):以符合資料保護的方式進行資料分析,處理特殊類別資料的適法性,評估處理過程中的風險,並檢查可能用於資料分析的資料來源,確保符合目的之應用。   未來的6個月,ICO將持續與各專案合作,使其為有效的解決方案,為公眾提供創新合規之產品與服務,並成為未來結合資料保護和創新應用之規劃藍圖,以奠定隱私保護的基石。

日本人工智慧(AI)發展與著作權法制互動課題之探討

  日本著作權法第2條第1項第1款規定對著作物定義中,創作性之表現必須為具有個人個性之表現,日本對於無人類行為參與之人工智慧創作物,多數意見認定此種產品無個性之表現,非現行著作權法所保護之產物。人工智慧之侵權行為在現行法的解釋上,難以將人工智慧解釋其本身具有「法人格」,有關人工智慧「締結契約」之效力為「人工智慧利用人」與「契約相對人」間發生契約之法律效果。日本政府及學者對人工智慧之探討,一般會以人工智慧學習用資料、建立資料庫人工智慧程式、人工智慧訓練/學習完成模型、人工智慧產品四個區塊加以探討。日本政策上放寬著作權之限制,使得著作物利用者可以更加靈活運用。為促進著作之流通,在未知著作權人之情況下,可利用仲裁系統。在現今資訊技術快速成長的時代,面對人工智慧的浪潮,日本亦陸續推出相關人工智慧研發等方針及規範,對於爾後之發展值得參酌借鏡。

TOP