合成資料(synthetic data)

  「合成資料」(synthetic data)的出現,是為了保護原始資料所可能帶有的隱私資料或機敏資料,或是因法規或現實之限制而無法取得或利用研究所需資料的情況下,透過統計學方法、深度學習、或自然語言處理等方式,讓電腦以「模擬」方式生成研究所需之「合成資料」並進行後續研究跟利用,透過這個方法,資料科學家可以在無侵犯隱私的疑慮下,使合成資料所訓練出來的分類模型(classifiers)不會比原始資料所訓練出來的分類模型差。

  在合成資料的生成技術當中,最熱門的研究為運用「生成對抗網路」(Generative Adversarial Network, GAN)形成合成資料(亦有其他生成合成資料之方法),生成對抗網路透過兩組類神經網路「生成網路」(generator)與辨識網路(discriminator)對於不同真偽目標值之反覆交錯訓練之結果,使其中一組類神經網路可生成與原始資料極度近似但又不完全一樣之資料,也就是具高度複雜性與擬真性而可供研究運用之「合成資料」。

  英國國防科技實驗室(Defense Science and Technology Laboratory, DSTL)於2020年8月12日發布「合成資料」技術報告,此技術報告為DSTL委託英國航太系統公司(BAE Systems)的應用智慧實驗室(Applied Intelligence Labs, AI Labs)執行「後勤科技調查」(Logistics Technology Investigations, LTI)計畫下「資料科學與分析」主題的工作項目之一,探討在隱私考量下(privacy-preserving)「合成資料」當今技術發展情形,並提供評估技術之標準與方法。

  技術報告中指出,資料的種類多元且面向廣泛,包含數字、分類資訊、文字與地理空間資訊等,針對不同資料種類所適用之生成技術均有所不同,也因此對於以監督式學習、非監督式學習或是統計學方法生成之「合成資料」需要採取不同的質化或量化方式進行技術評估;報告指出,目前尚未有一種可通用不同種類資料的合成資料生成技術或技術評估方法,建議應配合研究資料種類選取合適的生成技術與評估方法。

本文為「經濟部產業技術司科技專案成果」

相關連結
相關附件
你可能會想參加
※ 合成資料(synthetic data), 資訊工業策進會科技法律研究所, https://stli.iii.org.tw/article-detail.aspx?d=8532&no=645&tp=5 (最後瀏覽日:2026/02/18)
引註此篇文章
你可能還會想看
美國衛生及公共服務部「曲速行動」透過公私合作夥伴加速COVID-19疫苗研發

  美國衛生及公共服務部(Department of Health and Human Services, HHS),於2020年6月16日提出「曲速行動(Operation Warp Speed)」,目標是在2021年1月前,提供3億劑具安全有效性的COVID-19疫苗,給所有美國人民使用。參與行動的政府夥伴,包括國家衛生研究院(National Institutes of Health, NIH)、食品藥品監督管理局(U.S. Food and Drug Administration, FDA)、疾病預防管制中心(Centers for Disease Control and Prevention);與多家製藥公司包含嬌生、默克、輝瑞、Moderna、AstraZeneca等,簽訂研究製造及保證收購疫苗的競爭型補助協議,直接由政府需求主導疫苗藥劑的研發、生產與銷售,藉此滿足國家防疫的戰略需求。   曲速行動為政府部門及公私夥伴間的合作計畫,依據美國國會通過《新冠病毒援助、救濟和經濟安全法》(Coronavirus Aid, Relief, and Economic Security, CARES Act),計畫補助資金達100億美元,其中超過65億美元用於生物醫學高階研究和發展管理局(Biomedical Advanced Research and Development Authority, BARDA),30億美元用於NIH研究。公私夥伴合作項目包括:「加速研發新冠病毒藥物及疫苗計畫」(Accelerating COVID-19 Therapeutic Interventions and Vaccines, ACTIV)、「快速診斷技術計畫」(Rapid Acceleration of Diagnostics Tech program, RADx)等。   曲速行動從100多種疫苗中先行選出14種候選疫苗,由美國政府補助,進行早期臨床實驗,再分次篩選出最具潛力者,進行大規模檢測。透過公私夥伴合作,不僅成功帶動製藥廠商積極研發,也協助候選廠商間彼此競爭、提升製藥能力,進一步反饋研究經驗給最終產出的疫苗成果。

德國聯邦資訊技術,電信和新媒體協會針對AI及自動決策技術利用提出建議指南

  德國聯邦資訊技術,電信和新媒體協會於2018年2月6日在更安全的網路研討會中針對利用人工智慧及自動決策技術利用提出建議指南(Empfehlungen für den verantwortlichen Einsatz von KI und automatisierten Entscheidungen),旨在提升企業數位化與社會責任,並提升消費者權益保護。 本份指南提出六項建議: 促進企業內部及外部訂定相關準則 例如規定公司在利用演算法和AI時,必須將影響評估列入開發流程,並列為公司應遵守的道德倫理守則,以確保開發的產品或服務符合公平及道德。 提升透明度 使用者如有興趣了解演算法及其含義,企業應協助調查並了解使用者想獲知的訊息,並透過相關訊息管道提升產品及服務透明度。因此,企業應努力使演算法及其操作和含義能夠被使用者理解。此亦涉及即將實施的歐盟一般資料保護規則中的透明度義務。在機器學習或深度學習情況下,可能會增加理解性和可追溯性難度,但有助於分析流程並使其更接近人類理解的方法在科學和商業實踐中,應特別關注並進一步討論。另外,透過教育及使用說明協助及控制功能,教導消費者係建立雙方信任的重要手段。企業應在第一線中說明產品或服務中使用的手段(演算法,機器學習,AI)。除了解釋使用那些技術來改進產品和服務外,應一併解釋如何從技術控制過程中獲得相關知識以及提供那些後援支持。另外,例如透過幫助頁面,儀表板或部落格,解釋發生什麼以及如何做出某些影響深遠的自動化決策,使用戶更了解有關使用自動決策相關訊息。因此建議企業採取強制有效以建立信任的措施,使用戶理解是否及如何使用相關演算法,此可能包括使用自動化決策,使用特定資料組和使用技術的目的,亦即使用戶對演算法,機器學習或AI支持的決策有基本的了解。 為全體利益使用相關技術 人工智慧等新技術之重要性不應被低估,目前在生活和工業等眾多領域皆有廣泛應用。對於個人和集體而言,將可帶來巨大的利益,因此應該充分利用。例如,人工智慧可降低語言障礙,幫助行動不便的人可更加獨立自主生活,改善醫療診斷,提升能源供應效率,甚至是交通規劃和搜索停車位,都只是人工智慧偉大且已被使用的案例。為促進技術發展,應公平地利用其優勢並預留商業應用模式的空間,同時充分解決涉及的具體風險。產業特定的解決方案十分重要,但應兼顧受影響者的利益,並與廣大公眾利益找出妥協平衡點,且應排除不適當的歧視。建議在使用決策支持技術時,應事先檢查相關後果並與其利益比較。例如,可以在資料保護影響評估的框架進行。作為道德準則的一部分,必須確保演算法盡可能量準確地預測結果。 開發安全的資料基礎 資料係人工智慧支援決策的基礎。與人為決策者相同,資料不完整或錯誤,將導致做出錯誤的決定。因此決策系統的可靠性仍取決資料的準確性。但資料質量和資料來源始終不能追溯到源頭,如果可能的話,只有匯總或非個人資料可用於分析或分類用戶群組。因此,確切細節不可被使用或揭露。因此建議企業應考慮要使用的資料、資料的類別和在使用AI系統前仔細檢查資料使用情況,特別是在自我學習系統中資料引入的標準,並根據錯誤來源進行檢查,且儘可能全面記錄,針對個人資料部分更應謹慎處理。 解決機器偏差問題 應重視並解決所謂機器偏差和演算法選擇和模型建立領域的相關問題。解釋演算法,機器學習或AI在基層資料選擇和資料庫時所產生決策偏見相當重要,在開發預期用途的演算法時必須納入考量,對員工應針對道德影響進行培訓,並使用代表性紀錄來創建可以識別和最小化偏差的方法。企業並應該提高員工的敏感度並培訓如何解決並減少機器偏見問題,並特別注意資料饋送,以及開發用於檢測模式的內、外部測試流程。 適合個別領域的具體措施和文件 在特別需要負責的決策過程,例如在車輛的自動控制或醫療診斷中,應設計成由責任主體保留最終的決策權力,直到AI的控制品質已達到或高於所有參與者水平。對類人工智慧的信任,並非透過對方法的無條件追踪來實現,而是經過仔細測試,學習和記錄來實現

加拿大政府擬將安樂死合法化

  加拿大聯邦政府於2016年4月14日向國會提交「醫助善終」法案,即C-14法案(Bill C-14),以修正加拿大的刑法(Criminal Code)相關規定;另外,亦會一併修正年金法(Pension Act)、矯正和有條件釋放法(Corrections and Conditional Release Act)、加拿大部隊成員和退伍軍人重建和賠償法(Canadian Forces Members and Veterans Re-establishment and Compensation Act)相關名詞之解釋。   該法案通過後,醫生、護士、藥師及其他協助執行任務之人,將可對符合資格之病人,以醫療方式協助其結束生命,而免於背負刑法加工自殺罪之責任。   可以使用醫療方式結束生命(Medical Assistance in Dying)之人,必須符合以下列出的所有條件,缺一不可: (1)須為加拿大籍;或是在加拿大停留至少一段時間,可使用加拿大的醫療健康服務者。 (2)年齡至少18歲以上,且可對其健康自主作出決定。 (3)患有極為嚴重且不可治癒之重大醫療情況。 (4)在沒有外界壓力之情形下,自願性的要求以醫療方式結束其自身之生命者。 (5)在接受醫療方式結束生命前,須簽署知情同意書(Informed Consent)。   加拿大議會認同那些處於極為嚴重、難以忍受且無法治癒疾病之族群,有向專業醫療人員尋求結束自己生命的權利;但這需要非常健全的法令體系,以避免任何可能的錯誤或濫用,因為生命一旦消逝就再也無法回復。對於處於弱勢之族群,例如生命品質不佳者、老年人、重病或殘障者,亦應尊重其生命之固有價值,保護他們免於被引誘結束自己的生命是非常重要的。   這部法案是一個衡平的法案,同時保護弱勢族群之生命價值,也保護了特殊族群尋求醫療方式結束自己生命的權利。新法案需待國會投票審議通過後,才能生效。

歐盟發布《個資侵害通知範例指引》說明個資侵害案例解析以利個資事故因應

  歐洲資料保護委員會(European Data Protection Board, EDPB)於2021年1月18日發布《個資侵害通知範例指引》(Guidelines 01/2021 on Examples regarding Data Breach Notification)草案,並進行為期六週之公眾諮詢。該指引針對2017年10月所發布之《個資侵害通知指引》(Guidelines on Personal data breach notification under Regulation 2016/679)透過案例分析進行補充說明,對於資料控制者如何識別侵害類別以及評估風險提出更詳細的實務建議,協助資料控制者處理資料外洩及風險評估考量因素之認定。   個資侵害係指違反安全性規定而導致傳輸、儲存或以其他方式處理之個資,遭意外或非法破壞、遺失、變更、未獲授權之揭露或近用之情形,由於個資事故將對資料主體可能造成重大不利影響,該指引首先要求資料控制者進行侵害類別之辨識,依據2017年指引將個資侵害分為機密性侵害(confidentiality breach)、完整性侵害(integrity breach)以及可用性侵害(availability breach)。而資料控制者最重要的義務在於主動識別系統漏洞,評估侵害對資料主體權利所產生之風險,制定適當計畫及程序採取適當因應措施,確定侵害事件之問題根因及安全漏洞,加強員工認知培訓及制定操作手冊,並確實記錄各項侵害行為,以提升個資事故因應效率及降低時間延誤。   此外,該指引彙整自GDPR實施以來個資侵害通知具體案例,分為勒索軟體攻擊、資料外洩攻擊、內部人為風險、硬體設備或紙本檔案失竊、誤發郵件以及電子郵件內容外洩,共六大主題十八件案例,針對不同程度風險提供最典型的正確及錯誤作法,並提出資料控制者有關預防潛在攻擊及減輕影響之措施建議。

TOP