合成資料(synthetic data)

  「合成資料」(synthetic data)的出現,是為了保護原始資料所可能帶有的隱私資料或機敏資料,或是因法規或現實之限制而無法取得或利用研究所需資料的情況下,透過統計學方法、深度學習、或自然語言處理等方式,讓電腦以「模擬」方式生成研究所需之「合成資料」並進行後續研究跟利用,透過這個方法,資料科學家可以在無侵犯隱私的疑慮下,使合成資料所訓練出來的分類模型(classifiers)不會比原始資料所訓練出來的分類模型差。

  在合成資料的生成技術當中,最熱門的研究為運用「生成對抗網路」(Generative Adversarial Network, GAN)形成合成資料(亦有其他生成合成資料之方法),生成對抗網路透過兩組類神經網路「生成網路」(generator)與辨識網路(discriminator)對於不同真偽目標值之反覆交錯訓練之結果,使其中一組類神經網路可生成與原始資料極度近似但又不完全一樣之資料,也就是具高度複雜性與擬真性而可供研究運用之「合成資料」。

  英國國防科技實驗室(Defense Science and Technology Laboratory, DSTL)於2020年8月12日發布「合成資料」技術報告,此技術報告為DSTL委託英國航太系統公司(BAE Systems)的應用智慧實驗室(Applied Intelligence Labs, AI Labs)執行「後勤科技調查」(Logistics Technology Investigations, LTI)計畫下「資料科學與分析」主題的工作項目之一,探討在隱私考量下(privacy-preserving)「合成資料」當今技術發展情形,並提供評估技術之標準與方法。

  技術報告中指出,資料的種類多元且面向廣泛,包含數字、分類資訊、文字與地理空間資訊等,針對不同資料種類所適用之生成技術均有所不同,也因此對於以監督式學習、非監督式學習或是統計學方法生成之「合成資料」需要採取不同的質化或量化方式進行技術評估;報告指出,目前尚未有一種可通用不同種類資料的合成資料生成技術或技術評估方法,建議應配合研究資料種類選取合適的生成技術與評估方法。

本文為「經濟部產業技術司科技專案成果」

相關連結
相關附件
你可能會想參加
※ 合成資料(synthetic data), 資訊工業策進會科技法律研究所, https://stli.iii.org.tw/article-detail.aspx?d=8532&no=64&tp=1 (最後瀏覽日:2026/05/15)
引註此篇文章
你可能還會想看
Adidas再次出擊!積極捍衛三斜線商標

  世界第二大運動用品製造商 Adidas 於2012年5月15日對滑板運動鞋製造商 Word Industries與體育用品零售商Big 5 提出商標侵權告訴,同時向U.S. District Court in Portland, Ore.請求金錢損害賠償與定暫時狀態處分。   Adidas 主張Word Industries設計於鞋身的三平行斜條紋與他們的三斜線商標太像了, 易使消費者產生混淆誤認,有欺騙消費者之嫌,並將淡化與損害Adidas的品質。 Word Industries 總裁則主張公司描繪的”W”是一個新的式樣且使用多年,有別於Adidas的三斜線。   Word Industries 於鞋身設計的”W”樣式,頂端帶著箭頭的形狀延伸至鞋緣,側身望去似乎只剩下三斜線,便因此落入與Adidas商標近似之爭議。   Adidas 積極捍衛商標,紛紛對於疑似模仿其三斜線標誌的業者採取法律途徑尋求救濟,像是控告Payless ShoeSource販售二至四條紋的運動鞋,侵犯其商標權,更因此判賠 6億5千萬美元,達成和解;甚至台灣本土品牌Jump運動鞋面設計的”遞減三斜線” 也在其中。

因應國際立法趨勢 專利法相關制度擬大幅度鬆綁

智慧局現正積極研修專利法,其中最為重要者包括: • 配合國際公共衛生議題,放寬強制授權條件; • 修正研究實驗免責相關規定; • 配合司法院智慧財產專業法院之成立,研擬設置爭議審議組; • 新型專利整體制度改革,考量原則開放「同一人」對於同一技術可「同時」申請,以利企業作專利佈局; • 大幅修正新式樣專利制度,開放多種新式樣保護標的,擴大新式樣專利保護範圍,以期帶動台灣文化創意及工業設計產業發展。   由於專利法這次修正為通盤修正,故智慧局刻正召開多場公聽會,參考各界意見及參酌國際立法趨勢為整體思考,以期建立更完善之專利制度。其中,針對新型專利制度之整體政策、專利年費逾越繳納期限產生失權後之救濟制度、以及以外文本提出申請取得申請日等三項議題,智財局已於 7 月 18 日 召開公聽會,聽取各界意見,尋求共識。   在新型專利整體制度改革部分,智慧局擬考量原則開放「同一人」對於同一技術可「同時」申請,以提供更多權益保障,以利企業作專利佈局。因此,企業一方面可取新型形式審查之便利領證,一方面也可取發明專利實體審查權利較穩定,而且二者前後接續。   有關專利權人逾越年費繳納期限產生專利權消滅後之救濟制度,依現行 專利法第82條 規定,發明專利第二年以後之年費,未於應繳納專利年費之期間內繳費者,得於期滿六個月內補繳之,但其年費應按規定之年費加倍繳納。根據前開規定,專利權人超過年費繳納期限,得於到期後六個月內加倍補繳年費,但專利權人超過一日與超過五個月,同樣都須加倍補繳,二者顯然有所失衡,因此,這次修法預備採取比率加繳制度,也就是說,依照超過的期限多寡,比率補繳,並非一率加倍補繳。   另外,超過六個月補繳期後,依照現行 專利法第66條第3款 規定,專利權當然消滅,只有在專利權人超過期限未繳年費是因具有不可抗力事由時,才能依 專利法第17條第2項 申請回復原狀,但是,一些專利權人超過繳費期限,並非因為具有不可抗力事由,而是具有正當理由,若因此而喪失專利權,顯非專利法保護專利權人之意旨,故此次修正亦放寬申請回復原狀之事由,以保障專利權人之權益。   針對外文本提出申請取得申請日部分,現行 專利法第25條第4項 規定,專利申請案允許申請人先以外文說明書提出申請,嗣後再補中文說明書,而專利法對於外文說明書之語文種類並無任何限制,以致外文本種類繁多,是否與中文譯本相符,認定上有困難。智慧局這次修正,研擬作適當限制,但是與會人員有不同意見,智慧局將再通盤考量。

用ChatGPT找法院判決?從Roberto Mata v. Avianca, Inc.案淺析生成式AI之侷限

用ChatGPT找法院判決?從Roberto Mata v. Avianca, Inc.案淺析生成式AI之侷限 資訊工業策進會科技法律研究所 2023年09月08日 生成式AI是透過研究過去資料,以創造新內容和想法的AI技術,其應用領域包括文字、圖像及影音。以ChatGPT為例,OpenAI自2022年11月30日發布ChatGPT後,短短二個月內,全球月均用戶數即達到1億人,無疑成為民眾日常生活中最容易近用的AI科技。 惟,生成式AI大量使用後,其中的問題也逐漸浮現。例如,ChatGPT提供的回答僅是從所學習的資料中統整歸納,無法保證資料的正確性。Roberto Mata v. Avianca, Inc.案即是因律師利用ChatGPT撰寫訴狀,卻未重新審視其所提供判決之正確性,以致後續引發訴狀中所描述的判決不存在爭議。 壹、事件摘要 Roberto Mata v. Avianca, Inc.案[1]中,原告Roberto Mata於2019年8月搭乘哥倫比亞航空從薩爾瓦多飛往紐約,飛行過程中膝蓋遭空服員的推車撞傷,並於2022年2月向法院提起訴訟,要求哥倫比亞航空為空服員的疏失作出賠償;哥倫比亞航空則主張已超過《蒙特婁公約》(Montreal Convention)第35條所訂之航空器抵達日起兩年內向法院提出損害賠償之請求時效。 R然而,法院審理過程中發現原告訴狀內引用之六個判決無法從判決系統中查詢,進而質疑判決之真實性。原告律師Steven A. Schwartz因而坦承訴狀中引用的六個判決是ChatGPT所提供,並宣稱針對ChatGPT所提供的判決,曾多次向ChatGPT確認該判決之正確性[2]。 貳、生成式AI應用之潛在風險 雖然運用生成式AI技術並結合自身專業知識執行特定任務,可能有助於提升效率,惟,從前述Roberto Mata v. Avianca, Inc.案亦可看出,依目前生成式AI技術之發展,仍可能產生資訊正確性疑慮。以下彙整生成式AI應用之8大潛在風險[3]: 一、能源使用及對環境危害 相較於傳統機器學習,生成式AI模型訓練將耗費更多運算資源與能源。根據波士頓大學電腦科學系Kate Saenko副教授表示,OpenAI的GPT-3模型擁有1,750億個參數,約會消耗1,287兆瓦/時的電力,並排放552噸二氧化碳。亦即,每當向生成式AI下一個指令,其所消耗的能源量相較於一般搜尋引擎將可能高出4至5倍[4]。 二、能力超出預期(Capability Overhang) 運算系統的黑盒子可能發展出超乎開發人員或使用者想像的隱藏功能,此發展將會對人類帶來新的助力還是成為危險的阻力,則會隨著使用者之間的相互作用而定。 三、輸出結果有偏見 生成式AI通常是利用公開資料進行訓練,若輸入資料在訓練時未受監督,而帶有真實世界既存的刻板印象(如語言、種族、性別、性取向、能力、文化等),據此建立之AI模型輸出結果可能帶有偏見。 四、智慧財產權疑慮 生成式AI進行模型訓練時,需仰賴大量網路資料或從其他大型資料庫蒐集訓練資料。然而,若原始資料來源不明確,可能引發取得資料未經同意或違反授權條款之疑慮,導致生成的內容存在侵權風險。 五、缺乏驗證事實功能 生成式AI時常提供看似正確卻與實際情形不符的回覆,若使用者誤信該答案即可能帶來風險。另外,生成式AI屬於持續動態發展的資訊生態系統,當產出結果有偏誤時,若沒有大規模的人為干預恐難以有效解決此問題。 六、數位犯罪增加與資安攻擊 過去由人工產製的釣魚郵件或網站可能受限於技術限制而容易被識破,然而,生成式AI能夠快速建立具高度說服力的各種擬真資料,降低詐騙的進入門檻。又,駭客亦有可能在不熟悉技術的情況下,利用AI進一步找出資安弱點或攻擊方法,增加防禦難度。 七、敏感資料外洩 使用雲端服務提供商所建立的生成式AI時,由於輸入的資料存儲於外部伺服器,若要追蹤或刪除有一定難度,若遭有心人士利用而導致濫用、攻擊或竄改,將可能產生資料外洩的風險。 八、影子AI(Shadow AI) 影子AI係指開發者未知或無法控制之AI使用情境。隨著AI模型複雜性增加,若開發人員與使用者未進行充分溝通,或使用者在未經充分指導下使用 AI 工具,將可能產生無法預期之風險。 參、事件評析 在Roberto Mata v. Avianca, Inc.案中,法院關注的焦點在於律師的行為,而非對AI技術使用的批判。法院認為,隨著技術的進步,利用可信賴的AI工具作為協助用途並無不當,惟,律師應踐行其專業素養,確保所提交文件之正確性[5]。 當AI科技發展逐漸朝向自主與獨立的方向前進,仍需注意生成式AI使用上之侷限。當個人在使用生成式AI時,需具備獨立思考判斷的能力,並驗證產出結果之正確性,不宜全盤接受生成式AI提供之回答。針對企業或具高度專業領域人士使用生成式AI時,除確認結果正確性外,更需注意資料保護及治理議題,例如建立AI工具合理使用情境及加強員工使用相關工具之教育訓練。在成本能負擔的情況下,可選擇透過企業內部的基礎設施訓練AI模型,或是在訓練模型前確保敏感資料已經加密或匿名。並應注意自身行業領域相關法規之更新或頒布,以適時調整資料使用之方式。 雖目前生成式AI仍有其使用之侷限,仍應抱持開放的態度,在技術使用與風險預防之間取得平衡,以能夠在技術發展的同時,更好地學習新興科技工具之使用。 [1]Mata v. Avianca, Inc., 1:22-cv-01461, (S.D.N.Y.). [2]Benjamin Weiser, Here’s What Happens When Your Lawyer Uses ChatGPT, The New York Times, May 27, 2023, https://www.nytimes.com/2023/05/27/nyregion/avianca-airline-lawsuit-chatgpt.html (last visited Aug. 4, 2023). [3]Boston Consulting Group [BCG], The CEO’s Roadmap on Generative AI (Mar. 2023), https://media-publications.bcg.com/BCG-Executive-Perspectives-CEOs-Roadmap-on-Generative-AI.pdf (last visited Aug. 29, 2023). [4]Kate Saenko, Is generative AI bad for the environment? A computer scientist explains the carbon footprint of ChatGPT and its cousins, The Conversation (May 23, 2023.), https://theconversation.com/is-generative-ai-bad-for-the-environment-a-computer-scientist-explains-the-carbon-footprint-of-chatgpt-and-its-cousins-204096 (last visited Sep. 7, 2023). [5]Robert Lufrano, ChatGPT and the Limits of AI in Legal Research, National Law Review, Volume XIII, Number 195 (Mar. 2023), https://www.natlawreview.com/article/chatgpt-and-limits-ai-legal-research (last visited Aug. 29, 2023).

日本經產省發布《促進資料價值創造的新資料管理方法與框架(暫定)》之綱要草案徵求意見

  2021年7月中旬,日本經濟產業省(下稱經產省)發布《促進資料價值創造的新資料管理方法與框架(暫定)(データによる価値創造(Value Creation)を促進するための新たなデータマネジメントの在り方とそれを実現するためのフレームワーク(仮))》之綱要草案(下稱資料管理框架草案),並公開對外徵求意見。   近年日本在「Society5.0」及「Connected Industries」未來願景下,人、機器與科技的跨界連接,將創造出全新附加價值的產業社會,然而達成此願景的前提在於資料本身須為正確,正確資料的自由交換,方能用於創造新資料以提供附加價值,因此正確的資料可說是確保網路空間連結具有可信性的錨點。為此,經產省提出資料管理框架草案,透過資料管理、識別資料在其生命週期中可能發生的風險,以確保資料在各實體間流動的安全性,從而確保其可信性。   該框架將資料管理定義為「基於資料的生命週期,管理各場域中資料屬性因各種事件而變化的過程」,由「事件(資料的產生/取得、加工/利用、轉移/提供、儲存和處置)」、「場域(例如:各國家/地區法規、組織內規、組織間的契約)」和「屬性」(例如:類別、揭露範圍、使用目的、資料控制者和資料權利人)三要素組成的模組。經產省期望未來能透過三要素明確資料的實際情況,讓利害關係人全體在對實際情況有共同理解的基礎上,能個別確保適當的資料管理,達成確保資料正確之目的。 「本文同步刊登於TIPS網站(https://www.tips.org.tw )」

TOP