「合成資料」(synthetic data)的出現,是為了保護原始資料所可能帶有的隱私資料或機敏資料,或是因法規或現實之限制而無法取得或利用研究所需資料的情況下,透過統計學方法、深度學習、或自然語言處理等方式,讓電腦以「模擬」方式生成研究所需之「合成資料」並進行後續研究跟利用,透過這個方法,資料科學家可以在無侵犯隱私的疑慮下,使合成資料所訓練出來的分類模型(classifiers)不會比原始資料所訓練出來的分類模型差。
在合成資料的生成技術當中,最熱門的研究為運用「生成對抗網路」(Generative Adversarial Network, GAN)形成合成資料(亦有其他生成合成資料之方法),生成對抗網路透過兩組類神經網路「生成網路」(generator)與辨識網路(discriminator)對於不同真偽目標值之反覆交錯訓練之結果,使其中一組類神經網路可生成與原始資料極度近似但又不完全一樣之資料,也就是具高度複雜性與擬真性而可供研究運用之「合成資料」。
英國國防科技實驗室(Defense Science and Technology Laboratory, DSTL)於2020年8月12日發布「合成資料」技術報告,此技術報告為DSTL委託英國航太系統公司(BAE Systems)的應用智慧實驗室(Applied Intelligence Labs, AI Labs)執行「後勤科技調查」(Logistics Technology Investigations, LTI)計畫下「資料科學與分析」主題的工作項目之一,探討在隱私考量下(privacy-preserving)「合成資料」當今技術發展情形,並提供評估技術之標準與方法。
技術報告中指出,資料的種類多元且面向廣泛,包含數字、分類資訊、文字與地理空間資訊等,針對不同資料種類所適用之生成技術均有所不同,也因此對於以監督式學習、非監督式學習或是統計學方法生成之「合成資料」需要採取不同的質化或量化方式進行技術評估;報告指出,目前尚未有一種可通用不同種類資料的合成資料生成技術或技術評估方法,建議應配合研究資料種類選取合適的生成技術與評估方法。
本文為「經濟部產業技術司科技專案成果」
2022年11月美國OpenAI公司推出人工智慧大型語言模型ChatGPT,提供全球使用者透過輸入文本方式向ChatGPT提出問題,雖營業秘密不需絕對保密,惟是否會「因向ChatGPT揭露營業秘密而使營業秘密喪失了秘密性」? 依OpenAI公司「非API訪問數據政策」規定,ChatGPT透過OpenAI公司的AI訓練人員審核「使用者上傳至ChatGPT的資訊」,提供ChatGPT反饋,強化ChatGPT進行有效的學習,讓ChatGPT模仿人類語言回覆使用者所提出的問題。在AI訓練人員未將「使用者上傳至ChatGPT的資訊」交由ChatGPT訓練、學習前(上次訓練是在2021年9月),此聊天內容不會成為ChatGPT給其他使用者的回答,此時資訊對於公眾仍具秘密性。依據ChatGPT的使用條款第5(a)條之單方保密義務規定:「OpenAI公司、其子公司及其他第三方公司可能賦予使用者『機密資訊的接觸權限』,但使用者僅限於使用條款所允許的服務中使用該些機密資訊,不得向第三方揭露該機密資訊,且使用者至少應採取合理的注意保護該機密資訊。所謂機密資訊係指OpenAI公司、其子公司及其他第三方公司(1)指定的非公開資訊,或(2)合理情況下,被認定為機密資訊者,比如軟體、規格及其他非公開商業資訊。」。即ChatGPT對於使用者輸入的聊天內容不負保密義務。 公司將程式碼、會議紀錄等敏感資訊與ChatGPT共享,不必然屬於「因揭露營業秘密而使營業秘密喪失秘密性」,考量訓練數據量大,秘密性取決於周遭環境與揭露性質,例如: 1.揭露的資訊類型,比如飲料配方可能會比客戶名單更容易取得。 2.揭露的環境,比如競爭對手、大眾是否能提出具體問題,以致能取得他人聊天內容的營業秘密。 為在ChatGPT的趨勢下確保營業秘密的秘密性,建議企業採取的管理策略如下: 1.透過「資訊分類」以識別可共享的資訊。 2.審核涉及敏感資訊的協議、公司政策及供應商契約。 3.採取實體、數位的資訊保密措施,並留意尊重員工隱私,比如限制接觸某些網站或應用程式,應留意員工的手機是否能繞過此限制。 4.建立公司保密文化,如透過公司培訓、新人入職教育訓練,定期提醒其應負擔的保密義務。 本文同步刊登於TIPS網站(https://www.tips.org.tw)。
美國眾議院通過電信基礎設施安全四大法案,以防止採用構成國家安全風險的設備美國眾議院(United States House of Representatives)於2021年10月20日通過安全設備法案(Secure Equipment Act)、通訊安全諮詢法案(Communications Security Advisory Act)、資通訊科技戰略法案(Information and Communication Technology Strategy Act)與國土安全部軟體供應鏈風險管理法案(DHS Software Supply Chain Risk Management Act),以提高網路之可信任度、防止採用構成國家安全風險的設備、支持小型通訊網路供應商,並促進產業供應鏈的經濟競爭力。美國總統拜登(Joseph Robinette Biden Jr.)於同年11月11日完成簽署《安全設備法》。 《安全設備法》旨在禁止聯邦通訊委員會(Federal Communications Commission, FCC)頒發設備許可予構成美國國家安全風險之公司,其目的係為防止美國的網路系統遭受中國大陸設備的監控,保護美國公民的隱私與安全。近年來,美國以國家安全與技術、隱私保護為由,逐步以政府禁令或動用政府影響力,防堵華為、中興等其認為與中國政府關係密切之中國通訊設備業者。自2019年5月15日美國白宮頒布之第13873號行政命令,至2021年10月20日美國眾議院通過電信設施基礎安全四大法案,並美國商務部於隔日即發布「禁止出售、出口駭客監視工具予曾有侵犯人權紀錄的專制政府及地緣政治之敵人」等規定,各種限制手段展現美國保護國土安全之決心。 此外,《通訊安全諮詢法案》、《資通訊科技戰略法案》與《國土安全部軟體供應鏈風險管理法案》分別就通訊網路的安全性、可靠性與操作性;資通訊技術供應鏈報告(例如:定義何謂「對美國經濟競爭力至關重要的資通訊技術」等)」;以及資通訊技術或服務合約之指導方針如何改善國家網路安全等相關事項予以規範。目前,此三大法案皆於參議院二讀後提交至委員會,後續發展應密切關注。
美國參議院擬針對生物燃料提供稅賦優惠先進的能源發展方向是開發先進技術,利用生物材料(如能源作物或生物排泄物)等生物性資源來生產能源,此種能源生產方式又稱為生質能源。由於生質能源的建置成本高,故業界多冀盼政府能給予財務方面的支援。 最近美國布希總統已經設定透過增加對潔淨、再生的生物燃料的使用,降低美國對進口石油的依賴以及溫室氣體排放量,而基於同樣的目標,美國參議院財務委員會(Senate Finance Committee)最近更提出了能源進化及投資法(Energy Advancement and Investment Act of 2007, EAIA),希望能鼓勵大規模的商業投資,以促進生物燃料的生產與使用。 EAIA特別針對使用纖維性質的生物材料(cellulosic biomass)來生產生物燃料之製造者,提供生產上的租稅扣抵(production credit),與此同時並擴大既有針對乙醇所實施的優惠措施之適用範圍。這兩大租稅優惠是為了鼓勵企業生產者加速推動生物燃料的開發,儘快使生物燃料可以供應市場所需達到10億加侖的水準。
網路媒體界群起抗議,美國總統歐巴馬表示反對,SOPA法案遭到擱置SOPA法案,全名「禁止網路盜版法案(The Stop Online Privacy Act)」,是於2011年10月26日由美國眾議員Lamar Smith所提出,主要支持團體包括美國「娛樂軟體協會(the Entertainment Software Association)」、網路域名公司GoDaddy.com、「美國動畫協會(the Motion Picture Association of America)」以及「美國商會(United States Chamber of Commerce)」等等。另外一個類似的法案為美國參議院於2011年5月提交的「保護知識產權法案」,簡稱PIPA(Preventing Real Online Threats to Economic Creativity and Theft of Intellectual Property Act),該法案原預訂於2012年1月24日交付表決。 2012年1月18日,為了表明對SOPA的反對立場,美國各網站發起了關站的行動,包括Google、Wikipedia等這些大型網站皆參與了抗議行動(抗議行動的參與網站名單可參考下述網址: http://sopastrike.com/)。美國總統歐巴馬也於今年一月公開表明他不會支持SOPA以及類似的法案,主因為該法案箝制了資訊流的自由發展。白宮於官方部落格表示「保護線上智慧財產權的重要任務不可危害網路的開放以及創新發展」、「任何打擊線上盜版的努力必須避免線上審查對合法活動所造成的風險,並避免阻礙了商業的創新發展」、「我們必須避免創造新的網路安全風險或者是瓦解網路的基礎架構」、「期許並鼓勵所有的私人團體,包括網路內容創作人以及網路平台提供人,共同努力,採取自願性的措施以及最佳作法去減少線上盜版」,但是部落格中的聲明也指出,線上盜版已經是危害美國經濟的一個重要問題,它危害了中產階級的工作,並且危害了具有創造力以及創新力的美國公司以及企業。由於反對的浪潮,SOPA以及PIPA法案於今年1月20日正式地遭到議院擱置。 SOPA的立法主要是用來打擊國外販售仿冒品的網站以及提供非法下載影音軟體系統的網站,俗稱「海盜灣(pirate bay)」,使用人在這些網站只要輸入影集或者是電影名稱就可以免費下載收看。這些海盜灣由於伺服器不在美國境內所以難以管制,但是透過SOPA,美國政府可以藉著管制美國的網路服務者去切斷這些海盜灣在美國提供服務的生路。依照SOPA,Google將被禁止在其搜尋結果中顯示這些海盜灣,PayPal也將被禁止提供資金傳輸服務與這些被認定有侵權事實的業者。 事實上,著作權的侵權行為原本就是非法的,在此之前已有「數位千禧年著作權法案(the 1998 Digital Millennium Copyright Act,簡稱DMCA)」提供執行措施。依照本法,舉例說明,假設歌曲創作人發現有人非法在YouTube上上傳其享有著作權的歌曲,著作權人可以要求YouTube將之下架,這樣的要求稱為「DMCA 投訴公告(DMCA warning)」。光是2011年,Google就收到了約五百萬筆侵權下架的要求,若確定要求為合法,Google一般而言會在六個小時之內將之下架。問題在於DMCA投訴公告對於美國國外的網站並無法發揮其預期的效力。 但是類似YouTube這類的網站經營者則擔心,SOPA可能帶來網站營運者必須負擔審查使用人所上傳的檔案是否有侵權事實義務的負面效應。依照SOPA,任何支付服務或者是廣告營運主都需要提供一個管道供第三人檢舉「偷竊美國財產」的使用人,一遭檢舉,營運主就有義務在五天之內切斷其服務。雖然亂檢舉有刑事責任,但是是否無侵權行為的舉證責任則需要受控告者自行負擔,而許多小網站以及非營利性網站根本無力去負擔龐大的訴訟費用。另外,反對者認為SOPA對於「搜尋引擎(internet search engine)」以及「國外侵權網站(foreign infringing site)」的定義過於廣泛,在本法之下,維基百科也會被定義為「搜尋引擎」,並有義務在任何美國法院的要求下去移除「國外侵權網站」的有關聯結,否則將會被視為助長侵權行為並面臨「藐視法庭罪」,這將造成言論自由箝制的相關問題,除此也會大量增加維基百科的營運成本。業者多表示肯認SOPA的立意並表示願意合作,但是業者表示SOPA過於廣泛模糊的法規文字將可能會流於網站內容的審查並造成無法控制的後果。反對者指出,SOPA的影響範圍無法預測,網站內容若只是部分有侵權疑慮,可能整個網站都無法出現在搜尋引擎的搜尋結果中。「電子前哨基金會(Electronic Frontier Foundation, EFF)」指出,類似Facebook或YouTube這類由使用者自創內容的網站,未來可能都要被迫自行去監管網站內容,將大量增加營運成本。另一方面而言,SOPA賦予業者只要具有合理懷疑就可以封鎖使用者,這將會成為大公司用來打壓潛在競爭者並迴避反托拉斯法的手段。