論科學資料之開放與共享—以美國國家衛生研究院之資料政策為核心
資訊工業策進會科技法律研究所
蔡立亭
2020年12月25日
科學研究以提升全人類之福祉為本,醫療健康研究資料的共享,有助於促進整體科學研究的量能。為促進由政府支持之科學資料與研究發現的近用,美國政府原則上肯定科學之發展與資料之留存、近用相關,資料之公開不僅應遵守法律之限制,尚應注意資料之生命週期,並訂定時限;受政府資助之研究,所產出之資料以免費近用為原則,政府之政策亦應考量國際合作之實際情況[1]。申言之,科學研究資料的近用,有助於提升科學發展,政府於制定共享政策的同時,亦應一併考量國際合作的情況,並以免費近用為原則,研議資料公開策略。
為增進科學資料的效益,美國國家衛生研究院(National Institutes of Health,簡稱NIH)設置科學政策辦公室(Office of Science Policy,簡稱OSP)制定完整的政策,領域擴及生物安全、基因檢測、基因資料共享、人類受試者保護、NIH的組織與管理,和受NIH資助研究的成果與價值;藉由廣泛的分析與報告,提出新興政策建議[2]。在科學資料共享的層面,NIH聚焦於「基因與健康」和「科學資料管理」,生物醫學研究的進展,取決於科學資料的近用;共享科學資料,有助於驗證研究結果,研究者整合資料以強化分析,提升難以生成資料的再次應用,加速研究進展[3]。NIH藉由資料的管理,促進科學資料的近用,以驗證並共享研究成果。
為輔助資料之開放共享,NIH公告資料管理與共享政策(NIH Policy for Data Management and Sharing,以下簡稱DMS政策),目的為促進由NIH資助或進行研究的科學資料共享[4]。DMS政策將科學資料定義為:「在科學社群普遍接受記錄事實的素材,研究發現能反覆的驗證,不論該資料是否用以支持學術出版物。科學資料並不包含實驗室筆記、初步分析、完整的個案報告表、科學報告的草稿、未來的研究計畫、同儕評論、與同事的溝通、物理實體,例如實驗室標本[5]。」。換言之,並非僅以該資料是否能佐證學術出版物為科學資料之認定基準,而係以該科學資料是否屬事實之記載,和研究成果能否反覆驗證為判斷。
另,NIH、NIH研究院、中心、辦公室已有資料預期的共享,如:科學資料的共享、相關標準、資料庫的選擇、時限,適用並於計畫中呈現;若不適用則研究員應在計畫中提出資料共享與管理的方式,NIH並建議資料的管理與共享應實踐FAIR(Findable、Accessible、Interoperable、Reusable)原則,共享的資料類型,首先為一般性的描述、估計在研究中生成或使用的科學資料,次為列出後設資料等有助於解釋科學資料的文件;NIH鼓勵科學資料盡快共享,不遲於資料的出版或執行期間[6]。申言之,即使各該研究計畫不適合既有的共享策略,於計畫提案時,研究團隊仍應研擬適合共享與管理的方式,並以FAIR原則為依準。
研究團隊提供的科學研究資料,將儲存於由政策或資助方指定的資料庫。NIH提出推薦的資料庫列表[7],並描述理想的儲存資料庫特色為:「具有獨特且永久的識別碼、具有長期持續管理資料的計畫、設置後設資料、整理資料並保證品質、免費並簡易的近用、廣泛且可估計的重複使用、明確的使用指引、安全性與完整性、機密性、共通格式、引用機制,及資料保留策略[8]」。由此觀之,資料庫的設計應易於科學資料的檢索;並在資料的近用上,維護資料之安全、完整、機密等。
NIH共享資料之實際應用上,為共享基因研究資料,NIH於2014年提出基因資料共享政策(Genomic Data Sharing Policy,以下簡稱GDS政策),包含NIH資助指南與契約;NIH的GDS政策適用於所有NIH資助的研究,生成之大規模人類或非人類之基因資料,將應用於後續的研究[9]。藉此能有效率的推動基因研究向前邁進。
GDS政策課予研究者提供基因資料的義務;研究者近用基因資料,亦應遵守基於研究使用控制近用資料(Controlled-Access Data)的條款[10]。研究人員受NIH核准後,方能將NIH控制近用的資料,應用於第二次研究(secondary research)[11]。由NIH資料近用委員會(Data Access Committee)審查,研究員近用資料並須遵守基於研究使用控制近用資料的條款[12]。另,基因摘要結果(Genomic Summary Results,以下簡稱GSR)隸屬於NIH政策[13],並依據GDS政策目的,將GSR定義為由研究者提供的摘要統計(summary statistics),非敏感性的資料列入NIH指定的資料庫中[14]。換言之,NIH以對控制近用資料的應用核准,在資料之限制近用與科學發展間,取得平衡。
為回應COVID-19,加速治療與疫苗的研發,NIH的資料共享與管理政策,緩解全球科學社群開放共享科學資料的需求,該政策並建立資料共享為研究過程的基礎成分[15]。綜上所論,將資料共享內化於研究過程中,有助於全球同步更新研究的進程,共同面對全人類之科學挑戰。
[1] NATIONAL SCIENCE AND TECHNOLOGY COUNCIL, COMMITTEE ON SCIENCE, SUBCOMMITEE ON INTERNATIONAL ISSUES, INTERAGENCY WORKING GROUP ON OPEN DATA SHARING POLICY, Principles For Promoting Access To Federal Government-Supported Scientific Data And Research Findings Through International Scientific Cooperation (2016), 1, 整理自Principles, at 5-8, https://obamawhitehouse.archives.gov/sites/default/files/microsites/ostp/NSTC/iwgodsp_principles_0.pdf (last visited December 14, 2020).
[2]About Us, Welcome to NIH Office of Science Policy, NIH National Institutes of Health Office of Science Policy, https://osp.od.nih.gov/about-us/ (last visited December 7, 2020).
[3]NIH Data Management and Sharing Activities Related to Public Access and Open Science, NIH National Institutes of Health Office of Science Policy, https://osp.od.nih.gov/scientific-sharing/nih-data-management-and-sharing-activities-related-to-public-access-and-open-science/ (last visited December 10, 2020).
[4]Final NIH Policy for Data Management and Sharing, NIH National Institutes of Health Office of Extramural Research, Office of The Director, National Institutes of Health (OD), https://grants.nih.gov/grants/guide/notice-files/NOT-OD-21-013.html (last visited December 11, 2020).
[5]Final NIH Policy for Data Management and Sharing, NIH National Institutes of Health Office of Extramural Research, Office of The Director, National Institutes of Health (OD), https://grants.nih.gov/grants/guide/notice-files/NOT-OD-21-013.html (last visited December 12, 2020).
[6]Supplemental Information to the NIH Policy for Data Management and Sharing: Elements of an NIH Data Management and Sharing Plan, Office of The Director, National Institutes of Health (OD), https://grants.nih.gov/grants/guide/notice-files/NOT-OD-21-014.html (last visited December 13, 2020).
[7]資料庫列表請參見以下網址:Open Domain-Specific Data Sharing Repositories, NIH National Library of Medicine, https://www.nlm.nih.gov/NIHbmic/domain_specific_repositories.html (last visited December 24, 2020).
[8]Supplemental Information to the NIH Policy for Data Management and Sharing: Selecting a Repository for Data Resulting from NIH-Supported Research, Office of The Director, National Institutes of Health (OD), https://grants.nih.gov/grants/guide/notice-files/NOT-OD-21-016.html (last visited December 13, 2020).
[9]NIH Genomic Data Sharing, National Institutes of Health Office of Science Policy, https://osp.od.nih.gov/scientific-sharing/genomic-data-sharing/ (last visited December 15, 2020).
[10]NIH Genomic Data Sharing Policy, National Institutes of Health (NIH), https://grants.nih.gov/grants/guide/notice-files/NOT-OD-14-124.html (last visited December 17, 2020).
[11]NIH Genomic Data Sharing Policy, National Institutes of Health (NIH), https://grants.nih.gov/grants/guide/notice-files/NOT-OD-14-124.html (last visited December 17, 2020).
[12]id.
[13]NIH National Institutes of Health Turning Discovery into Health, Responsible Use of Human Genomic Data An Informational Resource, 1, at 6, https://osp.od.nih.gov/wp-content/uploads/Responsible_Use_of_Human_Genomic_Data_Informational_Resource.pdf (last visited December 17, 2020).
[14]Update to NIH Management of Genomic Summary Results Access, National Institutes of Health (NIH), https://grants.nih.gov/grants/guide/notice-files/NOT-OD-19-023.html (last visited December 17, 2020).
[15]Francis S. Collins, Statement on Final NIH Policy for Data Management and Sharing, National Institutes of Health Turning Discovery Into Health, https://www.nih.gov/about-nih/who-we-are/nih-director/statements/statement-final-nih-policy-data-management-sharing (last visited December 14, 2020).
英格蘭與威爾斯法律委員會(The Law Commission of England and Wales)與蘇格蘭法律委員會(The Scottish Law Commission)於2022年1月26日聯合提出¬「自駕車修法建議報告(Automated Vehicles: joint report)」,總結其自2018年來三次公眾意見諮詢之回應分析,提出75項法律修正建議,提交英格蘭及蘇格蘭議會決議是否採納並修法。 修法建議範圍涵蓋廣泛,重要突破性建議包含: (1)整合英國原有之《2018自動與電動車法(Automated and Electric Vehicles Act 2018)》中自駕車之認定標準,訂定一套雙階段自動駕駛認證許可制度,於第一階段審驗「整車」之規格是否符合國際或國內車輛型式安全審驗標準,並於第二階段審驗¬¬¬「個別自駕功能」是否能符合國內交通法規。 (2)提出「主責使用者(User-In-Charge, UIC)」概念,若車輛設計為在某些情形下需要人工接手駕駛,則自動駕駛系統(Automated Driving System, ADS)啟動時,坐在車內駕駛座之自然人即為UIC。 (3)對於不需要UIC車輛(No User-In-Charge, NUIC)營運平台業者,以及合法自駕車業者(Authorized Self-Driving Entities, ASDE),提出資格條件要求,包含必須具備良好名聲、財務穩健,必須向主管機關提交安全案例(safety cases)等。 (4)因《2018自動與電動車法》中已有要求自駕車均須投保保險,因此當自駕車造成車禍及損傷,不需先經確認有無人為故意過失,即可先行以保險進行賠償。事後若保險公司認為自駕車設計製造者有責任,得再依商品責任規範轉向車廠求償。 (5)而為了幫助事故調查、釐清責任,自駕車相關資料之持有者(如ASDE)應將相關資料保存3年又3個月,以配合侵權行為之法律請求權時效。 本分報告綜合各方意見,以務實之態度提出具體修法建議,深具參考價值,值得我國深入研析。
日本發布成為可信賴夥伴的資料治理手冊,呼籲企業應建立並實施貫穿資料生命週期的資料治理機制日本獨立行政法人情報處理推進機構於2025年1月28日發布《成為可信賴夥伴的資料治理手冊(下稱《手冊》)》,旨在呼籲企業建立與實施「貫穿資料生命週期的資料治理機制」,藉此將資料價值最大化,並將資料風險最小化。 《手冊》指出,資料驅動著社會發展,資料治理的重要性亦隨之提升。資料治理係指企業或組織透過機制、規則與制度等多種層面的策略性手段管理其重要資料資產,並透過制定相應的政策與規則,確保資料的品質與安全性。同時,考量資料具備易於複製、竄改且流通難以控制的特性,建立完善的資料治理機制亦有助於在共享資料的過程中維持其品質及安全性。推動資料治理的基礎,則仰賴適當且有效的資料管理機制,亦即確保在蒐集、處理、儲存與使用等資料生命週期各階段皆能落實資料管理機制。然而,資料管理本身要能發揮效益,仍須依賴組織具備足夠的資料成熟度,即具備正確處理與應用資料的整體能力,方能系統性的落實管理與治理工作。 根據《手冊》內容,透過資料治理,企業或組織將能確保資料品質、透明度及安全性,並基於可信任的資料進行決策,進而有效提升決策精準度,實現風險管理與法規遵循,進一步強化自身在資料經濟中的「價值」、「信任」與「公正性」。 我國企業如欲逐步建立並落實貫穿資料生命週期的資料治理機制,可參考資訊工業策進會科技法律研究所創意智財中心所發布之《重要數位資料治理暨管理制度規範》,作為制度設計與實務推動之參考,以強化資料治理能力。 本文為資策會科法所創智中心完成之著作,非經同意或授權,不得為轉載、公開播送、公開傳輸、改作或重製等利用行為。 本文同步刊登於TIPS網站(https://www.tips.org.tw)
智慧城市-美國最新政策發展美國政府在2015年9月14日發布,將投入超過1.6億美元(約台幣50億元)於新的「智慧城市計畫」(Smart Cities Initiative)。透過中央政府的研究,以及全美國超過二十個城市的合作,來共同著手城市主要面臨的問題,包含:減緩交通阻塞、對抗犯罪問題、促進經濟成長、對於氣候變遷影響的管理、改善城市服務的遞送問題等。此戰略主要有四個策略方案:(一)創造「智慧聯網」應用的試驗平台,並發展新的多部門合作模式;(二)致力於城市科技相關的活動,並打造城市之間的合作;(三)善用現有的中央政府資源;(四)追求國際間合作。 而在十月份,美國白宮公佈由國家經濟委員會(National Economic Council)與國家科學與技術政策辦公室(Office of Science and Technology Policy)共同完成的「美國創新戰略」(A Strategy for American Innovation)中,明確地指出美國國家的突破重點領域為:解決國家及全球性的挑戰(Tackling Grand Challenges)、精密醫療、健康照護、先進的運輸工具、智慧城市、乾淨能源與能源效率、教育科技等面向。此戰略報告係延續美國白宮於2011年,由相同組織單位所完成的「美國創新戰略-確保經濟發展與繁榮」(A Strategy for American Innovation – Securing Our Economic Growth and Prosperity),其中列舉出國家的目標政策為:能源改革、生物科技、太空探索、醫療健康與教育科技。相較下,十月份甫公佈的美國「創新戰略」則更明確的將「智慧城市」之發展設為重點政策。 美國政府將投入協助芝加哥(Chicago)「科技計畫」(Tech Plan)中的子計畫-「城市感測器專案」(Array of Things, AoT),發展當地下一代智慧聯網的基礎設施,包括運用內建Wi-Fi的感測器裝置路燈,使其能夠有照明的基本功能外,還能蒐集諸如人潮流量、天氣、濕度、空氣品質、亮度、聲音大小等數據。 在此戰略推動之下,美國主要之智慧城市發展的實例,如匹茲堡(Pittsburgh)的前導計畫(pilot project),係藉由交通網絡之間的交通號誌整合,得以優化地區性的交通吞吐量,讓平均降低將近百分之二十五的交通時間。另外,在肯塔基州(Kentucky)的最大城市-路易斯維爾(Louisville),利用具有感測功能之哮喘吸入器所蒐集的資料,統整出哮喘發生的「熱點」,以及空氣品質等級等其他環境因素,作為該州政府政策制定參考依據。
用ChatGPT找法院判決?從Roberto Mata v. Avianca, Inc.案淺析生成式AI之侷限用ChatGPT找法院判決?從Roberto Mata v. Avianca, Inc.案淺析生成式AI之侷限 資訊工業策進會科技法律研究所 2023年09月08日 生成式AI是透過研究過去資料,以創造新內容和想法的AI技術,其應用領域包括文字、圖像及影音。以ChatGPT為例,OpenAI自2022年11月30日發布ChatGPT後,短短二個月內,全球月均用戶數即達到1億人,無疑成為民眾日常生活中最容易近用的AI科技。 惟,生成式AI大量使用後,其中的問題也逐漸浮現。例如,ChatGPT提供的回答僅是從所學習的資料中統整歸納,無法保證資料的正確性。Roberto Mata v. Avianca, Inc.案即是因律師利用ChatGPT撰寫訴狀,卻未重新審視其所提供判決之正確性,以致後續引發訴狀中所描述的判決不存在爭議。 壹、事件摘要 Roberto Mata v. Avianca, Inc.案[1]中,原告Roberto Mata於2019年8月搭乘哥倫比亞航空從薩爾瓦多飛往紐約,飛行過程中膝蓋遭空服員的推車撞傷,並於2022年2月向法院提起訴訟,要求哥倫比亞航空為空服員的疏失作出賠償;哥倫比亞航空則主張已超過《蒙特婁公約》(Montreal Convention)第35條所訂之航空器抵達日起兩年內向法院提出損害賠償之請求時效。 R然而,法院審理過程中發現原告訴狀內引用之六個判決無法從判決系統中查詢,進而質疑判決之真實性。原告律師Steven A. Schwartz因而坦承訴狀中引用的六個判決是ChatGPT所提供,並宣稱針對ChatGPT所提供的判決,曾多次向ChatGPT確認該判決之正確性[2]。 貳、生成式AI應用之潛在風險 雖然運用生成式AI技術並結合自身專業知識執行特定任務,可能有助於提升效率,惟,從前述Roberto Mata v. Avianca, Inc.案亦可看出,依目前生成式AI技術之發展,仍可能產生資訊正確性疑慮。以下彙整生成式AI應用之8大潛在風險[3]: 一、能源使用及對環境危害 相較於傳統機器學習,生成式AI模型訓練將耗費更多運算資源與能源。根據波士頓大學電腦科學系Kate Saenko副教授表示,OpenAI的GPT-3模型擁有1,750億個參數,約會消耗1,287兆瓦/時的電力,並排放552噸二氧化碳。亦即,每當向生成式AI下一個指令,其所消耗的能源量相較於一般搜尋引擎將可能高出4至5倍[4]。 二、能力超出預期(Capability Overhang) 運算系統的黑盒子可能發展出超乎開發人員或使用者想像的隱藏功能,此發展將會對人類帶來新的助力還是成為危險的阻力,則會隨著使用者之間的相互作用而定。 三、輸出結果有偏見 生成式AI通常是利用公開資料進行訓練,若輸入資料在訓練時未受監督,而帶有真實世界既存的刻板印象(如語言、種族、性別、性取向、能力、文化等),據此建立之AI模型輸出結果可能帶有偏見。 四、智慧財產權疑慮 生成式AI進行模型訓練時,需仰賴大量網路資料或從其他大型資料庫蒐集訓練資料。然而,若原始資料來源不明確,可能引發取得資料未經同意或違反授權條款之疑慮,導致生成的內容存在侵權風險。 五、缺乏驗證事實功能 生成式AI時常提供看似正確卻與實際情形不符的回覆,若使用者誤信該答案即可能帶來風險。另外,生成式AI屬於持續動態發展的資訊生態系統,當產出結果有偏誤時,若沒有大規模的人為干預恐難以有效解決此問題。 六、數位犯罪增加與資安攻擊 過去由人工產製的釣魚郵件或網站可能受限於技術限制而容易被識破,然而,生成式AI能夠快速建立具高度說服力的各種擬真資料,降低詐騙的進入門檻。又,駭客亦有可能在不熟悉技術的情況下,利用AI進一步找出資安弱點或攻擊方法,增加防禦難度。 七、敏感資料外洩 使用雲端服務提供商所建立的生成式AI時,由於輸入的資料存儲於外部伺服器,若要追蹤或刪除有一定難度,若遭有心人士利用而導致濫用、攻擊或竄改,將可能產生資料外洩的風險。 八、影子AI(Shadow AI) 影子AI係指開發者未知或無法控制之AI使用情境。隨著AI模型複雜性增加,若開發人員與使用者未進行充分溝通,或使用者在未經充分指導下使用 AI 工具,將可能產生無法預期之風險。 參、事件評析 在Roberto Mata v. Avianca, Inc.案中,法院關注的焦點在於律師的行為,而非對AI技術使用的批判。法院認為,隨著技術的進步,利用可信賴的AI工具作為協助用途並無不當,惟,律師應踐行其專業素養,確保所提交文件之正確性[5]。 當AI科技發展逐漸朝向自主與獨立的方向前進,仍需注意生成式AI使用上之侷限。當個人在使用生成式AI時,需具備獨立思考判斷的能力,並驗證產出結果之正確性,不宜全盤接受生成式AI提供之回答。針對企業或具高度專業領域人士使用生成式AI時,除確認結果正確性外,更需注意資料保護及治理議題,例如建立AI工具合理使用情境及加強員工使用相關工具之教育訓練。在成本能負擔的情況下,可選擇透過企業內部的基礎設施訓練AI模型,或是在訓練模型前確保敏感資料已經加密或匿名。並應注意自身行業領域相關法規之更新或頒布,以適時調整資料使用之方式。 雖目前生成式AI仍有其使用之侷限,仍應抱持開放的態度,在技術使用與風險預防之間取得平衡,以能夠在技術發展的同時,更好地學習新興科技工具之使用。 [1]Mata v. Avianca, Inc., 1:22-cv-01461, (S.D.N.Y.). [2]Benjamin Weiser, Here’s What Happens When Your Lawyer Uses ChatGPT, The New York Times, May 27, 2023, https://www.nytimes.com/2023/05/27/nyregion/avianca-airline-lawsuit-chatgpt.html (last visited Aug. 4, 2023). [3]Boston Consulting Group [BCG], The CEO’s Roadmap on Generative AI (Mar. 2023), https://media-publications.bcg.com/BCG-Executive-Perspectives-CEOs-Roadmap-on-Generative-AI.pdf (last visited Aug. 29, 2023). [4]Kate Saenko, Is generative AI bad for the environment? A computer scientist explains the carbon footprint of ChatGPT and its cousins, The Conversation (May 23, 2023.), https://theconversation.com/is-generative-ai-bad-for-the-environment-a-computer-scientist-explains-the-carbon-footprint-of-chatgpt-and-its-cousins-204096 (last visited Sep. 7, 2023). [5]Robert Lufrano, ChatGPT and the Limits of AI in Legal Research, National Law Review, Volume XIII, Number 195 (Mar. 2023), https://www.natlawreview.com/article/chatgpt-and-limits-ai-legal-research (last visited Aug. 29, 2023).