[Designing Machine Learning Systems] 머신러닝의 인간적 측면

사용자와 시스템 개발자가 ML 시스템과 상호 작용하는 방법을 알아본다.

먼저, ML 모델의 확률론적 특성으로 인해 사용자 경험이 어떻게 변경되고 영향받는지 논의한다. 이어서 한 ML 시스템의 여러 개발자가 효과적으로 협업하도록 하는 조직 구조를 알아본다. 마지막으로 ML 시스템이 사회 전체에 어떤 영향을 미치는지 논의한다.

11.1 사용자 경험

ML 시스템이 좋은 사용자 경험에 제기하는 세 가지 난제와 그 해결 방안을 논의한다.

11.1.1 사용자 경험 일관성 보장하기

사용자는 앱이나 웹사이트를 사용할 때 일정 수준의 일관성을 기대한다.

ML 예측은 확률론적이며 일관적이지 않다.

사용자 경험을 개선하려는 작업에서 일관적이지 않은 ML 예측이 방해가 된다(ex. 부킹닷컴 필터 추천 사례).

시스템에서 가장 정확하다고 간주하는 추천 사항이 사용자에게 일관성을 제공하는 추천 사항이 아닐 수도 있다. (consistency-accuarcy trade-off)

11.1.2 ‘대부분 맞는’ 예측에 맞서기

ChatGPT와 같은 일반적으로 잘 동작하는 언어 모델은 모델 예측에서 일관성이 떨어지고 다양성이 높아지는 대표적인 사례이다.

단점은 예측이 항상 옳지는 않으며(대부분 맞으며) 예측을 개선하기 위해 작업 별 데이터를 미세 조정하는 비용이 높다는 점이다. 대부분 맞는 예측은 예측 결과를 쉽게 수정할 수 있는 사용자에게 유용하다.

반면 사용자가 응답을 수정하는 방법을 모르거나 수정할 수 없다면 그다지 유용하지 않다.

이를 극복하기 위한 접근법은 동일한 입력에 대한 여러 예측 결과를 사용자에게 표시해 적어도 하나 이상이 맞을 가능성을 높이는 것이다.

이 접근법은 매우 일반적이며 ‘휴먼 인 더 루프(human-in-the-loop)’ AI라고도 한다. 인간이 개입해 최상의 예측을 선택하거나 기계가 생성한 예측을 개선하기 때문이다.

11.1.3 원만한 실패

모델이 응답하기까지 너무 오래 걸리는 쿼리는 어떻게 해야 할까?

회사 중 일부는 백업 시스템을 활용한다. 이러한 시스템은 휴리스틱이나 단순 모델일 수 있으며, 미리 계산된 예측을 캐싱할 수도 있다. 즉, ‘주 모델이 예측을 생성하는 데 X밀리초보다 오래 걸리면 대신 백업 모델을 사용하세요.’와 같이 규칙을 정한다. 일부 회사는 간단한 규칙을 사용하는 대신 또 따른 모델을 사용해, 주 모델이 주어진 쿼리에 대한 예측을 생성하는 데 걸리는 시간을 예측하고 해당 예측을 주 모델 혹은 백업 모델에 적절히 라우팅한다.

여기에는 속도-정확도 트레이드오프가 있다. 어떤 모델은 다른 모델보다 성능은 낮지만 추론을 훨씬 더 빨리 수행한다.

11.2 팀 구조

다양한 이해관계자가 있을 때 최적의 ML 팀 구조는 무엇일까?

11.2.1 크로스-펑셔널 팀 협업

ML 시스템을 설계할 때 종종 SME(도메인 전문가)를 간과하지만, 많은 시스템이 해당 주제에 대한 전문 지식 없이는 작동하지 않는다.

SME가 프로젝트 계획 단계 초기에 참여하도록 하고, 엔지니어들에게 권한 부여를 요청하지 않고도 프로젝트에 기여할 수 있도록 해야 한다. 많은 기업에서 코드를 작성하지 않고도 변경 가능한 노코드 및 로우코드 플랫폼을 구축해 SME가 ML 시스템 개발에 더 많이 참여하도록 돕고 있다.

11.2.2 엔드-투-엔드 데이터 과학자

ML 프로덕션은 ML 문제일 뿐 아니라 인프라의 문제이기도 하다. ML 전문 지식뿐 아니라 배포, 컨테이너화, 작업 오케스트레이션 및 워크플로 관리와 관련된 운영 전문 지식이 필요하다.

기업에서는 이러한 전문성을 ML 프로젝트에 적용하기 위해 다음 두 접근법 중 하나를 따르는 경향이 있다.

접근법 1: 별도의 팀을 구성해 프로덕션 관리하기

데이터 과학 및 ML 팀은 개발 환경에서 모델을 개발한다. 그리고 별도의 팀이 프로덕션 환경에 모델을 배포한다. 이 접근법을 사용하면 인력을 고용하기가 보다 용이하고, 개개인이 한 가지에만 집중하면 되니 삶이 보다 편해진다. 하지만 다음처럼 단점도 많다.

커뮤니케이션 및 조정 오버헤드
디버깅 난제
책임 미루기
좁은 맥락: 어느 누구도 전체 프로세스를 개선하는 가시성을 가지고 있지 않다.

접근법 2: 데이터 과학자가 전체 프로세스를 담당하도록 하기

이 접근법을 사용할 때 데이터 과학 팀은 모델의 프로덕션 적용 또한 고려해야 한다. 데이터 과학자는 프로세스에 관한 모든 것을 알고 있는 유니콘이 되어 데이터 과학보다는 상용 코드를 더 작성하게 될 수도 있다.

유진 옌은 데이터 과학자가 데이터 가공, 모델 훈련, 모델 배포, 모델 운영까지 직접 수행해야 한다는 내용으로 게시글을 작성했다. 스티치 픽스의 최고 알고리즘 책임자이자 전 넷플릭스 데이터 과학 및 엔지니어링 부사장인 에릭 콜슨은 ‘풀스택 데이터 과학 제너럴리스트의 힘 그리고 기능을 통한 분업의 위험성‘을 주제로 글을 작성했다.

하지만 저수준 인프라에 필요한 기술은 데이터 과학과는 매우 다르기에 데이터 과학자가 이것을 알기를 기대하는 것은 비합리적이다.

데이터 과학자가 전체 프로세스를 담당하려면 좋은 도구가 필요하다. 즉, 좋은 인프라가 필요하다. 프로세스를 엔드-투-엔드로 담당할 수 있도록 하는 추상화가 있다면 어떨까? “컨테이너화, 분산 처리, 자동 장애 조치 및 기타 고급 컴퓨터 과학 개념의 복잡성으로부터 데이터 과학자를 추상화”하는 도구가 필요하다.

넷플릭스의 풀 사이클 개발자

넷플릭스 모델에서 전문가들, 즉 처음에 프로젝트 일부를 담당했던 사람들은 먼저 위 그림과 같이 자신이 담당하는 부분을 자동화하는 도구를 만든다. 데이터 과학자는 이러한 도구를 활용해 프로젝트를 엔드-투-엔드로 담당한다.

11.3 책임 있는 AI

책임 있는 AI란 사용자에게 권한을 부여하고, 신뢰를 낳고, 사회에 공정하고 긍정적인 영향을 보장하기 위해 좋은 의도와 충분한 인식으로 AI 시스템을 설계, 개발, 배포하는 관행을 말한다. 공정성, 개인 정보 보호, 투명성, 책임과 같은 영역으로 구성된다.

ML 시스템 개발자는 시스템이 사용자와 사회 전반에 어떤 영향을 미칠지 고려해야 하며, 더 나아가 시스템에 윤리, 안전 및 포괄성을 구체적으로 구현해 모든 이해관계자가 사용자에 대한 책임을 인식하도록 도울 책임이 있다.

이 절에서는 ML 시스템을 책임 있게 만들기 위해 충분한 노력을 기울이지 않을 때 발생하는 문제를 간략히 소개한다.

11.3.1 무책임한 AI: 사례 연구

조직이 잘못한 부분이 무엇이며 실무자가 이러한 실패 지점을 예측하기 위해 무엇을 할 수 있었는지 짚어보자.

사례 연구 1: 자동 채점기의 편향

2020년 여름, 영국은 코로나19로 인해 대학 배치를 결정하는 중요한 시험인 A-레벨을 취소했다. 영국의 교육 및 시험 규제 기관인 오프퀄은 시험을 치르지 않고 학생들에게 최종 A-레벨 성적을 할당하는 자동화 시스템의 사용을 승인했다.

하지만 이 알고리즘에 따른 결과는 부당하고 신뢰할 수 없는 것으로 밝혀졌다. 이 알고리즘을 살펴보면 자동 채점 시스템을 설계하고 개발하는 과정에 적어도 세 가지 실패가 있음을 파악할 수 있다.

실패 1: 잘못된 목표 설정

학생에게 점수를 매기는 자동 채점 시스템을 개발할 때 시스템 목표가 ‘채점 정확도’라고 생각했을 것이다. 반면에 오프퀄은 학교 간의 ‘기준 유지’를 목표로 모델을 최적화했다.

학생의 현재 성적보다 학교의 과거 입시 실적을 우선시함으로써, 소외 계층 학생이 많이 재학하는 자원 부족 학교의 학생들에게 불이익을 줬다.

실패 2: 편향을 발견하는 세분화된 모델 평가 부족

교사의 평가를 입력으로 고려했지만 전체 인구통계학적 그룹에서 교사의 평가 불일치를 해결하지는 못했다. 교사의 낮은 기대치와 일부 학교에 만연한 인종 차별로 인해 이중, 삼중으로 불이익을 받게 됐다. 소규모 학교의 경우 과거 입시 실적 데이터가 부족해 교사가 평가한 등급만으로 학생을 평가하기도 했다.

오프퀄이 모델이 예측한 성적을 공개하고 다양한 데이터 샘플로 세분화된 평가를 수행했다면 이러한 편향을 발견할 수 있었을 것이다.

실패 3: 투명성 부족

오프퀄은 알고리즘 자동 채점기의 중요한 측면을 너무 늦게 공개했다. 시스템의 목적이 학교 간의 공정성을 유지하는 것임을 성적이 발표되는 날까지 대중에게 알리지 않았다.

교사들이 학생 평가 및 석차를 제출한 뒤에도 자동 채점기가 그것을 어떻게 사용할지 교사들에게 알리지 않았다. 교사가 모델 예측에 영향을 미치게끔 평가를 수정하는 것을 방지하기 위함이었다. 다만 오프퀄은 모델 개발을 공개하지 않기로 결정했으므로 시스템은 독립적인 외부 조사를 충분히 받지 못했다.

이 사례 연구는 알고리즘으로 무엇을 자동화해야 하며 무엇을 자동화하지 말아야 하는지 사이의 모호한 경계를 보여주는 전형적인 예시이다.

사례 연구 2: 익명화된 데이터의 위험성

이 사례 연구는 알고리즘이 명백한 원인이 아니기에 더 흥미롭다. 오히려 민감한 데이터가 유출되도록 하는 요인은 데이터 인터페이스와 데이터 수집의 설계 방식이다.

데이터셋을 수집하고 공유함으로써 데이터셋의 일부인 사용자의 개인 정보와 보안이 침해되기도 한다. 사용자 보호를 위해 개인 식별 정보(PII)를 익명화해야 한다는 주장이 제기되기도 했다.

하지만 익명화는 개인 정보를 보호하고 데이터 오용을 막는 데 충분하지 않다.

2018년 온라인 피트니스 트래커 스트라바는 전 세계 사용자가 달리기, 조깅, 수영 등 운동을 한 경로를 기록한 히트맵을 게시했다. 스트라바는 “사용한 데이터가 익명화됐으며 사용자가 비공개나 개인 정보 보호 영역으로 지정한 활동은 제외했습니다.”라고 말했다.

그런데 군인들도 스트라바를 사용했고, 데이터를 익명화했음에도 사람들이 스트라바의 공개 데이터로 해외 미군 기지의 활동을 드러내는 패턴을 알아챌 수 있었다.

그렇다면 익명화는 어디서부터 잘못됐을까? 스트라바의 개인 정보 설정은 기본적으로 옵트아웃이었다. 사용자가 데이터 수집을 원하지 않으면 수동으로 선택을 해제해야 했다.

문제를 방지하기 위해 데이터 옵트인, 기본적으로 데이터를 수집하지 않는 설정을 기본값으로 했어야 했다.

이 사례 연구는 데이터를 수집하고 공유함에 따라, 데이터를 익명화하고 선의로 공개한 경우에도 잠재 위험이 있음을 보여준다.

11.3.2 책임 있는 AI의 프레임워크

모델 편향의 출처 찾아내기

편향은 워크플로 전체에서 발생한다. 다음은 데이터 소스의 예이며 이 목록 외에도 많은 소스가 있다. 편향을 해결하기 어려운 이유 중 하나는 편향이 프로젝트 수명 주기 내 어느 단계에서든 발생할 수 있기 때문이다.

훈련 데이터
모델 개발에 사용한 데이터가 모델이 실제로 처리할 데이터를 대표하는가?
레이블링
레이블 품질을 어떻게 측정할까?, 주관적인 경험이 아닌 표준 지침을 따르도록 하려면 어떻게 해야하는가?
피처 엔지니어링
민감한 정보가 포함된 피처를 사용하는가?, 일부 집단의 사람들에게 이질적인 영향을 끼치는가?
모델의 목표
모든 사용자에게 공평하게 적용될 수 있는 목표로 모델을 최적화하고 있는가?
평가
다양한 사용자 그룹에 대한 모델의 성능을 이해하기 위해 적절하고 세분화된 평가를 수행하고 있는가?

데이터 기반 접근법의 한계 이해하기

데이터는 실제 사람들에 관한 것이며 고려해야 할 사회경제적, 문화적 측면이 있다. 우리가 구축하는 ML 시스템에 영향받을 사람들의 실제 경험을 녹여낼 수 있도록 현업의 도메인 전문가와 논의해 도메인 지식(규율, 기능 등)을 파악해야 한다.

서로 다른 요구 사항 간의 트레이드오프 이해하기

개인 정보 보호와 정확도 간의 트레이드오프
차등 개인 정보 보호는 ML 모델의 훈련 데이터에 흔히 사용되는 기술이다. 이때 트레이드오프는 차등 개인 정보 보호가 제공하는 개인 정보 보호 수준이 높을수록 모델 정확도가 낮아진다는 점이다. 특히 과소 대표된 클래스와 하위 그룹에서 크게 감소한다고 한다.
간결함과 공정성 간의 트레이드오프
모델 압축 시 정확도 손실이 소수의 클래스에만 집중될 수 있다. 2019년 논문 ⌜What Do Compressed Deep Neural Networks Forget?⌟에서는 “서로 다른 개수의 가중치를 가진 모델이 비슷한 최상위 성능 지표를 갖지만, 데이터셋의 샘플 데이터 집합에서는 추론 결과가 매우 다르다”는 것을 발견했다. 예를 들어, 성별, 인종, 장애 등 보호된 피처가 데이터 분포의 롱테일 클래스일 때, 즉 저빈도 클래스일 때 압축 기술이 정확도 손실을 증폭한다.

사전 대응하기

ML 시스템 개발 주기가 빨라질수록 ML 시스템이 사용자의 삶에 어떤 영향을 미치는지, 어떤 편향을 가지는지 생각해야 한다. 이러한 편향을 미리 해결하는 편이 비용이 낮을 것이다. NASA의 연구에 따르면 소프트웨어 개발에서는 프로젝트 수명 주기의 단계가 넘어갈수록 오류 비용이 몇 배씩 증가한다.

모델 카드 생성하기

논문 ⌜Model Cards for Model Reporting⌟에 따르면 모델 카드는 모델이 사용되는 컨텍스트와 제한 사항 또한 공개하며 “모델 카드의 목표는 이해관계가자 배포를 위한 후보 모델을 비교할 때 전통적인 평가 지표뿐 아니라 윤리적, 포괄적, 공정한 고려 사항의 축을 따르도록 함으로써 윤리적 관행과 보고를 표준화하는 것”이다.

다음은 모델에 대해 보고할 수 있는 정보이다.

모델 세부 정보
사용 목적
요인
지표
평가 데이터
훈련 데이터
정량적 분석
윤리적 고려 사항
주의 사항과 권장 사항

모델 카드는 ML 모델 개발의 투명성을 높여준다. 모델 사용자가 해당 모델을 개발한 사람이 아닌 경우에 특히 중요하다.

편향 완화를 위한 프로세스 수립하기

책임 있는 AI를 구축하는 프로세스는 복잡하며, 프로세스가 임시방편적일수록 오류가 발생할 여자가 더 많다. 책임 있는 ML을 위해 체계적인 프로세스를 수립해야 한다.

다양한 이해관계자가 접근하기 쉬운 내부 도구 포트폴리오를 만들면 좋다.

책임 있는 AI에 관한 최신 정보 파악하기

계속해서 새로운 편향이 발견되고 있으며 책임 있는 AI에 관한 난제도 끊임없이 새로 등장한다. 이러한 편향과 난제에 맞서기 위한 기술 또한 활발히 개발되고 있다. 최신 연구 동향을 파악하는 것이 중요하다. ACM FaccT 컨퍼런스, 파트너십 온 AI, 앨런 튜링 연구소의 Fairness, Transparency, Privacy 그룹, AI 나우 그룹을 참조하면 좋다.

11.4 정리

기술적 주제에서 벗어나 ML의 인간적 측면에 초점을 맞췄다.

ML 시스템의 확률론적이고, 대부분 맞으며, 레이턴시가 높은 특성이 사용자 경험에 어떻게 영향을 미치는지 살펴보았다.

ML 시스템을 구축하려면 여러 기술 세트가 필요할 때가 많고, 이러한 기술 세트를 어떻게 분산할지에 대해 논의했다.

마지막으로 가장 중요한 주제인 책임 있는 AI를 다뤘다.