AI모델의 편향성 – What, Why, and How

필자가 본 포스팅에서 다루고자 하는 주제는 “AI모델의 편향성이란 무엇인지(What), 왜 관심을 기울여야 하는지(Why), 편향 없는 공정한 AI모델을 어떻게 적용 할 수 있는지(How)에 관한 것이다.

우선 글의 범위를 정의하자면,
기업의 IT/디지털 전략 하위 요소 인 “AI(인공지능) 전략체계”는 크게 Why(비전, Use Case 및 로드맵), Who(조직, AI Talents), How(AI솔루션 개발 및 운영 프로세스, 윤리적인 AI적용), With What(Use Case 및 로드맵 실현을 위한 Data전략, 클라우드 플랫폼 등) 4가지 관점으로 구성된다.

How 하위의 “윤리적인 AI적용”은 최소 8가지 광범위한 주제들이 시장에서 논의되고 있는데(상세 – 아래 테이블), 본 포스팅에서는 “편향성(Bias)”에 대해 기업 Executive이 쉽게 이해할 수 있도록 설명 하고자 한다.

What – 기업 의사결정 프로세스가 자동화될 경우, 발생 할 수 있는 편향성(Bias)이란 무엇인가?

우선 ‘AI(인공지능)’은 머신러닝, 딥러닝, 자연어처리, 최적화, 시각화, 로보틱스, 사이버 등 굉장히 많은 기술요소들을 포함하기에 편향성에 대해 논의하려면 ‘머신러닝/딥러닝’으로 범위를 한정해야 한다.(머신러닝/딥러닝 기반 자연어 처리 등 유관기술 포함).

또한 ‘인공지능 윤리’라는 표현 역시 굉장히 많은 오해를 불러 일으키기에(인공지능 자체가 윤리적/비윤리적 판단을 하는 것처럼 들리기 때문. 실상은 그렇지 않음), 필자는 ‘윤리’라는 표현은 지양할 것이다.

자 그럼, 편항성(Bias)이란 무엇일까? 예를 들어, CCTV로 촬영되는 사람의 이미지를 실시간으로 분석하여(사전 훈련된 딥러닝 모델 기반) 범죄 확률을 추출하였더니, 전반적으로 백인의 확률이 흑인보다 낮고, 높은 확률로 인해 요주위 인물로 관찰된 흑인여성은 정작 범죄이력 등이 전혀 없고 앞으로 범죄를 저지를 동기 등이 전혀 없었다면(그리고 정작 과거 범죄이력이 많은 백인 남성의 경우 확률이 아주 낮았다면) ‘딥러닝 모델이 편향되었다’ 표현 할 수 있다. – 실제 최근 기사 ‘IBM등이 경찰에 안면인식 기술을 제공하는 것을 중단‘에서 가져온 예이다.

또 다른 예로, HR에서 수천개의 이력서 중 가장 뛰어난 지원자 5명을 머신러닝 모델이 선정하도록 하였더니, 남성 지원자만 지속 추천하여 여성에게 인터뷰 기회조차 가지 않는다면, ‘머신러닝 모델이 편향되었다’라고 표현 할 수 있다. 과거 수년간 최종적으로 선발된 지원자는 대부분 남성 엔지니어였으며 이를 반영하는 학습데이터가 모델 개발에 사용된 것이 원인이었다. – 실제 이슈화 되어 사라진 ‘아마존의 리쿠르팅 모델‘에서 가져온 예이다.

위 사례들의 공통점은 머신러닝/딥러닝 모델이 예측한 결과가 의사결정에 대부분 직접적으로 반영된다는 것이다. (뛰어난 지원자 5명안에 들어가지 못한 이력서는 HR에서 열람해보지 않을 것이며, IBM등의 안면인식 기술을 사용하는 경찰에서는 예측확률이 높은 이들만 관찰할 것이다.)

즉, 기업에 머신러닝/딥러닝 모델이 적용되어 있으나 어디까지나 예측확률 지수는 참고지표로만 활용될 뿐,비즈니스에 의해(Human Agents) 의사결정이 이루어 진다면 편항성이 크게 이슈화되지 않을 것이다. 이에 기업 Executive들께서는 당장은 아래 Why/How에 관심을 두지 않으셔도 무방하다. 대신 머신러닝/딥러닝 모델에 의한 기업의 의사결정 자동화 수준을 지속적으로 모니터링 할 것을 추천 드린다.

결론적으로 편향성을 정의한다면 이렇게 정의하고 싶다. 위 아마존 사례를 다시 예로 든다면, 현재까지 대부분의 최종합격자가 남성이었던 것은 남성 엔지니어 지원자 비중이 워낙 높고 이들의 유관 교육이나 경력사항이 적합하여 인터뷰에서 좋은 성과를 보였기 때문 등의 이유일 것이다. 하지만 여성 엔지니어가 적합한 교육과 경력사항을 보유하였고 인터뷰에서 잘한다면 당연히 사람인 면접관들은 여성 엔지니어를 선발할 것이다. 하지만 머신러닝/딥러닝 모델의 과거 데이터 기반의 학습 과정을 관찰해보면, 이렇게 모델에게 최종인터뷰 대상자 5명 선발을 맡길 경우, 여성이 포함될 확률이 거의 없는 ‘특권층 편향’이 쉽게 발생 할 수 있음을 알 수 있다. 이를 머신러닝/딥러닝 모델에 의해 유발되는 ‘편향성’이라고 정의 할 수 있겠다.

Why – 편향성 없는 공정한 AI모델 적용에 관심을 가져야 하는 이유

위 아마존 리쿠르팅 모델, 안면인식 모델 외에도 보험사의 클레임 및 언더라이트 심사 자동화 모델, 은행의 대출심사 자동화 모델 등이 편향성 측정과 공정성 확보의 대상이 될 수 있다. Next Best Offering등 고객대상 캠페인이 자동화 될 경우 역시 마찬가지 이다. 향후 인공지능에 많은 투자를 계획하고 있다면 편향성에 대해서는 C레벨에서 많은 관심을 두어야만 한다.

그렇다면, 구체적으로 C레벨에서 관심을 가져야 하는 이유는 무엇일까?

첫번째로, 기업의 핵심가치와 모델기반 의사결정 간의 합치(Alignment) 관점이다. 머신러닝/딥러닝 모델은 정기적으로 새로운 과거데이터에 의해 학습될 것이며 자동화된 의사결정을 위한 예측확률 지수를 비즈니스에 제공할 것이다. 이에, 머신러닝/딥러닝 모델의 편향성을 지속적으로 점검하는 것은
지속가능하며 차별없는고객 관련 비즈니스 의사결정 체계 형성에 도움을 줄 것이다.

두번째로, 편향성 없는 공정한 머신러닝/딥러닝 모델의 ‘자발적’ 적용은 기업의 브랜드 가치 향상에 도움을 준다. 대표적인 사례로 카카오에서 알고리즘 윤리헌장 발표 시 ‘왜’라는 부분에 대한 인터뷰 내용이 기억에 남는다.

“카카오가 AI 기업윤리 헌장을 발표하는 건 어쩌면 큰 리스크를 안고 가는 셈이다. 그럼에도 이를 발표하고 발전시키는 이유는 이용자와 신뢰관계를 강화하기 위해서다”.

현 정부에서 국가 AI전략이 수립되었고, 영국, 싱가폴, 호주 등 해외사례에서 알 수 있듯, 수년 내 윤리적 머신러닝/딥러닝 모델 적용 관련 규제들이 강제화 될 것으로 개인적으로 예상한다. 향후 전략적으로 머신러닝/딥러닝 모델에 많은 투자를 계획하고 있다면, ‘편향성 없는 모델 적용’이라는 주제 역시 로드맵안에 포함해야 한다는 것이 필자의 제언이다.

“AI should provide great benefits. However could also cause great harm if not approached ethically” – Catriona Wallace

“When the data we feed the machines reflects the history of our own unequal society, we are in effect asking the program to learn our own biases” – Adair Morse

How – 편향은 왜 발생하며, 어떻게 공정(Fairness)한 모델을 비즈니스에 적용할 수 있을까?

그렇다면 좀 더 구체적으로, 편향은 왜 발생하며 머신러닝/딥러닝 모델이 공정성(Fairness)을 갖게한다는 것은 무엇일까? 다양한 원인이 존재하나, 가장 큰 이유는 두 가지이다.

첫 번째, 현실자체에서 편향 또는 차별이 이미 발생하고 있기 때문이다.

두번째, 전반적으로 보면 편향 또는 차별이 발생하지 않고 있으나 편향이 발생했던 특정 시기나 소그룹으로부터 머신러닝 모델 개발을 위한 학습데이터(Training Data)를 추출하였기 때문이다.

(기타 여러가지 기술적인 이유들도 존재함. 예를 들어 앞서 언급된 아마존 사례처럼 ‘알고리즘 자체’가 편향을 최소화하기에는 미성숙한 케이스도 존재함. 이는 알고리즘 대체 등 기술적인 방법으로 공정성을 확보할 수 있음).

첫번째의 경우는 현존하는 기업의 의사결정 프로세스와 거버넌스 체계를 개선하지 않고서는 방법이 없다. 어떻게 사람에 의해 의사결정을 할 경우에도 편향 또는 차별이 존재하는데 머신러닝 모델(과거 데이터로부터 배워 알고리즘을 생성하고 예상 확률을 추출해내는)이 편향적이지 않겠는가?

두번째의 경우, CDO/CIO 주도로 ‘편향성 측정’ 프로세스를 도입할 수 있다. 즉, 내부 데이터과학팀 또는 외부벤더로 부터 개발 된 모델이 실제 비즈니스에 적용되기 이전에 편향성을 정량적으로 측정하는 것이다. 편향되었을 경우, 공정성을 갖도록 모델을 개선하기 위한 많은 Tools들이 이미 해외에서는 금융권을 필두로 비즈니스에 도입되어 있다.(필자가 재직 중인 은행은 싱가폴 정부와 고객신용평가 모델의 편향성을 정량적으로 측정하고, 편향된 모델의 공정성을 확보하기 위한 오픈소스 개발 프로젝트를 진행해 오고 있다)

편향성 없는 공정한 머신러닝/딥러닝 모델이 무엇이며(What), 왜 우리회사에 도입해야 하는지 확신이 생겼다면(Why), 다음 포스팅에서 공유될 How관련 Resource들(각국 모델 편향성 관련 규제 현황, 정량적 편향성 측정을 위한 오픈소스 Tools & Metrics, To-Be Process 디자인 방법, 체크리스트 등) 을 활용할 방법을 실무진들과 논의하여 보시길 추천 드린다.

하지만, 무수히 많은Tool들은 말 그대로 ‘도구’ 일 뿐, 자체적인 프레임워크(우리 회사에 어느 정도 수준으로 편향성 없는 AI모델을 적용할 것인지, 관련 조직/정책/프로세스/시스템 들을 어떤 방향으로 정비하여 나갈 것인지 등) 개발이 선행 되어야 한다. 프레임워크 개발 관련하여 심도있는 논의가 필요한다면, 필자의 이메일(블로그 내 About 페이지)로 연락 주시길 바란다.

이 글 공유하기:

댓글 남기기 응답 취소