AI & Data를 활용하는 기술경영자

Using natural language and program abstractions to instill human inductive biases in machines 본문

카테고리 없음

Using natural language and program abstractions to instill human inductive biases in machines

Data_Lover 2023. 2. 17. 13:07
728x90

모두의연구소 ASU LAB에서 2/17 논문 스터디를 진행하기 위해서 정리한 내용 입니다.

Agent

Abstract

강한 인지적 biases는 사람들이 다양한 tasks를 수행하고 배우는 능력을 빠르게 진행하도록 돕는다.

 

biases라는 것이 편견과 차별을 의미하는 부정적인 단어로 쓰일 수도 있지만, 살다보면 경험에 의해서 생기는 biases도 있다

그러한 biases가 여기서 말하는 것을 인지하면 됩니다.(아무래도 meta-learning이다 보니 biases가 많이 나옵니다.)

 

메타러닝이 유용한 귀납적 Biases로 neural networks이 부여되어서 학습하는 방법일지라도, 결국 사람이 수행하는 다양한 전략을 agents에 훈련을 시킨다.

 

인간에 의해서 생성된 descriptions 와 program induction model의 Co-training를 통해서 추상적으로 조정하는 부분을 줄이고 최대한 인간과 유사한 행동을 할 수 있도록 진행하는 meta-reinforcement learning agents를 진행하는 것이 Keys이다.

 Introduction

사람들은 광범위한 경험없이도 다양한 테스크를 빠르게 수행할 능력이 있다.(귀납적 편향)

--> abstract structured knowledge(hierarchies, compositionality)

      - strong prior knowledge

       - 새로운 데이터 및 새로운 환경일지라도 일반화를 하는 능력

기계 학습 연구자들이 위와 같은 인간의 능력을 neural network based learners(meta-lerning)에게 주입하고 싶은 것이 목표이다.

 

그러나 신경망은 쉽게 해석할 수 없기 때문에 구분 및  신경망이 실제로 이 추상 지식을 획득했는지 아는 것이 어려울 수 있습니다.
그래서, 추상적인 규칙과 관련된 통계적 아티팩트를 학습시켜서 agents를 만듭니다.

 

인공적인 agents는 인간의 귀납적 편향을 어떻게 따라하게 만들 수 있을까요?

이전 연구들을 보면, 강화학습을 통해서 신경망을 향상시켰고, 그 방식은, 여러 가지 다양한 종류의 표현을 생산 및 구성하여서 어떻게 반응해야하는지를 조사하였습니다.

 

[과거의 여러 표현 방식과 행동(인간의)] -> [어색하지 않게 여러 가지 규칙 부여]-> [생성]의 구조

2D binary grids: 특정 도메인을 meta 강화학습 작업을 수행하는 agents의 패턴 이해 경로

위의 이미지와 같은 방식은 성능 향상을 시키고, 인간과 유사한 행동을 이뤄낼 수 있습니다.

Dataset and task paradigm

핵심은 인간과 똑같이 행동하기가 아니라 인간과 유사하게 행동하면서 인간이 귀납적으로 인지하는 방법은 첨부하면서 인간과의 행동을 또 구별되게 하는 것입니다.

 

말이 정말 어려운 것 같습니다. 요약하면, "인간처럼 행동을 하기에 어색함은 없어야 하지만 인간과 동일하게 동일한 결과를 내는 것이 아니라 다른 방식으로 유사한 결과를 내는 것입니다."

 

Constructing a matched control distribution


인간의 결정에 의해 완전히 연결된 신경망(3개 레이어, 각 16개 단위)은
GSP 보드의 조건부 분포를 인코딩하도록 훈련이 되어있고, 이는 임의의 타일이 마스킹되고, 네트워크는 주어진 다른 타일의 값을 예측하도록 훈련됩니다(마스킹된 언어와 유사). 이러한 조건부 분포에는 다음에 대한 모든 관련 통계 정보가 포함되어 있습니다. 네트워크는 이 작업에서 99% 이상의 정확도를 달성했습니다.
그런 다음 이 네트워크는 생성에 사용된 것과 동일한 프로세스를 사용하여 샘플을 생성하는 데 사용됩니다.
Gibbs 샘플링을 통한 인간 사전 샘플. 각 타일이 무작위로 설정된 보드 확률 0.5의 빨간색 또는 흰색이 초기화되고 이 훈련된 네트워크는 마스킹된 예측에 사용됩니다. 조건부 모델은 GSP 보드에서 학습되므로 보드 세트를 생성합니다.
원래 GSP 보드와 유사한 통계적 특성을 가진(예: GSP 보드(평균=8.4, SD=2.26)는 제어 보드(평균=7.4,
SD=2.01), p = 0.12) 조건부 모델의 사전 값(즉, 훈련된 신경망)도 마찬가지입니다.

 A search task for meta-reinforcement learning

Task

These distributions of boards can be used to construct new reinforcement learning tasks. 

 

Evaluation metric.

The specific metric we use to track performance is as follows.

An agent that does well on the task will reveal all the red tiles while revealing as few white tiles as possible.

 

Baseline experiments.

The agent architecture is an LSTM meta-learner trained with reinforcement learning.

 

Instilling human inductive biases with language and programs

Natural language representations

500개의 GSP 보드에 대한 자연어 dsecriptions(by naive group of participants)

- 참가자는 25개의 unique boards 작성

- 목표: 단어들에서 red squares의 패턴 묘사

 

머신러닝 방식

- RoBERTa와 SentenceTransforer package를 활용해서 vector space를 만들고 난 후에 사람이 생성한 description과 synthetic description을 각각 임베딩하는 방식

 

Program representations

DreamCoder는 전략적 수집 단계에서 프로그램을 열거하고 점수를 매깁니다. 

이것 프로세스는 수집 ​단계에서 두 가지 방식으로 가속화됩니다.

첫 번째는 수집하는 동안 프로그램 공간 검색을 안내하는 신경망 기반 인식 모델을 학습하고

두 번째는 기존 프로그램의 반복 표현에서 추상화된 하위 프로그램으로 DSL( domain-specific language)을 오픈소스를 활용하여 학습을 합니다.

DreamCoder는 여러 주기 동안 활성화와 수집 단계를 번갈아 가며 사용합니다.

Comparing programs and language descriptions

Discussion

우리는 language descriptions and program abstractions는 인간의 귀납적 편향을 인공 신경망을 통해서 구현될 수 있다고 주장합니다. 

인간이 생성한 설명에는 설명을 압축하는 추상적인 개념(예: 선, 모양, 문자 등)에 대한 정보가 포함되어 있기 때문에 인간이 생성한 언어가 더 문자 그대로의 합성 언어 설명보다 더 인간과 유사한 성능으로 이어질 수 있음을 제안합니다.

Agents 에 인간의 귀납적 편향을 주입함으로써 우리는 기계가 인간과 같은 일반 지능을 보여줄 수 있도록 노력할 수 있습니다.

 

인간의 귀납적 사고를 기계에도 주입을 시키려는 메타러닝 & 강화학습 분야에선 human-language generated(사람이 살면서 생성한 여러가지 언어,문화 등등)과 이를 바탕으로 무언가를 도출해내는 기계적 추론이 필요하다.

728x90