Tech planet 2016 'Commerce everywhere' 참석 후기 (2/2)

기술조사

Tech planet 2016 'Commerce everywhere' 참석 후기 (2/2)

coolitea 2016. 10. 17. 17:53

Tech planet 2016 (2016.10.17.)

Commerce everywhere 세상 어느곳에나 있는 커머스 2/2

Kaz Sato

Evangelist, Google Japan

Kaz Sato / Evangelist, Google Japan

카즈 사토는 구글의 클라우드 플랫폼 팀에서 Staff Developer Advocate 으로 활동 중이다. 텐서플로우(TensorFlow), 비전API(Vision API)과 빅쿼리(BigQuery)등의 머신러닝과 데이터분석 제품들로 developer advocacy team에서 활동 중이며 Google I/O 2016, 하둡서밋 2016 산호제, 구글넥스트 2015 NYC, 텔아비브, 데브패스트 독일 등 굵직한 행사들에서 연설자로 활동하고 있다. 카즈는 또한 지난 7년간 구글클라우드의 개발커뮤니티들을 이끌고 지원했다. 또한 그는 하드웨어와 IoT에 관심이 많으며 FPGA 미팅들을 2013년부터 호스팅했다.

[Track 1-5] Google Tensor Flow & Machine Learning in the Cloud

뉴럴네트워크는 무엇인가? 딥러닝은 왜 중요한가? 이러한 기술들을 제품서비스에 적용하는데 난관들은 무엇이 있나? 이번 강의에서는 이 질문들의 답변을 제시하고 구글이 어떻게 성공적으로 거대규모의 뉴럴네트워크를 구글포토, 안드로이드, 구글서치 등에 적용했는지 알아본다. 또한 새로운 구글비젼API, 스피치 API, 텐서플로우, 클라우드Ml등의 새로운 구글클라우드 제품들을 소개하고 이들이 어떻게 개발자들로 하여금 구글의 머신러닝 경쟁력을 확장 가능하고 통제가능한 서비스들에서 이용할 수 있는지 알아본다.

신경망 (Neural Network)
데모 http://playground.tensorflow.org/#activation=tanh&batchSize=10&dataset=circle&regDataset=reg-plane&learningRate=0.03&regularizationRate=0&noise=0&networkShape=4,2&seed=0.90018&showTestData=false&discretize=false&percTrainData=50&x=true&y=true&xTimesY=false&xSquared=false&ySquared=false&cosX=false&sinX=false&cosY=false&sinY=false&collectStats=false&problem=classification&initZero=false&hideText=false
사진을 보고 ‘종’을 알아낼 수 있음
machine learning for search engines

Google Photos - 텍스트나 메타데이터 입력 할 필요 없음
Gmail - Smart reply in Inbox (모바일 답장의 10%)
Google Translate

TensorFlow - Cloud Machine Learning - ML API (일반인도 사용 가능)
Cloud Vision API

Image analysis with pre-trained models
ML필요 없음
REST API

Demo

사진 http://vision-explorer.reactive.ai
Cloud Speech API https://cloud.google.com/speech/
자연어 영어/일어/스페인어 https://cloud.google.com/natural-language/

Entities
감정 분적 가능 (긍정/부정) - 소셜미디어, 트위터 등에서 분석 가능
Syntax 분석 가능

TensorFlow : An open source library for Machine Intelligence

https://www.tensorflow.org/
API로 커버 안 되는 것들은 직접 학습시킬 수도 있음
고양이 사진 인식 : 수천~수만개 이미지를 트레이닝 시켜야 함.
치킨너겟 옮기는 것 2주 만에 개발 www.rt-net.jp/karaage1
쓰레기통에 물건 넣으면 재활용인지, 일반인지 분류
TensorFlow + Drones for counting trucks

The Challenge: Computing Power : GPU서버 훈련에 몇 일~ 몇주 걸림

Google Cloud
Jupiter network 자체적으로 구축 (다른 업체와 차이점) 10GbE x 100 K = 1Pbps 구현 가능
Tensor Processing Unit 자체 개발함
Cloud Machine Learning (Cloud ML) - Public beta

Demo - Aucnet (중고차 딜러)

5천개의 트레이닝 이미지 —> 500개 자동차 모델 분석

김영준(Kim Young Joon)

매니저, SK telecom

김영준(Kim Young Joon) / 매니저, SK telecom

서울대학교 전기·컴퓨터공학부 (학사, 석사, 박사), 한국전자통신연구원 음성처리연구팀 (‘03년 ~ ‘06), SK 텔레콤 미래기술원 (‘06~현재), SKT America 파견 (‘08~’09, Nuance 공동 개발), ETRI Journal (SCI) Reviewer (‘13 ~ 현재)

[Track 1-6] 음성 인터페이스의 진화

- 인터페이스 기술 발전 방향

- 음성인식 기술

- 현재 Trend 및 업체 동향

- 음성 인터페이스의 진화

- SK텔레콤 음성인식 소개

음성인식 - 상용이 되어 버림 (가트너 하이퍼 곡선에서 없어짐)
음성인식 관련 트렌드

하드위어 발전
타분야

대화형 인터페이스
빅 데이터 분석
언어간 결합 (자동 통역. 구글, Microsoft, Systran)

플랫폼 사업자 위주 진행

검색 (Google, MS, Baidu, 네이버, 다음 카카오)
전자상거래 (아마존, 알리바바)
SNS (페이스북), 제조 (애플, 삼성, 엘지)

Implications

차별적 UX/UI 확보를 통한 소비자 접점 확보
대용량 데이터 확보 및 활용이 중요

Trend -

서비스

Command/Action —> 대화, 의미분석
대어휘 연속음성 인식기 - 개인비서, 자동통역, 정보검색 등

기술

Command and Control —> Letters and Numbers —> Read Speech —> Broadcast News —> Conversational speech (아직 정복되지 않은 영역)
NIST STT Benchmark Test History

음성인식 기술

개요

키워드 음성인식

자연어 처리 —> Agent
분석 —> 고객의 행동을 바탕으로 상품-상품간 유사도 계산
번역 —> 문자-문자간 변환에서 음성-문자간 통역으로 진화

Apple Siri, Microsoft Cortana

‘부산 날씨 알려줘’ : 과거 히스토리를 봤을 때 노래를 들려달라는 건지, 날씨를 알려달라는 건지 판단.
‘오늘부터 우리는’: 노래 제목 틀어줘… 고유명사 처리가 어려움.

Amazon Echco, Google Assistant
음성시스템 분류

분류: Resouce 용량에 따른 분류: 단말형/서버형Cloud)
실시간성 여부에 따른 분류: 시퀀셜 (온라인)
결과 출력 형식: LVCSR (Large Vocabulary Continuous SR) 발성한 모든 결과를 출력

학문적 분류

음성학, 언어학, 통신및 정보이론, 신호처리, 패턴인식, 전산학

기술 적용 추이

음향모델, RNN 계열 언어모델, wFST (weighted Finite State Transducer) 디코더, 전처리

키워드 vs. LVCSR

키워드

장점: 적은 리소스 활용 가능. wake-up 인식 활용 가능 (Echo 알렉사, NUGU 아리아)
단점: 전체 인식에 비해 성능 저하. 미리 등록된 키워드 이외의 발성에 대한 인식 불가능

End Point Detector (EPD) 끝점 검출기 역시 전체적인 UI 관점에서 음성인식의 성능을 좌우.

음성 인식 기술의 어려움이 있음.

학교에갓다 -> 학교에 갓다 -> 학교에 갔다 -> 학교 에 갔 다
~고요 / ~구여 / ~구요 / ~고여…
음성인식에서 대화체가 어려운 이유

간투어: ㅇㅇ야~ 음… 어… (filled pause)
반복/수정 발화
speech error
발음 변이

wFST —> 속도/정확도 향상
OCR —> Deep Neural Network (DNN) 음향 모델링
음성인식에서의 DNN

DNN 기술은 기존의 분류 문제에 강점 있지만 너무 많은 Label 이 필요함

원거리 음성인식 (NUGU)

기존 방식과 차이점

원거리 음성 인식 (음압, 음향강도는 거리의 제곱에 반비례한 신호)
에코 제거
음성 트리거

해결 방식

2개의 Mic를 이용한 전처리 (인간의 귀와 같이 2개의 마이크를 이용. Gain 보상)
DNN 을 이용한 음향 모델 적응 (Simulation 기반 음향모델 학습 수행)

Blind Source Separation vs. Beamforming (아마존 에코)

SK Broadband -> NUGU -> T-map (16년 11월 적용 예정)
스피커 - 감성적으로 접근하는 어프로치가 많은 듯
전망

신규 디바이스 확산
인식 대상 범위 확대

Alex Lebrun

Team Lead, Facebook

Alex Lebrun / Team Lead, Facebook

알레스 르브룬은 현재 페이스북에서 인공지능 개발을 담당하고 있다. 그전에는 알렉스는 위트에이아이(Wit.ai)의 공동 창립자이자 CEO로서 개발자들이 쉽게 봇을 생성하거나 이용자가 대화할 수 있는 실적용을 쉽게 해주는 인공지능 플랫폼을 서비스했다. 위트에이아이는 2015년 1월 페이스북에 인수됐다. 알렉스는 또한 과거에 버츄오즈(VirtuOz)의 공동창업자 및 CEO 였으며 “엔터프라이즈를 위한 시리”로 불리우는 가상도우미를 서비스했었다. 해당회사는 2013년 누안스 커뮤니케이션즈(Nuance Communications)에게 인수됐다. 그는 또한 서울소재의 아시안쓰(Asiance)의 공동 창업자이자 이사로서 활동 했으며 해당 회사는 디지털서비스를 아시아에 특화해 제공하였다. 프랑스, 파리소재의 폴리떼크니크(ecole Polytechnique)에서 컴퓨터공학 석사를 받았으며 중국문화와 언어를 공부하는데 많은 시간을 투입했다.

[Track 2-7] Facebook Chatbot M messenger

올해는 봇들이 최고의 관심을 받고 있다. 이번에는 진짜로 약속한 내용들이 제공될지는 미지수 이다. 개발자로서 당신의 봇을 어떻게 만들어야 할까? 이번 세션에는 인공지능과 봇의 역사를 간략하게 짚어보고 언제 이들이 의의를 찾을지(또는 말지)와 당신이 봇을 만들기로 하면 활용 할 수 있는 베스트프랙티스(best-practice)들을 논의해 보자.

15년 전 Cybelle —> virtuOz Nuance -> wit.ai (facebook)
아담 튜링

The Turing Test (1950) - 20분 동안 대화 한 후 인간인지 기계인지 알 수 없다면 인텔리전트 하다

ELIZA (1966) - MIT. Joseph Weizenbaum

bot 만듬

‘2001 스페이스 오디세이’

우주선에 사람 탑승 시키지 않고 죽인 것을 결정

Pieraccioni, Bloom, Krogh
The A.I. Winter (1990 ~ 2012)

But… A.I. came back!
이유: 머신러닝이 드디어 동작하기 시작함!
프로그래밍 (법칙/룰을 알려줌) vs. ML (input / output 예시를 알려줌. 과거에 보지 못한 input을 주어도 output을 낼 수 있음.)

머신러닝

손으로 쓴 숫자 알아내는 것부터 시작
사용자: Offline —> Website —> Mobile App —> Messaging (4bil. internet users. 3.6 bit messaging users)

Bot:Messaging::App:Mobile

Conversational
Natural language is optional (버튼으로 작동하는 봇도 가능)
Channels: messenger, SMS, web, voice
Powered by software and/or humans (시리, 아마존 에코…)
Facebook M
예

SPRING (미국 e커머스 봇 신발 구입 추천) - 반나절 정도로 개발 가능

https://www.shopspring.com

KLM 항공사 - 웹사이트 항공권에서 구매한 이후 대화 시작. (텍스트)

예약해줘서 감사합니다.
예약 내역 알려주고
고객이 질문 하면 대답해줌
체크인 시 알려주고
탑승권 모바일로 보내줌
비행이 지연 된다면 해당 쓰레드를 이용하여 계속 대화를 할 수 있음

bot 의 장점 ( vs. apps )

무료.
install(설치) 안 해도 됨.
알림/인증/지불/유저 지역/유저 행동 등에 대해 추가 정보 필요 없음.
The thread always contains the context
Collaboration (conversation w/ several users and a bot)

Build your own bot

Write job specs

Bot: KimchiMaster
Goal: Increase kimchi sales
Engagement strategy - Initiate three when customers order kimchi from our website
Scope - 1) Order tracking (proactive); 2) Help select the best kimchi for any recipe and tries to sell it
Out-of-scope strategy : Escalate to human
Metrics - 1) Engagement rate; 2) Number of conversations; 3) Direct sales $ generated

Start with a simple implementation

Channels (Kako, FB Messenger, SMS, Web, Speech)
Natural Language Understanding —> {intent: “find-kimchi”, recipe: “kimchi jig”}
Dialog Manager
Natural Language Generation —> Speech {template:”~~~~”, k: “Foie kimchi”

Simplify the world

Good old rules (if then, decision trees, regular expression…)
Traditional ML (딥러닝 외의 기존 모든 방법. CRF entity recognition, MaxEnt classifiers, TF/IDF, Bayees…)
Deep learning (RNN, MemNN, SeqToSeq, attention)
Human people (부끄러운 일이 아님. AI는 계속 학습해야 함)
Development workflow
wit.ai

http://wit.ai

Set expectations

예: ‘망치’를 보고 커피가 나오지 않는 다는 것은 모두 다 알죠. 보기만 해도 스콥이 나오죠.
bot을 보고는? scope을 알 수 없음. 봇이 모든 것으 다 해줄것이라고 기대를 세팅하면 안 됨. 기대치를 낮게 세팅

Ship early and often

e.g. ‘I want to listen to Bob Markey’ ‘play Red Hot Chilli Peppers’
베타에서 시작하시길.
일단 출시한 후, 모든 사용자의 의견을 읽고 개선하면 됨

mi.jobs 에 아마존 job 공고가 떴었음.

You wish you had built an e-commerce website in 1994.
… stop whining and build your won bot NOW!

Tech planet 2016 'Commerce everywhere' 참석 후기 (1/2)

저작자표시 비영리 변경금지 (새창열림)