SpecAugment : A Simple Data Augmentation Method for Automatic Speech Recognition

https://arxiv.org/pdf/1904.08779.pdf https://ai.googleblog.com/2019/04/specaugment-new-data-augmentation.html https://www.notion.so/SpecAugment-A-Simple-Data-Augmentation-Method-for-Automatic-Speech-Recognition-ece0a0be49844c7c93ab4f0045ee1562 https://github.com/WindQAQ/listen-attend-and-spell https://github.com/DemisEom/SpecAugment Abstract 음성 인식을 위한 간단한 data augmentation 방법 제안 SpecAugment  log mel spectrogram (이미지 처럼 다룸)을 input으로 3가지 방법으로 data augmentation Time warping Frequency masking Time masking 음성인식 네트워크로 Listen, Attend and Spell을 사용 LibriSpeech 960h,  SwitchBoard 300h dataset 대상으로 성능 개선, Language Model 과 shallow fusion 시 WER 좀 더 좋음 […]

Read More

Attention Mechanism

https://www.youtube.com/watch?v=6aouXD8WMVQ 어텐션 메커니즘의 정의 : 인간의 시각적 집중 현상을 구현하기 위한 신경망적 기법 가중치와 어텐션의 공통점과 차이점 : 해당 값을 얼마나 가중 시킬 것인가를 나타내지만, 어텐션은 가중치와 달리 전체 또는 특정영역의 입력값을 반영하여 그 중 어떤 부분(형태 객체 등)에 집중해야 하는지 나타내는 것을 목표로 함 의의 : 확률과 에너지를 기반으로한 접근, 긴 거리에서의 의존성 문제를 […]

Read More

tf.function and AutoGraph

https://www.tensorflow.org/alpha/tutorials/eager/tf_function https://www.tensorflow.org/alpha/guide/autograph 위의 두 링크에 비슷한 내용을 다루는데 페이지는 분할 되어 있다?! 두 페이지 짬뽕으로 정리하겠다. TF 2.0에서 eager execution이 default 이다. eager 모드는 매우 직관적으로 유연한 UI를 제공하지만 performance와 deploy함에 있어서 expense를 갖는다. 즉 더 나은 performance와 deployability를 위해 graph모드를 병행 해야 하는데, tf.function을 활용해 코드에서 graph를 만들 수 있게 한다. 즉, TF 2.0은 […]

Read More