🤖AI6 [신경망] 활성화 함수 딥러닝을 공부하다 보면 자주 나오는 용어 중 하나가 활성화 함수(Activation Function)입니다. 오늘은 이 활성화 함수가 무엇인지, 왜 중요한지에 대해 정리해보겠습니다.1️⃣ 퍼셉트론과 신경망🔍 퍼셉트론(perceptron)이란?퍼셉트론은 인공 뉴런을 흉내 낸 가장 기본적인 모델입니다.입력값에 가중치를 곱해 더한 후정해진 임계값을 넘으면 1, 넘지 않으면 0을 출력하는 아주 간단한 구조입니다. 하지만 퍼셉트론은 비선형 문제(XOR 문제 등)를 풀지 못합니다.그래서 이를 극복하기 위해 등장한 것이 바로 다층 퍼셉트론(MLP)입니다.🔍 다층 퍼셉트론(MLP)이란?다층 퍼셉트론은 가장 기본적인 신경망이라고 할 수 있습니다.하나의 퍼셉트론만으로는 복잡한 문제를 해결하기 어려워 여러 개의 퍼셉트론.. 2025. 5. 31. [신경망] 퍼셉트론과 다층 퍼셉트론 딥러닝 혹은 인공 신경망을 학습하시는 분들께서 가장 먼저 접하게 되는 개념 중 하나는 바로 퍼셉트론(Perceptron)입니다. 퍼셉트론은 신경망을 구성하는 가장 기본적인 단위로, 그 작동 원리와 구조는 이후 학습하게 될 더 복잡한 모델들을 이해하는 데 있어 매우 중요한 기반이 됩니다.1️⃣ 퍼셉트론이란?퍼셉트론은 생물학적 뉴런을 수학적으로 단순화한 모델입니다.인간의 뇌에서 뉴런이 다양한 자극을 받아 일정 기준 이상이 되면 반응하는 것과 같이퍼셉트론은 여러 입력 값을 받아 계산한 후 특정 조건을 만족할 경우에만 출력 신호를 보냅니다.퍼셉트론의 구성 요소입력값 (x₁, x₂, ..., xₙ): 외부 데이터가중치 (w₁, w₂, ..., wₙ): 각 입력의 중요도를 나타냄편향 (bias): 계산값을 조정하는.. 2025. 4. 1. [BERT]Input Embedding 🔍 BERT의 입력 임베딩(Input Embedding)BERT는 입력 문장을 이해하기 위해 단순히 단어만을 입력하지 않고,각 단어를 벡터(임베딩)로 변환해 모델에 넣습니다.하지만 단어 벡터만으로는 문장 구조나 문맥을 완전히 표현할 수 없기 때문에,BERT는 3가지 임베딩(Token, Segment, Position)을 더해서 최종 입력 벡터를 구성합니다. 🚀 BERT의 입력 임베딩 3가지 요소1️⃣ Token Embedding문장의 각 단어(토큰)를 고유한 벡터로 변환합니다.BERT는 WordPiece 토크나이저를 사용해 단어를 더 작은 의미 단위로 나눕니다.예를 들어,"playing" → "play" + "##ing""unbelievable" → "un" + "##believable""##"는 앞.. 2025. 1. 9. [BERT]Input/Output Representations 🔍 BERT: 입력/출력 표현(Input/Output Representations)BERT의 입력 방식은 하나의 문장뿐만 아니라, 두 개의 문장(예: 질문-답변 쌍) 도 명확하게 표현할 수 있도록 설계되어 있습니다.즉, BERT는 단일 문장과 문장 쌍 모두를 다룰 수 있는 구조입니다. Sentence(문장)여기서 말하는 "문장"은 실제 언어적 문장(linguistic sentence)이 아니라 연속된 텍스트의 임의의 구간(span of contiguous text)을 의미합니다.예를 들어, 문서의 일부 구절이나 단락의 일부도 "문장"으로 간주될 수 있습니다.Sequence(시퀀스)BERT에 입력되는 토큰의 연속(입력 토큰 시퀀스)을 의미합니다.이 시퀀스는 단일 문장일 수도 있고, 두 개의 문장을 하나로.. 2025. 1. 9. [BERT]BERT의 Architecture 🔍 BERT의 Architecture(구조)1️⃣ BERT의 기본 구조는 TransformerBERT는 Transformer라는 신경망 구조를 기반으로 만들어졌습니다.transformer는 크게 아래와 같이 두 부분으로 나뉩니다.인코더(Encoder): 문장을 이해하고, 의미를 추출디코더(Decoder): 문장을 생성👉 BERT는 이 중 '인코더'만 사용합니다. 즉, 문장을 깊게 이해하는 데 집중하는 모델인거죠!2️⃣ Layer(레이어)란 무엇일까?Layer(층)는 BERT가 문장을 처리하는 작업 단계라고 생각하면 쉽습니다.문장이 BERT에 들어가면 여러 Layer(층)을 통과하면서 점점 더 복잡한 패턴과 의미를 학습하게 됩니다.Layer가 많을수록 더 깊이 있는 정보를 학습할 수 있으나 많으면 모델.. 2025. 1. 9. [BERT]BERT란? 🔍 BERT란? Bidirectional Encoder Representations from Transformers1. BERT의 핵심 개념Bidirectional Representations을 학습하는 딥러닝 기반 NLP 모델트랜스포머(Transformer) 구조 중 인코더(Encoder) 부분만 활용BERT는 문장 전체를 양방향(Bidirectional)으로 읽고, 문장의 앞뒤 문맥을 동시에 사용해 단어의 의미 이해2. Pre-training 방식1. Masked Language Model (MLM)MLM은 문장 내에서 일부 단어를 [MASK]로 랜덤하게 가리고, 이를 복원하는 방식입니다.좌우 문맥(양방향)을 모두 활용하여 마스킹된 단어를 예측하며 GPT와 달리 문장 전체에서 좌우를 모두 참고하기 .. 2025. 1. 9. 이전 1 다음