AI 용어들을 정리했습니다. AI 기업들과 업무를 진행하게 될때 알아야 할 키워드입니다. 아래 용어들은 다양한 유튜브 영상 등을 시청하며 나온 키워드들을 중심으로 선정했습니다.
AI 용어 모음
번호 | 용어 | 분류 | 설명 | 예 | 기타 |
1 | 인공지능 (Artificial Intelligence) | 개념 | – 기계가 사람처럼 사고하거나 판단하는 것처럼 보이는 기술 – 입력을 받아 출력을 계산하는 복잡한 시스템 | 챗봇, 얼굴 인식, 자율주행 | |
2 | 머신러닝 (Machine Learning) | 개념 | – 인공지능의 하위 분야로 데이터를 통해 스스로 규칙을 학습하는 AI 기술 – 사람이 직접 규칙을 만들지 않아도 됨 | 이메일 스팸 분류, 추천 시스템 | |
3 | 딥러닝 (Deep Learning) | 모델 구조 | – 머신러닝의 하위 분야로 인공신경망을 기반으로 한 머신러닝 기법 – 복잡한 데이터 구조와 패턴 학습에 강함 – 현재 유행하는 LMM 등 대부분의 AI 기술에 딥러닝이 사용됨 | 음성 인식, 이미지 분류, 자율주행 | |
4 | 파운데이션 모델 (Foundation Model) | 모델 | – 대규모 데이터로 사전 학습되어 다양한 작업에 범용적으로 적용 가능한 대규모 머신 러닝 모델 – 특징으로는 범용성, 전이학습 가능, 데이터 효율성, 응용분야의 다양성 등이 있음 | GPT, PaLM, LLaMA | Stanford에서 2021년 제안된 개념 |
5 | 생성 모델 (Generative Model) | 모델 | – 기존 데이터를 학습하여 새로운 데이터를 생성하는 AI – 현실적인 텍스트나 이미지 생성 가능 | 딥페이크, 이미지 생성 AI | |
6 | LLM (Large Language Model) | 모델 | – 대규모 텍스트 데이터를 학습하여 문맥과 언어 구조를 이해하는 모델 – 다양한 언어 태스크에 활용됨 – 언어 모델이란 주어진 텍스트를 기반으로 어떤 단어가 나오는게 적절할지 머신러닝 기법으로 학습시키는 것을 의미함 | GPT, Claude, 번역기 | Transformer 구조 기반 |
7 | LMM (Large Multimodal Model) | 모델 | – 텍스트, 이미지, 음성 등 다양한 모달을 함께 처리하는 대형 모델 – 멀티모달 기반의 이해와 생성 능력 보유 | GPT-4V, Gemini | |
8 | LAM (Large Action Model) | 모델 | – 사용자의 명령을 이해하고 여러 앱/툴에서 직접 행동을 수행하는 AI – 도구 실행형 AI | OpenAI GPT-4 + 액션 툴 | |
9 | VLM(시각 언어 모델 : Vision-Language Model) | 모델 | – 이미지와 텍스트를 동시에 이해하고 처리하는 AI 모델 – 주로 질문응답, 설명 생성 등 복합 작업에 사용 | GPT-4V, Flamingo | 멀티모달 모델의 한 종류로 텍스트+비전 중심 |
10 | 할루시네이션 (Hallucination) | 문제 현상 | – AI가 실제와 다른 그럴듯한 허위 정보를 생성하는 현상 – 생성형 AI의 주요 문제 중 하나 | 사실 아닌 내용을 진짜처럼 생성 | |
11 | 오버피팅 (Overfitting) | 문제 현상 | – 학습 데이터에만 너무 맞춰져서 새로운 데이터에 성능이 떨어지는 현상 – 일반화 능력 부족 상태 | 기출문제만 외운 학생 | |
12 | AX (AI eXperience) | 활용 전략 | – 사용자 경험을 중심으로 한 AI 설계 개념 – UX에 AI 기능이 자연스럽게 녹아들도록 설계 | AI 추천, AI 자동 입력 기능 | |
13 | RAG (Retrieval-Augmented Generation) | AI 아키텍처 | – 검색 시스템과 생성형 AI를 결합해 문서를 참고하며 응답 생성 – 외부 지식 활용으로 최신성 보완 | PDF 검색 + GPT 응답 | |
14 | 자연어 처리(NLP:Natural Language Processing) | 기술 분야 | – 인간 언어를 이해하고 처리하는 기술 분야 – 문장 분석, 요약, 번역 등 다양한 작업 포함 | ChatGPT, 번역기 | |
15 | 인공신경망 (Artificial Neural Network) | 모델 구조 | – 뇌의 뉴런 구조를 모방한 계산 구조 – 딥러닝의 기본 단위가 되는 모델 | 이미지 분류, 음성 인식 | 1950년대 개념 등장, 1980년대 재조명 |
16 | 트랜스포머 (Transformer) | 모델 구조 | – 문장 내 단어 간 관계를 효율적으로 학습하는 모델 구조 – 병렬 처리에 유리하고 LLM의 기반이 되는 구조 | GPT, BERT | 2017년 Google 논문 ‘Attention is All You Need’에서 제안 |
17 | 아키텍처 (Architecture) | 모델 구조 | – AI 모델의 구조적 설계 방식 – 레이어 수, 연결 방식, 연산 흐름 등을 포함 | 트랜스포머, CNN, RNN | |
18 | 뉴럴 네트워크 (Neural Network) | 모델 구조 | – 인간 뇌의 뉴런을 모방한 계산 구조 – 입력, 은닉, 출력층으로 구성 | 인공신경망, CNN | |
19 | 매개변수(파라미터 :Parameter) | 모델 구성 | – 모델 내부에서 학습되는 값들로, 입력을 출력으로 변환하는 데 사용됨 – 모델의 ‘기억’ 역할 | 수백억 개 파라미터를 가진 GPT-3 | |
20 | 피드포워드 (Feedforward) | 모델 흐름 | – 입력 → 은닉층 → 출력층으로 순방향 흐름 – 순환 없이 단방향으로 계산 진행 | MLP 구조 | |
21 | 전이 학습 (Transfer Learning) | 학습 전략 | – 기존에 학습한 모델을 다른 유사한 작업에 재사용하는 기법 – 학습 시간을 단축하고 데이터가 부족한 상황에서 유용 | 이미지넷 모델을 활용해 의료 영상 진단 | |
22 | 파인튜닝 (Fine-tuning) | 학습 전략 | – 전이 학습된 모델을 특정 작업에 맞게 미세 조정하는 방식 – 소량의 도메인 특화 데이터로 성능 향상 가능 – 전이학습을 구체적으로 실행하는 방법 중의 하나 | GPT에 고객 대응 대화 데이터를 추가 학습 | |
23 | 사전학습 (Pretraining) | 학습 전략 | – 대량의 일반 데이터를 먼저 학습해 언어나 이미지의 일반 지식을 습득하는 단계 – 이후 특정 작업에 파인튜닝 | 위키피디아를 기반으로 LLM 학습 | |
24 | 지도 학습 (Supervised Learning) | 학습 방식 | – 입력과 정답 라벨이 함께 제공되는 데이터를 기반으로 학습 – 분류 및 회귀 문제에 주로 사용됨 | 고양이/개 이미지 분류, 이메일 스팸 필터링 | |
25 | 강화 학습 (Reinforcement Learning) | 학습 방식 | – 정답 없이 보상을 통해 최적의 행동을 학습하는 방식 – 시도와 실패를 반복하며 전략을 발전시킴 | 게임 AI, 로봇 팔 제어 | |
26 | 비지도 학습 (Unsupervised Learning) | 학습 방식 | – 정답 라벨 없이 데이터 내 구조나 패턴을 학습하는 방식 – 데이터 분류, 군집화 등에 활용됨 | 고객 세그먼트 분석, 뉴스 기사 분류 | |
27 | 모방 학습 (Imitation Learning) | 학습 방식 | – 전문가의 행동을 관찰하고 이를 모방하며 학습 – 지도 학습과 강화 학습의 중간 형태 | 자율주행차가 운전 패턴 학습 | |
28 | 역전파 (Backpropagation) | 학습 방식 | – 오차를 출력층에서 입력층으로 전달하며 파라미터를 조정 – 신경망 학습을 가능하게 하는 핵심 알고리즘 | 딥러닝 학습 중 오차 전파 | |
29 | 백프로파게이션 (Backpropagation) | 학습 방식 | – 출력과 실제값의 차이를 계산해 가중치를 조정하는 알고리즘 – 딥러닝 학습의 핵심 | 오차 역전파 | 1986년 Hinton 논문으로 확산 |
30 | RLHF(Reinforcement Learning with Human Feedback) | 학습 전략 | – 인간 피드백을 활용해 AI의 응답을 개선하는 강화 학습 기법 – LLM 응답 품질 개선에 사용 | ChatGPT 학습 과정 중 사용 | |
31 | 멀티 모달(multi modal) | 모델 특성 | – 텍스트, 이미지, 음성 등 서로 다른 형태(모달)의 데이터를 함께 처리하는 방식 – 다양한 정보원을 종합해 더 정밀한 판단 가능 | 이미지에 대한 설명 생성, 영상에서 자막 자동 생성 | 최근 LMM(멀티모달 모델)이 활발히 개발됨 |
32 | 임베딩 (Embedding) | 표현 방식 | – 단어나 이미지 등 다양한 입력을 숫자 벡터로 바꾸는 방법 – AI가 의미를 계산할 수 있게 변환 | “고양이” → [0.23, 0.11, -0.95, …] | 단어 임베딩, 문장 임베딩 등 다양함 |
33 | STT (Speech to Text) | 입력 변환 | – 음성 데이터를 텍스트로 변환하는 기술 – 음성 인식의 대표적 활용 | 회의 녹음 → 회의록 자동 생성 | 도메인 특화 모델은 일반 모델보다 정확도가 높음 |
34 | 도메인 | 도메인 (Domain) | – AI가 학습하거나 작동하는 특정 분야나 주제 영역 – 각 도메인에 맞는 데이터가 필요함 | 의료 영상, 법률 문서, 고객 상담 데이터 | 도메인 특화 모델은 일반 모델보다 정확도가 높음 |
35 | 말뭉치(Corpus) | 데이터 자원 | – 언어나 말뭉치 등 대규모 텍스트 데이터 모음 – AI 학습에 사용되는 기본 텍스트 자원 | 뉴스 기사 모음, 위키백과 문서 | 품질 좋은 코퍼스는 모델 성능에 직접적 영향 |
36 | 로지스틱 회귀 (Logistic Regression) | 기초 모델 | – 확률을 기반으로 이진 분류를 수행하는 기본적인 머신러닝 모델 – 학습이 빠르고 해석이 쉬움 | 스팸 메일 분류 | |
37 | 선형 회귀 (Linear Regression) | 기초 모델 | – 입력 변수와 출력 변수 간의 선형 관계를 모델링하는 회귀 모델 – 가장 기본적인 예측 모델 중 하나 | 집값 예측 | |
38 | 활성화 함수 (Activation Function) | 계산 구성요소 | – 뉴런의 출력 신호를 결정하는 비선형 함수 – 딥러닝의 비선형 표현력을 가능하게 함 | ReLU, Sigmoid | |
39 | 어텐션 (Attention) | 계산 구조 | – 입력 중 중요한 부분에 가중치를 부여해 집중하는 메커니즘 – 문맥 이해, 번역, 요약 등에 활용 | 문장에서 핵심 단어 집중 | |
40 | Self-Attention | 계산 구조 | – 입력의 각 요소가 서로 어떤 관계인지 스스로 계산하여 반영 – 트랜스포머 구조의 핵심 | 문장 내 단어 간 관계 분석 | |
41 | 벡터 (Vector) | 데이터 구조 | – 숫자들의 1차원 배열로, AI 연산의 기본 단위 – 단어, 이미지, 음성 등 다양한 형태로 변환 가능 | [1.2, -0.3, 5.1] | |
42 | 텐서 (Tensor) | 데이터 구조 | – 벡터, 행렬보다 확장된 3차원 이상의 다차원 배열 구조 – 딥러닝에서 입력, 출력, 가중치 등 모든 데이터를 텐서로 처리 | 이미지(가로, 세로, 채널) = 3차원 텐서 | |
43 | 행렬 (Matrix) | 데이터 구조 | – 숫자들이 2차원으로 정렬된 배열 – 벡터보다 구조가 복잡하며, 이미지/연산 등 다양한 형태로 활용 | 이미지 픽셀 배열 | |
44 | 정규화 (Normalization) | 데이터 처리 | – 데이터의 크기 또는 범위를 일정하게 조정하는 전처리 기법 – 학습 안정성과 속도 향상에 기여 | 0~1 사이로 수치 변환 | |
45 | 샘플링 (Sampling) | 데이터 처리 | – 전체 데이터 중 일부를 선택해 처리하거나 추출하는 방식 – 학습 속도와 효율 향상에 사용 | 미니배치 학습, 확률 기반 텍스트 생성 | |
46 | 희석 (Diffusion) | 생성 모델 방식 | – 데이터를 점차 노이즈화했다가 복원하며 생성하는 방식 – 이미지, 오디오 등에서 활용 | Stable Diffusion, DALL·E | |
47 | 하이퍼파라미터 (Hyperparameter) | 설정값 | – 사람이 사전에 설정하는 학습 관련 변수들 – 모델의 학습 방식과 성능에 큰 영향 | 학습률, 배치 크기, 레이어 수 | |
48 | 학습률 (Learning Rate) | 설정값 | – 경사 하강법에서 파라미터를 얼마나 크게 조정할지 결정하는 값 – 너무 크면 발산, 너무 작으면 수렴이 느려짐 | 0.1, 0.01, 0.001 등 | |
49 | 오픈소스 (Open Source) | 소프트웨어 라이선스 | – 누구나 사용할 수 있도록 소스 코드를 공개한 소프트웨어 – AI 모델도 오픈소스로 공개되며 연구·개발에 기여 | LLaMA, BLOOM | |
50 | 추론 (Inference) | 실행 단계 | – 학습된 모델이 새로운 입력에 대해 결과를 예측하는 과정 – 실제 서비스 단계에서 사용되는 기능 | 챗봇에 질문을 넣으면 답을 반환 | |
51 | 토큰 (Token) | 언어 처리 단위 | – 문장을 모델이 처리할 수 있도록 나눈 기본 단위 – 단어, 음절, 문자 등으로 분할 | ‘안녕하세요’ → [안, 녕, 하, 세, 요] | |
52 | Word Embedding | 언어 표현 방식 | – 단어를 벡터로 표현하는 기술 – 단어 간 의미 유사성을 수치화 | Word2Vec, GloVe | |
53 | 프롬프트 (Prompt) | 입력 방식 | – 생성형 AI에게 입력하는 지시 또는 질문 – 모델이 어떤 응답을 생성할지 결정하는 주요 요소 | “이메일 제목 써줘”, “5줄 요약해줘” | |
54 | 쿼리 (Query) | 입력/검색 방식 | – 사용자가 AI 또는 시스템에 입력하는 질문이나 요청 – 검색 엔진 또는 언어 모델 입력 | ‘AI란 무엇인가?’ | |
55 | 드롭아웃 (Dropout) | 정규화 기법 | – 학습 중 일부 뉴런을 임의로 꺼 과적합을 방지하는 기법 – 일반화 성능 향상에 효과적 | 학습 중 무작위로 뉴런 제거 | |
56 | 정규화 기법 (Regularization) | 정규화 기법 | – 모델의 복잡도를 제어해 과적합을 방지하는 기법 – 파라미터 크기를 제한하여 일반화 향상 | L1, L2 정규화 | |
57 | 소버린 AI (Sovereign AI) | 정책/전략 | – 특정 국가나 조직이 독립적으로 개발, 통제하는 AI 시스템 – 데이터 주권과 보안, 전략적 자율성을 위한 접근 | 중국, 러시아의 자체 LLM 개발 | |
58 | 경사 하강법 (Gradient Descent) | 최적화 방법 | – 손실 함수를 최소화하도록 파라미터를 조정하는 알고리즘 – 학습의 핵심 최적화 기법 | 학습 중 가중치 조정 | |
59 | 손실 함수 (Loss Function) | 평가 기준 | – 모델의 예측값과 실제값의 차이를 수치화해 학습 기준으로 사용 – 값이 작을수록 예측 정확도가 높음 | MSE, Cross-Entropy | |
60 | 정확도 (Accuracy) | 평가 지표 | – 모델이 예측한 값 중 실제로 맞은 비율 – 전체 중에서 정답으로 예측한 비율을 백분율로 표시 | 90% 정확도 = 100개 중 90개 정답 | |
61 | BLEU/ROUGE | 평가지표 | – AI가 생성한 텍스트와 기준 텍스트의 유사도를 평가하는 지표 – 기계 번역, 텍스트 요약 품질 비교에 사용 | BLEU 점수로 번역 정확도 측정 | |
62 | CPU(Central Processing Unit) | 하드웨어 | – 컴퓨터의 기본 연산 장치로 대부분의 일반 작업을 수행 – 복잡한 AI 연산에는 속도와 병렬성의 한계 존재 | 문서 편집, 웹 서핑 | |
63 | GPU(Graphics Processing Unit) | 하드웨어 | – 대량의 병렬 계산에 특화된 장치로, AI 학습과 추론에 필수적 – 행렬 연산이 많은 딥러닝에서 성능 발휘 | AI 서버, 게임 그래픽 처리 | |
64 | 에폭 (Epoch) | 학습 반복 횟수 | – 전체 데이터를 한 번 학습한 횟수를 의미함 – 에폭 수가 많을수록 학습 기회는 많아지지만 과적합 가능성도 있음 | 5 에폭 = 데이터셋 5회 반복 | |
65 | 배치 (Batch) | 학습 처리 단위 | – 전체 학습 데이터를 여러 작은 묶음으로 나누어 학습하는 방식 – 메모리 절약 및 계산 효율을 높임 | 100개씩 묶어 처리 | |
66 | 라벨링(labeling) | 데이터 처리 | – AI 모델 학습을 위해 입력 데이터에 정답(레이블)을 붙이는 작업 주로 사람이 수작업으로 수행하거나 반자동 도구를 사용 | 예: 고양이 사진에 “고양이”라는 라벨 부착, 감정 분석 데이터에 “긍정” 표시 | 기타: 데이터 품질에 따라 모델 성능이 크게 달라짐 |
(끝)

거북이 미디어 전략 연구소장은 미디어의 온라인 수익화와 전략에 주요 관심을 가지고 있습니다.
저는 Publisher side에서 2015년부터 모바일과 PC 광고를 담당했습니다. 2022년부터 국내 포털을 담당하고 있습니다.
▲ 강의 이력
구글 디지털 성장 프로그램의 광고 워크샵 게스트 스피커(21년 6월)
구글 서치콘솔, 네이버 서치어드바이저, MS 웹마스터 도구 사용법(24년 8월 한국 언론진흥재단 미디어교육원)