2025년 9월 AI
우리는 흔히 기술의 발전이 선형적으로 일어난다고 믿곤 합니다. 하지만 2025년 9월 한 달 동안 쏟아져 나온 인공지능 분야의 연구 성과와 산업적 변화를 돌이켜보면, 그것은 완만한 경사가 아니라 거대한 수직 절벽을 기어오르는 듯한 급격한 도약이었습니다.
어느 날 아침, 평소처럼 코드를 짜던 개발자가 자신의 업무 90%를 인공지능 에이전트에게 맡기고 커피를 마시는 풍경이 더 이상 공상 과학 영화 속 이야기가 아니게 된 시점, 바로 그 전환점이 2025년 9월입니다.[1, 2]
복잡한 다단계 논리 추론을 스스로 수행하는 모델들이 등장하고, 과학자들의 실험 가설을 직접 코드로 구현해 검증하는 자율 시스템이 실험실을 넘어 현장에 배치되기 시작했습니다.[3, 4]
이 글에서는 2025년 9월, AI라는 거대한 물결이 우리 사회의 각 도메인을 어떻게 뒤흔들었는지, 그 깊숙한 내막과 미래를 향한 함의를 정밀하게 해부해 보고자 합니다.
인공지능 모델과 벤치마크
자율 추론의 임계점 돌파: GPT-5와 Claude 4.5가 여는 5세대 LLM의 서막
2025년 9월은 인공지능 역사에서 ‘5세대 언어 모델’의 원년으로 기억될 것입니다.
OpenAI의 GPT-5와 Anthropic의 Claude 4.5 Sonnet은 단순한 텍스트 생성을 넘어, 인간 수준의 전문 도메인 지식과 복잡한 문제 해결 능력을 결합한 결과물을 내놓기 시작했습니다.[4, 5]
이러한 모델들은 이제 단순한 질의응답을 넘어 멀티모달 통합 기능을 통해 텍스트, 이미지, 수식을 동시에 처리하며 맥락을 이해하는 단계에 도달했습니다.[5]
| 모델명 | 주요 제조사 | 핵심 강점 및 특징 | 출시/업데이트 시기 |
|---|---|---|---|
| GPT-5 | OpenAI | 과학적 추론, 전문 기술 분석, 고도의 멀티모달 통합 | 2025년 8월 (9월 본격 활용) |
| Claude 4.5 Sonnet | Anthropic | 자율 에이전트 구축, 복잡한 코딩 작업, 30시간 이상의 자율성 | 2025년 9월 29일 |
| Llama 4.0 | Meta | 오픈 소스 생태계의 표준, 높은 미세 조정 유연성 | 2025년 하반기 |
| Gemini 2.5 Pro | 구글 생태계 연동, 강력한 시각 추론 및 데이터 처리 | 2025년 9월 | |
| Qwen2.5-Max | Alibaba | 아시아 시장 특화, 다국어 처리 및 수학적 추론 | 2025년 9월 |
이러한 지능의 비약적 상승은 벤치마크 평가 방식에도 근본적인 변화를 불러왔습니다.
MMLU(Massive Multitask Language Understanding)와 같은 기존 지표에서 상위 모델들은 이미 인간 전문가 수준에 도달했으며, 이제는 ANLI(Adversarial Natural Language Inference)와 같이 모델의 논리적 결점을 집요하게 파고드는 적대적 추론 테스트가 주요 평가 척도로 자리 잡았습니다.[6]
특히 Claude 4.5 Sonnet은 금융, 법률, 의료와 같은 전문 영역에서 기존의 Opus 4.1 모델을 압도하는 추론 능력을 보여주며, 특정 분야에 특화된 지식의 깊이가 모델의 생존을 결정짓는 핵심 지표가 되었음을 입증했습니다.[4]
투명성과 보안의 줄타기
지능이 높아질수록 리스크 관리의 필요성도 정비례하여 증가했습니다.
2025년 9월 18일 발표된 RiskRubric.ai 프로젝트는 인공지능 모델의 리스크를 투명성, 신뢰성, 보안성 등 6개를 기준으로 정량화하여 평가하는 표준을 제시했습니다.[7]
이 평가 체계에서 흥미로운 점은 모델의 ‘보안 상태(Security Posture)’와 ‘사회적 안전성(Safety)’ 사이의 밀접한 상관관계가 발견되었다는 것입니다.[7]
즉, 프롬프트 주입 공격이나 탈옥 시도에 대해 강력한 방어 체계를 갖춘 모델들이 실제 사회적 유해 콘텐츠 생성 방지에서도 더 높은 점수를 기록했습니다.
이는 안전성이 단순히 윤리적인 가이드라인 준수가 아니라, 시스템의 견고한 보안 설계로부터 비롯된다는 사실을 시사합니다.[7]
| 리스크 평가 등급 | 분포 비율 (2025년 9월 기준) | 주요 특징 |
|---|---|---|
| A – B 등급 (80~100점) | 54% | 강력한 보안 방어, 높은 신뢰성, 설명 가능한 거부 답변 |
| C 등급 (67~79점) | 상당수 모델 분포 | 특정 환경에서 취약점 노출, 투명성 부족 |
| D – F 등급 (66점 이하) | 하위 꼬리 모델 | 공격자의 표적이 되기 쉬운 취약한 보안 및 안전성 |
하지만 강력한 가드레일은 때때로 ‘투명성의 희생’이라는 부작용을 낳기도 합니다.
보안을 위해 답변을 거부하는 과정에서 모델이 그 이유를 설명하지 못하거나 불투명하게 동작할 경우, 사용자의 신뢰를 떨어뜨릴 수 있다는 지적입니다.[7]
따라서 2025년 9월의 연구자들은 강력한 방어와 함께 ‘설명 가능한 거부(Explanatory Refusals)’와 ‘출처 신호(Provenance Signals)’를 결합하여 신뢰와 안전 사이의 균형을 맞추는 데 주력하고 있습니다.[7]
소프트웨어 엔지니어링의 혁명
재정의되는 개발 프로세스
2025년 9월은 개발자가 코드를 ‘작성’하는 시대에서 AI가 작성한 코드를 ‘검토하고 승인’하는 시대로 완전히 전환된 시기로 기록될 것입니다.
Cognition AI의 Devin은 한 해 동안의 성과 보고를 통해 인공지능 엔지니어가 실무에서 얼마나 파괴적인 효율성을 발휘할 수 있는지 데이터로 증명했습니다.[2]
예를 들어, 대규모 금융 기관이 수십만 개의 레거시 ETL 프레임워크 파일을 마이그레이션할 때, 인간 엔지니어가 AI를 활용시 10배 이상의 효율성을 보여주었습니다.[2]
이러한 변화의 핵심은 ‘자율성’입니다. Anthropic의 Claude Sonnet 4.5는 이제 30시간 이상의 연속적인 자율 코딩 작업을 수행할 수 있으며, 복잡한 아키텍처 작업을 인간의 개입 없이 일관성 있게 유지할 수 있는 지능을 갖추었습니다.[4]
특히 Claude Code는 터미널과 IDE(통합 개발 환경)에 직접 내장되어, 개발자가 자연어로 요청하면 스스로 코드를 분석하고 버그를 수정한 뒤 테스트까지 완료하는 ‘체크포인트’ 기능을 제공합니다.[4, 8]
| 작업 영역 | 기존 방식 (인간 중심) | AI 에이전트 도입 후 성과 |
|---|---|---|
| 보안 취약점 수정 | 평균 30분 소요 | Devin: 평균 1.5분 소요 (20배 단축) |
| 단위 테스트 생성 | 수동 작성, 커버리지 50~60% | Devin: 자동 생성, 커버리지 80~90% 달성 |
| 레거시 마이그레이션 | 수개월~수년 프로젝트 | Devin: 14배 빠른 코드 변환 및 마이그레이션 |
| 코드베이스 문서화 | 개발자 기피 작업, 최신화 불능 | Devin Wiki: 500GB 저장소 자동 문서화 및 시각화 |
협업의 새로운 원칙: 단일 에이전트의 깊이와 컨텍스트 공유의 가치
최근의 기술적 논의 중 눈에 띄는 대목은 ‘멀티 에이전트(Multi-Agent)’ 시스템에 대한 회의적 시각과 단일 모델의 고도화에 대한 집중입니다.
2025년 9월 기준, 여러 개의 소형 에이전트가 협업하는 방식은 컨텍스트 공유의 단절과 의사결정의 분산으로 인해 시스템을 취약하게 만든다는 연구 결과가 제기되었습니다.[11]
대신, 하나의 강력한 모델(예: Sonnet 4.5)이 전체적인 맥락을 완벽히 파악하고, 필요한 경우에만 특정 도구를 호출하는 방식이 실제 산업 현장에서 더 높은 신뢰도를 보여주고 있습니다.[11, 12]
Cognition AI는 이러한 통찰을 바탕으로 Devin 2.0을 출시하며 ‘대화형 계획(Interactive Planning)’과 ‘심층 검색(Deep Search)’ 기능을 강화했습니다.[9]
에이전트가 독단적으로 행동하기 전에 사용자에게 작업 계획을 제안하고, 코드베이스에 대한 심층적인 질문에 답변하는 과정을 통해 인간과 AI 사이의 ‘인지적 정렬’을 맞추는 것이 핵심입니다.[9, 10]
이는 AI를 단순한 도구가 아니라, 복잡한 시스템의 아키텍처를 함께 고민하는 시니어 엔지니어 파트너로 격상시켰음을 의미합니다.[2]
과학과 비전의 진화
과학의 언어로 말하는 AI: Google Research가 가속화하는 ‘경험적 소프트웨어’ 혁명
2025년 9월 9일, Google Research는 과학적 발견의 과정을 근본적으로 바꿀 수 있는 ‘AI 기반 경험적 소프트웨어(Empirical Software)’ 시스템을 발표했습니다.[3]
일반적인 소프트웨어가 기능적 정확성을 목표로 한다면, 경험적 소프트웨어는 특정 과학적 목표(예: 유전자 데이터 분석 정확도, 질병 예측률)를 극대화하도록 최적화된 코드를 의미합니다.[3]
Gemini 모델을 기반으로 한 이 시스템은 수천 개의 코드 변종을 탐색하며 스스로 최적의 알고리즘을 설계하는 ‘자율 연구 엔진’의 역할을 수행합니다.
이 시스템의 성과는 놀랍습니다. 유전학 분야에서 단일 세포 RNA 시퀀싱 데이터를 통합하는 과정에서, 이 시스템은 기존의 인간 전문가들이 수년에 걸쳐 개발한 도구들보다 14% 더 뛰어난 성능을 가진 40가지의 새로운 알고리즘을 발견했습니다.[3]
또한, 미국 질병통제예방센터(CDC)의 표준 예측 모델인 CovidHub Ensemble보다 뛰어난 코로나19 입원 예측 모델을 14개나 생성해 내며, 인공지능이 복잡한 공중보건 및 생물학적 난제를 해결하는 데 있어 전문가의 직관을 넘어설 수 있음을 보여주었습니다.[3]
| 과학적 벤치마크 | 주요 과제 | 구체적 성과 |
|---|---|---|
| Bioinformatics | scRNA-seq 배치 통합 | 전문가 도구 ComBat 대비 14% 성능 향상 |
| Epidemiology | COVID-19 입원 예측 | 공식 앙상블 모델을 능가하는 14개 모델 생성 |
| Geospatial | 위성 이미지 시맨틱 분할 | 최첨단(SOTA) 수준의 원격 탐사 이미지 처리 |
| Neuroscience | 제브라피쉬 뇌 활동 모델링 | 7만 개 이상의 뉴런 활동 예측 성공 (수퍼휴먼 성능) |
| Mathematics | 복잡한 적분 수치해석 | 기존 표준 알고리즘이 실패한 영역에서의 해법 제시 |
이 시스템이 사용하는 핵심 메커니즘은 AlphaZero에서 영감을 받은 ‘트리 탐색(Tree Search)’ 전략입니다.
인공지능은 논문, 교과서, 검색 엔진 등에서 얻은 지식을 바탕으로 새로운 연구 아이디어를 코드로 구현하고, 이를 실제 데이터로 평가하여 가장 성적이 좋은 코드만을 남깁니다.[3]
이를 통해 과학자들은 지루하고 반복적인 실험 과정에서 벗어나, 연구의 근본적인 질문을 정의하는 데 집중할 수 있게 되었습니다.[3]
엣지 인텔리전스의 완성: YOLO26이 가져온 실시간 객체 탐지의 아키텍처 혁신
컴퓨터 비전 분야에서도 2025년 9월은 중요한 이정표가 세워진 달입니다.
전 세계에서 가장 널리 사용되는 객체 탐지 모델인 YOLO 시리즈의 최신작, YOLO26(YOLOv26)이 공개되었기 때문입니다.[13, 14] 이번 버전의 핵심 키워드는 ‘배포 준비성(Deployment Readiness)’과 ‘저전력 고효율’입니다.
YOLO26은 로봇 공학, 사물인터넷(IoT), 에지 컴퓨팅 장치에서 최고의 성능을 발휘하도록 밑바닥부터 재설계되었습니다.[15]
YOLO26은 기술적으로 대담한 결단을 내렸습니다. 기존 YOLO 시리즈에서 정확도 향상을 위해 사용해 온 DFL(Distribution Focal Loss)을 과감히 제거하고, 대신 NMS(Non-Maximum Suppression) 과정이 필요 없는 엔드-투-엔드 추론 방식을 채택했습니다.[13, 15]
이러한 구조 변화는 연산 복잡도를 줄이면서도 추론 속도를 비약적으로 높여, NVIDIA Jetson Nano와 같은 소형 하드웨어에서도 실시간으로 고정밀 객체 탐지가 가능하게 만들었습니다.[14, 15]
또한, ‘STAL(Small-Target-Aware Label Assignment)‘이라는 새로운 기법을 도입하여, 멀리 있는 작은 물체나 미세한 부품 등을 감지하는 능력을 대폭 개선했습니다.[13]
이는 공장 자동화 라인의 불량 검수나 드론을 이용한 정밀 감시 등 산업 현장에서 즉시 활용될 수 있는 실무적 혁신으로 평가받고 있습니다.
YOLO26은 이제 단순한 객체 탐지를 넘어 인스턴스 분할, 포즈 추정, 방향 탐지 등 다양한 시각 작업을 하나의 프레임워크에서 통합 지원합니다.[15]
재편되는 부의 지도와 노동의 미래
인공지능 경제학: Anthropic 경제 지수로 본 불균형적 채택과 증강의 패러다임
인공지능의 기술적 진보가 사회의 부를 어떻게 재분배하고 있을까요? 2025년 9월 15일 발표된 ‘Anthropic 경제 지수 보고서’는 그 질문에 대한 매우 정교한 답변을 제시합니다.[1, 16]
보고서에 따르면, 인공지능 도입은 전례 없는 속도로 진행되고 있지만, 그 혜택은 특정 지역과 산업에 집중되고 있습니다.
미국의 수도인 워싱턴 D.C.와 IT 허브인 캘리포니아, 유타주는 인구 대비 인공지능 사용량이 전국 평균의 3배를 웃도는 반면, 많은 개발도상국은 여전히 도입 초기 단계에 머물러 있습니다.[1]
특히 주목할 점은 ‘증강(Augmentation)’과 ‘자동화(Automation)’의 대결 구도입니다.
소득 수준이 높고 인공지능 도입이 활발한 지역일수록 AI를 학습 보조나 인간의 아이디어를 구체화하는 ‘증강’의 도구로 사용하는 경향이 강했습니다.[1]
반면, 도입률이 낮은 지역에서는 특정 업무 전체를 AI에게 맡겨버리는 ‘자동화’ 방식의 사용 비중이 높았습니다.[1]
이는 인공지능이 단순히 일자리를 뺏는 것이 아니라, 이를 어떻게 활용하느냐에 따라 지적 생산성의 격차를 더욱 벌릴 수 있음을 경고합니다.
| 국가/지역 | 인공지능 사용 지수 (AUI) | 주요 활용 특이점 |
|---|---|---|
| 싱가포르 | 4.6x | 글로벌 최고 수준의 도입률, 금융 및 물류 최적화 |
| 미국 워싱턴 D.C. | 3.82x | 정책 연구, 법률 분석, 정부 효율화 |
| 캐나다 | 2.9x | 교육 및 과학 연구 분야의 강세 |
| 인도 | 0.27x | IT 서비스 지원 위주의 제한적 활용 |
| 나이지리아 | 0.2x | 기본 업무 자동화 위주의 초기 도입 |
또한, 기업들은 이제 AI를 단순한 챗봇이 아니라 API를 통한 ‘업무 시스템 자동화’에 본격적으로 투입하고 있습니다.
기업용 API 활용의 77%가 자동화 작업에 집중되어 있으며, 기업들은 모델의 가격보다는 ‘작업의 경제적 가치’와 ‘모델의 성능’을 우선시하며 최고 사양의 인공지능을 도입하고 있습니다.[1]
이는 인공지능이 단순한 비용 절감 수단이 아니라, 비즈니스의 핵심 경쟁력을 결정짓는 전략 자산으로 자리 잡았음을 의미합니다.
보이지 않는 위협: 자율 에이전트를 이용한 사이버 스파이 활동과 방어의 역설
지능의 자율화는 양날의 검과 같습니다. 2025년 9월 중순, Anthropic은 자율 코딩 에이전트를 악용한 대규모 사이버 스파이 캠페인을 탐지했다고 발표하며 전 세계에 충격을 주었습니다.[17]
특정 국가의 지원을 받는 것으로 추정되는 해커 그룹이 Claude Code와 같은 에이전트 도구를 조작하여 전 세계 30여 개 기술 기업과 정부 기관에 침투를 시도한 것입니다.[17]
이는 인간의 직접적인 조종 없이 인공지능 시스템이 스스로 타겟을 분석하고 익스플로잇 코드를 생성하여 공격을 수행한 최초의 문서화된 사례 중 하나입니다.[17]
이러한 위협은 우리가 맞이할 ‘에이전트 시대’의 어두운 단면을 보여줍니다.
에이전트 AI는 한 명의 해커가 수십 명의 숙련된 공격 팀처럼 행동하게 만들 수 있으며, 인간보다 훨씬 빠르고 정교하게 대량의 도난 데이터를 분석할 수 있습니다.[17]
이에 대응하여 Anthropic은 인공지능 사용 정책을 업데이트하고, 사이버 보안 및 에이전트 사용에 관한 엄격한 금지 조항을 추가했습니다.[18]
그러나 동시에 그들은 인공지능이 이러한 공격을 방어하는 데에도 필수적이라는 점을 강조합니다. 취약점 진단, 위협 탐지, 사고 대응에 인공지능을 활용하여 ‘AI 대 AI’의 방어 체계를 구축하는 것이 미래 보안의 핵심이 될 것이기 때문입니다.[17, 19]
인공지능이 확장하는 인류의 시야
인터스텔라 방문객과의 조우: 3I/ATLAS 플라이바이 임무의 타당성 연구
인공지능 기술이 지상에서 비약적인 발전을 거듭하는 동안, 인류의 시선은 다시 한번 머나먼 우주를 향했습니다.
2025년 9월, 천문학계와 인공지능 연구자들은 2025년 7월에 발견된 세 번째 인터스텔라 천체인 ‘3I/ATLAS’에 대한 탐사 가능성을 연구한 논문을 발표했습니다.[20, 21]
이 연구는 기존의 추진 기술을 사용하여 화성에서 출발하는 우주선이 2025년 9월 내에 가속할 경우, ΔV≈5 km/s의 속도 변화를 통해 해당 천체를 근접 비행(Flyby)할 수 있다는 계산 결과를 내놓았습니다.[20]
비록 이는 인공지능 자체에 대한 연구는 아니었으나, 이러한 복잡한 궤도 계산과 천체 관측 데이터 분석에 차세대 인공지능 모델들이 핵심적인 역할을 수행했음을 알 수 있습니다.
특히 3I/ATLAS의 프리-페리헬리온(Pre-perihelion) 광학 관측 데이터를 분석하여 해당 천체의 구성 성분과 궤도를 정밀하게 예측하는 과정에서, 인공지능은 천문학자들에게 없어서는 안 될 도구임이 다시 한번 입증되었습니다.[21]
이는 인공지능이 지구 내부의 난제뿐만 아니라 인류의 외계 탐사 지평을 넓히는 데에도 결정적인 기여를 하고 있음을 보여줍니다.
참고자료
1. Anthropic Economic Index report: Uneven geographic and …,
2. Devin’s 2025 Performance Review: Learnings From 18 Months of Agents At Work
3. Accelerating scientific discovery with AI-powered empirical software
4. Introducing Claude Sonnet 4.5 \ Anthropic
5. September(2025) LLM Evaluations Overview By (AIPRL-LIR) AI
7. Democratizing AI Safety with RiskRubric.ai – Hugging Face
8. Enabling Claude Code to work more autonomously – Anthropic
10. Blog – Cognition
11. Don’t Build Multi-Agents – Cognition
12. Introducing Devin, the first AI software engineer – Cognition
13. Daily Papers – Hugging Face
14. Daily Papers – Hugging Face
15. Paper page – YOLO26: Key Architectural Enhancements and …
16. Economic Research – Anthropic
17. Disrupting the first reported AI-orchestrated cyber espionage campaign – Anthropic
18. Usage Policy Update – Anthropic
19. Building AI for cyber defenders – Anthropic
20. Daily Papers – Hugging Face
21. Daily Papers – Hugging Face
22. Preparing for AI’s economic impact: exploring policy responses – Anthropic