در تازهترین پژوهش منتشرشده توسط شرکت Semrush در ژوئن ۲۰۲۵، دادههای بیش از ۱۵۰ هزار وبسایت و منبع آنلاین مورد بررسی قرار گرفتند تا مشخص شود مدلهای زبانی مشهور هوش مصنوعی مانند ChatGPT، Claude، Gemini و Perplexity بیشترین اتکا را به کدام وبسایتها دارند.
نتیجه این تحقیق برای بسیاری از فعالان حوزه فناوری و بازاریابی دیجیتال شگفتانگیز بود:
مدلهای زبانی بیش از هر چیز از محتوای تولیدشده توسط کاربران (User Generated Content) تغذیه میشوند، نه از منابع علمی یا آکادمیک.
Reddit؛ بزرگترین منبع آموزشی ChatGPT و Perplexity
طبق گزارش Semrush، ردیت (Reddit) با سهم ۴۰.۱ درصدی در صدر منابع آموزشی هوش مصنوعی قرار دارد. این پلتفرم از هزاران انجمن گفتوگو تشکیل شده که کاربران در آن درباره موضوعات مختلف، از فناوری و پزشکی تا سیاست و فرهنگ عامه، صحبت میکنند.
چنین حجم عظیمی از گفتوگوهای طبیعی، یکی از غنیترین منابع برای آموزش مدلهای زبانی است. مدلهایی مثل ChatGPT از این دادهها میآموزند که چگونه مثل انسانها گفتگو کنند، اصطلاحات روزمره را بشناسند و حتی احساسات را درک کنند.
اما این اتکا، یک هشدار نیز دارد: محتوای Reddit همیشه دقیق یا بیطرف نیست. بنابراین، مدلهای هوش مصنوعی ممکن است گاهی تحتتأثیر سوگیریهای جمعی کاربران قرار گیرند — موضوعی که اهمیت نظارت انسانی بر فرآیند آموزش را برجستهتر میکند.
ویکیپدیا؛ ستون فقرات دادههای متنی هوش مصنوعی
در رتبه دوم، Wikipedia با سهم ۲۶.۳ درصدی قرار گرفته است.
ویکیپدیا بهدلیل ساختار منظم، استنادهای علمی و بهروزرسانی مداوم، یکی از معتبرترین منابع برای آموزش مدلهای زبانی محسوب میشود.
محتوای این سایت به هوش مصنوعی کمک میکند تا ساختار زبانی رسمی، تاریخ، مفاهیم علمی و اطلاعات پایهای را بهتر درک کند.
به بیان دیگر، اگر Reddit به مدلهای زبانی “زبان محاورهای” یاد میدهد، ویکیپدیا “زبان رسمی و دانشی” را آموزش میدهد.
ترکیب این دو، همان چیزی است که باعث میشود پاسخهای ChatGPT هم دقیق و هم طبیعی باشند.
YouTube؛ آموزش چندوجهی برای هوش مصنوعیهای نسل جدید
یوتیوب با سهم ۲۳.۵ درصدی در جایگاه سوم قرار دارد.
برخلاف تصور عمومی، دادههای YouTube تنها شامل ویدیو نیست، بلکه شامل زیرنویسها، توضیحات و نظرات کاربران نیز میشود. این دادهها به مدلهای چندوجهی کمک میکند تا زبان طبیعی را با تصویر، صدا و احساسات ترکیب کنند.
مدلهای زبانی پیشرفته مانند GPT-5 یا Gemini اکنون قادرند ویدیوها را تحلیل کنند و مفاهیم تصویری را درک نمایند — قابلیتی که بخش زیادی از آن از دادههای YouTube به دست میآید.
این نشان میدهد که آیندهی هوش مصنوعی نه فقط متنی، بلکه چندرسانهای و تعاملی خواهد بود.

گوگل، یلپ و فیسبوک؛ بازیگران پنهان در پشت دادهها
رتبههای بعدی متعلق به Google با ۲۳.۳٪، Yelp با ۲۱٪ و Facebook با ۲۰.۲٪ است.
گوگل بهعنوان دروازهی اصلی اطلاعات، نقشی کلیدی در ایندکس و طبقهبندی دادهها برای مدلهای آموزشی دارد.
در حالی که یلپ و فیسبوک دادههای ارزشمندی درباره رفتار مصرفکنندگان، بازخوردهای مشتریان و تعاملات انسانی ارائه میدهند.
مدلهای زبانی از چنین دادههایی برای تحلیل احساسات، پیشبینی رفتار کاربران و بهینهسازی پاسخها بر اساس تجربه واقعی انسانها بهره میبرند.
آمازون، تریپادوایزر و دادههای ساختاریافته برای یادگیری ماشینی
در فهرست Semrush، نام پلتفرمهای تجاری نیز به چشم میخورد.
Amazon (۱۸.۷٪)، TripAdvisor (۱۱.۵٪) و OpenStreetMap (۱۱٪) بخش مهمی از دادههای ساختاریافته را در اختیار مدلهای هوش مصنوعی قرار میدهند.
این دادهها شامل نقدها، امتیازها، قیمتها و مسیرها هستند — عناصری که برای آموزش مدلهای تصمیمیار، سیستمهای توصیهگر (Recommendation Systems) و رباتهای مشاورهای حیاتیاند.
بهعنوان مثال، وقتی از ChatGPT درباره بهترین هتل در رم یا محبوبترین گوشی میانرده میپرسید، بخش زیادی از دانش او از دادههای چنین سایتهایی سرچشمه میگیرد.

اینستاگرام، لینکدین و eBay؛ دادههای تخصصی و بصری
در ادامه، Instagram (۱۰.۹٪)، eBay (۷.۲٪) و LinkedIn (۵.۹٪) به چشم میخورند.
این پلتفرمها هرکدام نوع خاصی از داده را وارد اکوسیستم هوش مصنوعی میکنند:
-
اینستاگرام، تصاویر و توضیحات احساسی کاربران را؛
-
لینکدین، دادههای حرفهای و شغلی را؛
-
و ایبی، دادههای مربوط به بازار و رفتار خرید کاربران را.
همین تنوع باعث شده مدلهای زبانی امروز بتوانند درباره موضوعات بسیار متفاوت، از مد و موسیقی تا استخدام و تجارت جهانی، پاسخهایی دقیق ارائه دهند.
محتوای کاربرمحور؛ شمشیر دولبه در آموزش هوش مصنوعی
وابستگی روزافزون مدلهای زبانی به محتوای کاربرمحور، یک واقعیت اجتنابناپذیر است.
از یک سو، این محتوا تنوع، خلاقیت و واقعگرایی را به دنیای هوش مصنوعی تزریق میکند. از سوی دیگر، ریسک انتشار اطلاعات نادرست، سوگیری و محتوای احساسی یا غیرعلمی را افزایش میدهد.
به گفته کارشناسان Semrush، مدلهای هوش مصنوعی برای مقابله با این چالش، باید از سیستمهای ارزیابی صحت محتوا (Content Validation) و فیلترهای چندمرحلهای داده استفاده کنند.
با این حال، هیچ سیستمی نمیتواند بهطور کامل از تأثیر محتواهای نادرست در امان باشد.
فرصت بزرگ برای کسبوکارها و برندها
از نگاه بازاریابی و برندینگ، این گزارش حامل یک پیام طلایی است:
هر پستی، نقدی یا مقالهای که برند شما در اینترنت منتشر میکند، میتواند در آینده به بخشی از دادههای آموزشی هوش مصنوعی تبدیل شود.
به همین دلیل، کیفیت و اعتبار محتوا اهمیت استراتژیکی پیدا کرده است.
کسبوکارهایی که از امروز بر روی محتوای مفید، مستند و انسانی سرمایهگذاری کنند، در آینده نزدیک از الگوریتمهای هوش مصنوعی بیشترین بهره را خواهند برد — چرا که این الگوریتمها دقیقاً از همین محتواها یاد میگیرند.
به عبارت دیگر، اگر میخواهید ChatGPT برند شما را درست معرفی کند، باید محتوایی تولید کنید که ارزش یادگیری داشته باشد.
آیندهای دادهمحور و اخلاقمحور
تحلیل دادههای Semrush نشان میدهد که جهان به سمت هوش مصنوعیهای مشارکتی حرکت میکند؛ مدلهایی که به جای تکیه صرف بر منابع رسمی، از واقعیت زندگی کاربران الهام میگیرند.
اما این مسیر، نیازمند چارچوبهای اخلاقی و نظارتی دقیق است تا از سوءاستفاده از دادهها و انتشار اطلاعات نادرست جلوگیری شود.
در نهایت، آیندهی هوش مصنوعی ترکیبی از دانش، تجربه انسانی و مسئولیت اجتماعی خواهد بود — سه عاملی که اگر به درستی در کنار هم قرار گیرند، میتوانند دنیایی شفافتر، هوشمندتر و منصفانهتر بسازند.
جمعبندی نهایی
پژوهش Semrush در سال ۲۰۲۵ نشان داد که هوش مصنوعی بیش از هر زمان دیگری به انسانها نزدیک شده است.
از پستهای Reddit تا ویدیوهای YouTube، از مقالات Wikipedia تا نقدهای Amazon — همه و همه در حال ساختن ذهن دیجیتال آیندهاند.
وابستگی مدلهای زبانی به محتوای کاربرمحور، هم فرصتی برای رشد و هم هشداری برای دقت بیشتر است.
جهان دیجیتال امروز دیگر فقط مکانی برای مصرف محتوا نیست؛ بلکه آزمایشگاه یادگیری هوش مصنوعی آینده است.
source