آژانس امنیت ملی آمریکا چگونه گفتار را به نوشتار قابل جستجو تبدیل میکند؟
پنج شنبه 7 اردیبهشت 1396 7:52 PM
آژانس امنیت ملی آمریکا بسیاری از مکالمات تلفنی را شنود میکند. این آژانس چگونه میتواند گفتار را به نوشتار قابل جستجو تبدیل کند؟
آیفون 7 با ضمانت نامه اصلیپکیج آزمون بین المللی CCNAآمادگی ورود به بازار کار
بسیاری از افراد دریافتهاند که ایمیل و دیگر ارتباطات دیجیتال که زمانی خصوصی محسوب میشدند، اکنون بخشی از رکورد آنها خواهد بود. اما با اینکه افراد روز به روز از اپلیکیشنهایی استفاده میکنند که قابلیت درک سخن آنها را دارند، بیشتر آنها درک نمیکنند که کلمات بیان شده نیز دیگر خصوصی نیستند.
اسنادی که ادوارد اسنودن از آژانس امنیت ملی آمریکا (NSA) منتشر کرد، نشان میدهند که این آژانس میتواند با تبدیل تماسهای تلفنی به متن و نمادهای آواشناختی، از محتوای این تماسها آگاه شود. این اسناد نشان میدهند که تحلیلگران NSA حدود یک دهه پیش ساخت «Google for Voice» را جشن گرفتهاند.
گرچه دست یافتن به تبدیل کامل گفتار به نوشتار هنوز هم آرزوی جامعه امنیتی است؛ اما اسناد اسنودن نشان از استفاده گسترده از جستجوی کلمات کلیدی و برنامههای کامپیوتری دارند که برای تحلیل و استخراج محتوا از مکالمات صوتی طراحی شدهاند و حتی از الگوریتمهای پیشرفته برای نشانگذاری محتوای مورد علاقه استفاده میکنند.
این اسناد شامل نمونههایی واضح استفاده از فناوری تشخیص صدا در مناطق جنگی مانند عراق و افغانستان و مناطقی همچون آمریکای جنوبی هستند. اما این اسناد نشان نمیدهند که سازمانهای جاسوسی تا چه اندازه از این فناوری استفاده کردهاند، بهخصوص در برنامههایی که گفتگوی زیادی وجود داشته و افراد ساکن ایالات متحده بودهاند.
جاسوسی از تماسهای بینالمللی همیشه بخش عمدهای از وظایف آژانس امنیت ملی آمریکا بوده است؛ اما اینکه یک نفر باید به این مکالمات گوش بدهد، بدان معنا است که تنها درصد کمی از این مکالمات شنود میشود. NSA توانسته است با استفاده از پیشرفتهای تشخیص صدای اتوماتیک وارد عصر شنود حجمی شود.
همه اینها بدون هیچ نظارت عمومی، رسیدگی رسمی یا اقدام قانونی انجام شد. کنگره حتی هیچ سرنخی از اینکه چه اتفاقی در حال افتادن است، ندارد. لایحه USA Freedom Act که در حال حاضر در کنگره در حال بررسی است، اصلا به این موضوع نمیپردازد. این لایحه برنامهای از NSA را پایان میدهد که هیچ ارتباطی با جمعآوری کردن محتوای مکالمه ندارد. این لایحه، برنامه دولت برای جمعآوری اطلاعات تماس، چه کسی چه زمانی با چه کسی تماس گرفت و طول تماس، را پایان میدهد. حتی اگر این لایحه به قانون تبدیل شود، مکانیسمهای زیادی برای جمعآوری اطلاعات ارتباطات متنی و صوتی افراد بیگناه در ایالات متحده و سراسر دنیا در آن وجود دارد.
کارشناسان آزادیهای مدنی معتقدند که تواناییهای تبدیل گفتار به نوشتار NSA نشان از حمله به حریم خصوصی در دنیایی است که از آنالوگ به سمت دیجیتال حرکت میکند. جنیفر گرانیک از دانشگاه استنفورد میگوید:
من فکر میکنم مردم درک نمیکنند که اقتصاد جاسوسی تغییر کرده است. زمانی که شما این توانایی را داشته باشید، پرسش این است: چگونه از آن استفاده شود؟ آیا آنها میتوانند تمام تماسهای صوتی آمریکاییها را ثبت کنند، سپس تمام این تماسها را به متن تبدیل کنند و در این متنها، جستجو انجام دهند؟ این ممکن است آن کاری نباشد که آنها در حال حاضر انجام میدهند، اما در آینده خواهند توانست این کار را انجام دهند. شما چگونه میتوانید بدانید که آنها سیاست خود را تغییر دادهاند؟
در حقیقت، مقامات NSA در مورد تواناییهایشان در تبدیل گفتار به نوشتار و گستره استفاده از آن، مخفیکاری کردهاند که این، راه را برای چند امکان باز میکند. به گفته گرانیک، پنهانکاری در اینجا کلید است. او میگوید:
ما نمیدانیم چه تعداد افراد بیگناه تحت تأثیر این برنامه بودهاند، یا چه تعداد از این افراد آمریکایی بودهاند.
توماس دریک، افشاگر NSA که در این آژانس کار کرده و به عنوان یک متخصص پردازش تعلیم دیده است، میگوید پس از ۱۱ سپتامبر ۲۰۰۱ تکاپوی عظیمی برای تبدیل حجم زیادی از ارتباط صوتی به متن و اطلاعات مفید وجود داشت. گوش انسان راهحل مسئله نبود. او میگوید: «به تعداد کافی گوش وجود نداشت.»
متنهایی که از سیستم جدید به دست آمد، کامل نبود. او میگوید:
حتی اگر این متنها ۱۰۰ درصد کامل نباشند، میتوانم اطلاعات زیادی بهدست آورم. این به مراتب قابل دسترسیتر است. من میتوانم آن را جستجو کنم.
تبدیل گفتار به نوشتار باعث میشود که NSA راحتتر دریابد چه چیز را جمعآوری و ذخیره کرده است. دریک میگوید:
انقلاب این بود که میشد این کار را در مقیاس زیاد انجام داد.
بخش تحقیقات پیشرفته (دارپا) وزارت دفاع آمریکا از دهه ۱۹۷۰ به پشتیبانی مالی از تحقیقات آکادمیک و تجاری در زمینه تبدیل گفتار به نوشتار پرداخت. از میان این تحقیقات، چندین سیستم ساخته شد که همگی توانایی تبدیل گفتار به نوشتار داشتند، ولی همه آنها کند بودند؛ اما به تدریج همه آنها بهبود یافتند و توانستند با دادههای بیشتر و با سرعت بیشتر کار کنند.
دن کافمن، مدیر بخش نوآوری اطلاعاتی دارپا میگوید توانایی دولت در تبدیل نوشتار به گفتار هنوز محدود است. او میگوید تبدیل تماسهای صوتی به متن بسیار دشوار است چون نویز زیادی وجود دارد و غیررسمی نیز هست. کافمن میگوید: «میتوانم به شما بگویم که ما در انجام این کار خوب نیستیم.»
او میگوید دولت در محیطهای ایدهآل مانند پخش اخبار میتواند به راحتی گفتار را به نوشتار تبدیل کند.
یکی از اسنادی که متعلق به سال ۲۰۰۸ است و اسنودن آن را منتشر کرده، نشان از آن دارد که هفت سال پیش از تاریخ سند، تبدیل نوشتار به گفتار در برنامههای اخبار با استفاده از برنامهای با نام Enhanced Video Text and Audio Processing به خوبی انجام شده است:
EViTAP یک برنامه کاملا اتوماتیک برای کنترل اخبار است. مهمترین ویژگی این برنامه این است که میتواند اخبار را در شش زبان از جمله عربی، ماندارین، روسی، اسپانیایی، انگلیسی و فارسی تحلیل کند. ممکن است بپرسید این برنامه چگونه کار میکند. این برنامه از تشخیص گفتار اتوماتیک (Automatic Speech Recognition) استفاده میکند. سپس ترجمه ماشینی، متنهای بهدست آمده را به انگلیسی برمیگرداند. بفرمایید! تکنولوژی شگفتانگیز است.
حتی یک نسخه از این برنامه به صورت تجاری به فروش میرسد.
متخصصان تشخیص گفتار میگویند سرعت پیشرفت در این زمینه به صورت انفجاری بوده است. با ارزان و بهینه شدن امکان ذخیره داده، شرکتهای تکنولوژی قادر بودند دادههای صوتی عظیمی روی سرورهای خود نگهداری کنند و این به آنها اجازه میداد که دائما مدلهای خود را بهبود دهند. شبکههای عصبی عمیق با توانایی تشخیص طرحِ مشابه مغز انسان، باعث شدند که تهیه متن از گفتار آسانتر شود.
اسناد اسنودن نشان میدهند که همان پیشرفتهایی که در بخش تجاری دیده شده است، در NSA نیز با استفاده از توان پردازشی بالا و دادههای زیاد به دست آمده است. در حقیقت، NSA برای یک دهه سیستمهای تبدیل گفتار به نوشتار جدید و بهبودیافته عرضه کرده است.
اولین نسل این سیستمها که قابلیت جستجو برای کلمات کلیدی نیز داشت با نام RHINEHART و در سال ۲۰۰۴ عرضه شد. در یکی از اسناد NSA در این زمینه آمده است:
تکنولوژی جستجوی کلمات صوتی به کارشناسان اجازه میدهد که اطلاعات را بر اساس محتوای آنها پیدا و اولویتبندی کنند.
بر اساس این سند، تحلیلگران امنیتی که در بخش ضدتروریسم فعال هستند، قادرند کلمات مرتبط با ساخت بمب همچون «منفجر کننده» و «پیروکسید هیدروژن» و همچنین نام مکانها و افرادی همچون «بغداد» و «مشرف» را تشخیص دهند.
RHINEHART هم برای جستجوی همزمان و هم برای جستجو در اطلاعات گذشته طراحی شده بود. در سال ۲۰۰۶، RHINEHART در طیف گستردهای از مأموریتها و زبانها استفاده میشد.
حتی در همان زمان محصول پیشرفتهتری از بخش تکنولوژی زبان انسانی اناسای (HLT) منتشر شد. این سیستم VoiceRT نامیده میشد و اولین بار در بغداد رونمایی شد و توانایی تحلیل یک میلیون قطعه اطلاعات در روز داشت.
بر اساس سند دیگری، هدف این بود که با استفاده از سیستم تشخیص گفتار تمام اطلاعات بهدست آمده، ایندکس، تگ و گراف شوند. در بخشی از این سند آمده است: «یک تحلیلگر تنها میتوانست با استفاده از سیستم HLT، میلیونها قطعه اطلاعات را در روز آنالیز کند و تنها بر بخش کوچکی از آن متمرکز شود.»
سند دیگری مرتبط به سال ۲۰۰۹ که از سازمان اطلاعاتی بریتانیا (GCHQ) بهدست آمده است، نشان میدهد که NSA سیستمی برای تشخیص گفتار به نوشتار دارد که از ۱۰ سال قبل از این تاریخ به کار گرفته میشود. GCHQ در این دوره روی برنامه خود برای تشخیص گفتار زبان انگلیسی آمریکایی و دیگر زبانها به شدت سرمایهگذاری کرده است.
VoiceRT نیز چند سال پس از عرضه، پشت سر گذاشته شد. بر اساس اسناد بهدست آمده، VoiceRT در سالهای ۲۰۱۱ و ۲۰۱۲ از دور خارج شد و جای خود را به سیستم جدید داد. سیستم جدید که SPIRITFIRE نامیده میشد، توانایی مدیریت دادههای بیشتری دارد.
NSA توانایی دارد که ارتباطات صوتی را چه از طریق تلفن معمولی، چه از طریق موبایل و چه روی اینترنت شنود کند. برخی از اسنادی که منتشر کرده است، نشان میدهند که NSA در طول دهه گذشته تلاش عظیمی برای دستیابی به محتوای صوتی روی اینترنت مانند اسکایپ داشته است. این اسناد نشان میدهند NSA توانسته است با این حقیقت سازگار شود که بسیاری از تماسهای تلفنی، حتی آنهایی که با تلفن معمولی و موبایل گرفته میشوند، در نهایت به صورت پکتهای دیجیتال رهسپار فیبرهای نوری میشوند که NSA به طور مؤثر برای یافتن اطلاعات تماس و دیگر اطلاعات شنود میکند.
آرشیوی که اسنودن منتشر کرده است، نشان از استفاده گسترده NSA از تکنولوژی تبدیل گفتار به نوشتار برای جستجوی تماسهای بینالمللی در کشورهایی همچون عراق، افغانستان، مکزیک و آمریکای جنوبی دارد. به عنوان مثال، تبدیل گفتار به نوشتار بخشی از برنامه Real Time Regional Gateway بود که رئیس وقت NSA، کیث بی. الکساندر، اجرا کرده بود. هدف این برنامه تقریبا همه چیز بود؛ هر اساماس، تماس تلفنی و ایمیل عراقی که بتوان با استفاده از کامپیوترهای قدرتمند این آژانس آن را تحلیل کرد.
Real Time Regional Gateway نقش اساسی در نابودی شبکههای شورشی عراقی و کاهش مرگ و میر ناشی از بمبهای کنار جادهای داشت. ایندکس و جستجوی قطعات صوتی از سال ۲۰۰۶ در عراق فعال بود. RTRG از سال ۲۰۰۸ در افغانستان نیز استفاده شد.
یک اسلاید از یک ارائه پاورپوینت آژانس امنیت ملی آمریکا در سال ۲۰۰۶ به نقش VoiceRT میپردازد (تصویر زیر):
جستجوی کلمات کلیدی به شنود ایرانیان نیز گسترش یافت. یک سند سال ۲۰۰۶ نشان میدهد که RHINEHART به طور موفقیتآمیز برای پیدا کردن کلماتی همچون «مذاکرات» و «آمریکا» استفاده شد و توانست یک مکالمه مهم درباره دولت جدید عراق را کشف کند.
بر اساس سندی دیگر متعلق به سال ۲۰۱۱، NSA در سال ۲۰۱۱ آزمایشگاههای تکنولوژی زبانی را در افغانستان، تأسیساتی در جورجیا و تگزاس و پستهایی برای شنود در آمریکای لاتین دایر کرد. بر اساس این سند، تحلیل گفتار به نوشتار در زبان اسپانیایی کاملترین بوده و موفقیت زیادی در مورد جستجوی کلمات کلیدی اسپانیایی بهدست آمده است.
این سند همچنین یک مثال از تگزاس نشان میدهد. در این ایالت، یک تحلیلگر تازهکار توانست با استفاده از جستجوی کلمات کلیدی اطلاعاتی از یک شخص که در قاچاق مواد مخدر دست داشت، پیدا کند. در یک مثال دیگر، یک مأمور در آمریکای جنوبی توانست در مدت زمان کمی اطلاعاتی مرتبط با یک مسئول کوبایی پیدا کند.
تحلیلگران تگزاسی دریافتند که تکنولوژی جدید نعمتی برای جاسوسی خواهد بود. مدیر NSA تگزاس در این باره میگوید:
از پیدا کردن تکنولوژی تا یافتن تهدیدات انفجاری در خیابانهای مکزیک یا پیدا کردن اطلاعات در مورد قتل مأمور ایالات متحده در خیابانهای مکزیک، این تکنولوژی همان کاری را انجام داده که برایش تبلیغ شده بود؛ این تکنولوژی زمانی که فرصت بسیار کم بود، پروسه یافتن اطلاعات مرتبط را شتاب بخشید.
نویسنده این سند در معرفی تکنولوژی جدید به رهبران نظامی در افغانستان نیز دست داشته است. در بخشی از این سند آمده است:
ما از قندهار گرفته تا کابل، مسافرت کردیم تا چشمانداز رهبران NSA را توضیح دهیم و تیمهای SIGINT را با تکنولوژی تحلیلی زبان انسانی و اینکه چه کاری امروز میتوانند انجام دهند و اینکه به چه چیزهایی نیاز دارد تا به تغییردهنده بازی تبدیل شود، آشنا کردیم.
چیزی که در این اسناد به خوبی مشخص نیست، این است که NSA تا چه حد از این تکنولوژی برای جستجو و ایندکس کردن مکالمات صوتی ساکنان ایالات متحده استفاده کرده است. NSA به سؤالات در این مورد پاسخ نداد.
بر اساس اطلاعات طبقهبندی نشده، سیستم NSA میتواند فایلهای صوتی مرتبط با مکالمات انسانی را مرتب و اولویتبندی کند و برای این کار از مدلهای آماری استفاده میشود که با استفاده از شنودهای واقعی آپدیت میشوند و بهبود مییابند. بر خلاف این موارد، پارامترهای مخصوص این سیستم بهشدت طبقهبندی شده هستند. سخنگوی این سازمان، ونی واینز، در ایمیلی در این مورد میگوید:
آژانس امنیت ملی آمریکا از تکنولوژیهای مختلفی در مأموریتهای خارجی خود استفاده میکند. این قابلیتها که توسط متخصصان متعهد این آژانس انجام و توسط مقامات داخلی و خارجی نظارت میشود، کمک میکند که تهدید تروریستهای بینالمللی، قاچاق انسان، مجرمان سایبری و آنهایی را که میخواهند به شهروندان و متحدان ما ضربه بزنند، دفع کنیم.
واینز به سؤالات در مورد حریم خصوصی در تماسهای داخلی و تماسهای داخلی به خارجی پاسخی نداد؛ اما نوشت:
آژانس امنیت ملی آمریکا همانطور که رئیس جمهور در سال ۲۰۱۴ دستور داد، روشهای قدرتمندی برای حفاظت از حریم خصوصی نه تنها شهروندان ایالات متحده بلکه افراد خارجی، اعمال میکند.
بیکشا راج، متخصص تشخیص گفتار، زمان حال را به روزهای اولیه اینترنت تشبیه میکند که مردم نمیدانستند چیزهایی که مینویسند، همیشه حفظ خواهد شد. راج که در حال حاضر در دانشگاه کارنگی ملون تدریس میکند، میگوید:
زمانی که در دهه ۹۰ میلادی شروع به استفاده از اینترنت کردم، فقط پست منتشر میکردم. هیچ وقت متوجه نبودم که ۲۰ سال بعد میتوانم با استفاده از گوگل همه اینها را پیدا کنم. فرض کنید که من محتوای نامناسبی در اینترنت پست میکردم، این پست همیشه مرا خجالتزده میکرد.
او میگوید این موضوع در مورد ارتباطات صوتی نیز صادق است. وی معتقد است که چیزهای بیشتری در مخاطره هستند؛ چون بیشتر ارتباطات دنیا، صوتی است و ارتباطات صوتی همیشه به نوعی ارتباط خصوصی در نظر گرفته میشود. او میگوید:
مردم هنوز بزرگی مشکلی را که ممکن است با آن مواجه شوند، درک نمیکنند. این تنها برای جاسوسی نیست. مردم همیشه در حال استفاده از سرویسهای صوتی هستند. اما این صدا کجا میرود؟ اینها در جایی قرار میگیرند. این بالاخره به جایی میرود. شما با اعتماد زندگی میکنید. در حال حاضر من فکر نمیکنم شما بتوانید به کسی اعتماد کنید.
کیم تایپیل، یکی از چند فردی است که از یک دهه پیش در حال شناساندن این موضوع به سیاستگذاران است که قوانین جاسوسی فعلی نمیتوانند پاسخگوی ارتباطات شبکهای جهانی و تکنولوژیهای پیشرفته همچون تشخیص گفتار باشند. تایپیل میگوید:
ما در دنیایی زندگی میکنیم که چیزهایی که در دنیای آنالوگ گذرا بودند، به صورت رکورد دائمی در آمدهاند. سؤال این است: پیامدهای این موضوع چیست و چه قوانینی باید با این پیامدها سرو کله بزنند؟ توانایی دولت برای جستجوی صوتی در حجم زیاد، چیزی است که ما باید با آن زندگی کنیم. اما حداقل باید قوانین عمومی و نظارت مؤثر وجود داشته باشد که مطمئن شویم این اطلاعات فقط برای اعمال قانون و مسائل امنیت ملی و مطابق با قانون اساسی استفاده میشوند.
تایپیل معتقد است سیستمی که کامپیوترها صداهای مشکوک را مشخص میکنند، کمتر به حریم خصوصی حمله میکند تا سیستمی که انسان شنود میکند. اما جی استنلی از ACLU معتقد است که تمایز بین انسان و ماشین در حریم خصوصی، پیامدهای حاصله و اثرات مخرب برای بیان، نامربوط است. او میگوید:
چیزی که افراد اهمیت میدهند و چیزی که اثرات مخربی دارد، نتیجه است. من فکر میکنم مردم در طول زمان یاد خواهند گرفت که به دلیل نتایجی که به بار میآورد، از شنود کامپیوتری به همان اندازه شنود انسانی بترسند.
در حقیقت، گوشدادن کامپیوترها میتواند نگرانیهای جدیدی پدید آورد. یکی از اسناد NSA نشان میدهد این سازمان در حال توسعه تکنولوژی بوده است که با استفاده از رفتار گذشته تحلیلگر، درمییابد که اطلاعات شنودشده میتواند مورد نیاز کدام تحلیلگر باشد. این سند با استناد به توانایی آمازون در رهگیری و پیشبینی کردن تمایلات خریدار، به سیستمی اشاره میکند که شنودهای جالب را مشخص میکرد.
به گفته فیلیپ راگاوی، پرفسور علوم کامپیوتر دانشگاه دیویس کالیفرنیا ، جستجوی کلمات کلیدی کمترین مشکل ما خواهد بود. او هشدار میدهد:
زمانی که آژانس امنیت ملی آمریکا با استفاده از پردازش زبان طبیعی، یک نفر را به عنوان «مهم» برچسب میزند، ممکن است هیچ دلیل قابل فهم انسانی وجود نداشته باشد؛ به جز اینکه این مجموعه گفتار به آنچه ما فکر میکنیم مهم است، شباهت دارد یا اینکه این مجموعه گفتار با بقیه متفاوت است،.
او در ادامه میافزاید:
اگر الگوریتمهایی که NSA برای تشخیص تهدیدها استفاده میکند، بسیار پیچیده باشند؛ غیر ممکن خواهد بود که معیارهای جامعه امنیتی برای قضاوت کردن در مورد یک فرد را بدانیم. تنها کاری که افراد میتوانند انجام دهند، این است که شبیه دیگر افراد رفتار کنند.