人工智能技术非常适合 OSINT 操作,因为它们可以快速准确地处理大量数据。以下是人工智能和 OSINT 如何协同工作的几个示例:
- 人工智能可以自动收集和处理来自各种来源的数据,包括社交媒体、新闻网站和公共记录。之后,机器学习算法可以分析这些数据以发现趋势和模式。
- 自然语言处理(NLP):NLP 是情报分析的有用工具,因为它可用于翻译用其他语言编写的内容、从文本数据中提取相关信息以及评估文本数据。
- 图像和视频分析:人工智能能够分析多媒体文件,识别人脸、物体,甚至情绪。这对于情报收集和行动很重要。
在这种情况下,保护隐私和满足相关立法的要求需要成为使用人工智能进行开源情报时首要考虑的道德问题。
1. 隐私问题:确保数据收集不侵犯人们的权利或隐私法律。未经同意不得收集个人数据。
2. 公平性和偏差:训练数据集可能会导致人工智能模型出现偏差。不仅如此,还应该不时进行审核,以确保人工智能能够给出公正且公正的结果。
3.开放性:人工智能系统处理不同的数据并将其用于多种目的。就像利益相关者一样,提高信任水平符合公众的最大利益。
将 google.generativeai 导入为 genai
genai.configure(api_key=api_key)
模型 = genai.GenerativeModel('gemini-1.5-flash')
Google Gemini 每分钟提供 15 个请求,这就是我使用它的原因。我还使用 Duck Duck Go Search Python 包,它具有人工智能对话功能。不过,用户可能会滥用该请求。因此,他们对它的访问仅限于某些请求。我正在使用 Google Gemini 分析信息。
从 duckduckgo_search 导入 DDGS
导入时间
# 查询搜索
query =“要搜索的查询”
# 初始化搜索对象
结果 = DDGS().text(查询, max_results=5)
# 存储搜索结果的列表
搜索结果 = []
# 跟踪开始时间
开始时间 = 时间.time()
# 从文本中提取个人信息
对于 i,结果为 enumerate(results, start=1):
# 检查是否已发出 15 个请求以及是否在 1 分钟内
如果我%15==0:
elapsed_time = time.time() - 开始时间
如果 elapsed_time < 60:
# 休眠剩余时间,使其间隔1分钟
时间.睡眠(60 - elapsed_time)
# 睡眠后重置开始时间
开始时间 = 时间.time()
# 从结果中提取URL
网址 = 结果['href']
片段=结果['body']
# 从 URL 中提取电子邮件地址
result_info = model.generate_content(f' “{查询}”:{片段}')
尝试:
# 将结果添加到search_results列表中
search_results.append(result_info.text)
除了:
# 如果提取失败,将URL追加到search_results列表中
搜索结果.append(URL)
# 将结果写入文件
将 open('search_results.txt', 'w') 作为 f:
# 将search_results列表中的每一项写入文件
对于 search_results 中的项目:
f.write("%s\n" % 项目)
此脚本中使用 DDGS().text 方法来查找与给定查询相关的网站。我添加了一个计数器系统来跟踪已发出的请求数量。为了防止压垮搜索引擎或命中率限制,如果计数器在一分钟内升至 15 以上,脚本将暂停 60 秒。
每个网站的内容或正文都包含在搜索结果中,可以对其进行分析以提供更具体的详细信息。 BeautifulSoup 库可用于从网站内容中抓取更多数据,以进行更复杂的内容提取。
获得相关内容后,您可以利用提示进一步筛选数据,得出重要结论,并将数据保存到文件中以供进一步检查。这种方法对于收集和分析来自多个来源的信息特别有用。
注意:此信息仅用于教育目的。未经授权或不道德地使用这些技术可能会导致法律后果。始终确保您的行为符合适用的法律和道德准则。
版权声明
本文为本站原创内容,转载需注明文章来源(https://www.eiefun.com),另:文中部分素材可能会引用自其他平台,如有侵权或其它,请联系 admin@eiefun.com,我们会第一时间配合删除